,

مقاله FSD50K-Solo: گردآوری خودکار رویدادهای صوتی تک‌منبعی

تومان249,950

مجموعه داده‌های آموزشی با کیفیت بالا برای عملکرد شبکه‌های عصبی ضروری هستند. با این حال، حوزه صوتی همچنان فاقد مجموعه داده‌ای بزرگ، با برچسب‌های قوی و رویدادهای صوتی تک‌منبع است. مجموعه داده FSD50K، عل…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000278 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

FSD50K-Solo: گردآوری خودکار رویدادهای صوتی تک‌منبعی

FSD50K-Solo: Automated Curation of Single-Source Sound Events

نویسندگان: Ningyuan Yang, Sile Yin, Li-Chia Yang, Bryce Irvin, Xiao Quan, Marko Stamenovic, Shuo Zhang

شناسه منبع: arxiv / 2605.13931v1

دسته: eess.AS

چکیده (فارسی)

مجموعه داده‌های آموزشی با کیفیت بالا برای عملکرد شبکه‌های عصبی ضروری هستند. با این حال، حوزه صوتی همچنان فاقد مجموعه داده‌ای بزرگ، با برچسب‌های قوی و رویدادهای صوتی تک‌منبع است. مجموعه داده FSD50K، علی‌رغم نسبتاً بزرگ و باز بودن، حاوی بخش قابل توجهی از نمونه‌های چندمنبعی است که در آن تداخل پس‌زمینه یا رویدادهای همپوشان می‌تواند مفید بودن داده‌ها را محدود کند. برای مقابله با این چالش، ما یک چارچوب گردآوری داده را طراحی کرده‌ایم که برای پیکره‌های صوتی باز در مقیاس بزرگ در نظر گرفته شده است. رویکرد ما از یک مدل مولد انتشاری برای سنتز رویدادهای تک‌کلاسه تمیز برای ساخت مخلوط‌های نویزی کنترل‌شده برای نظارت استفاده می‌کند. متعاقباً، ما از یک رمزگذار صوتی از پیش آموزش‌دیده همراه با یک طبقه‌بند تمایزدهنده برای شناسایی و فیلتر کردن خودکار نمونه‌های چندمنبعی استفاده می‌کنیم. آزمایش‌ها نشان می‌دهند که چارچوب ما عملکرد قوی را در یک مجموعه آزمون که توسط متخصصان انسانی گردآوری شده است، نشان می‌دهد. در نهایت، ما FSD50K-Solo را منتشر می‌کنیم، زیرمجموعه‌ای از FSD50K که توسط مدل گردآوری شده و حاوی نمونه‌های صوتی تک‌منبع شناسایی شده توسط روش ما است. فراتر از FSD50K، روش ما یک پارادایم مقیاس‌پذیر برای گردآوری پیکره‌های صوتی منبع باز ایجاد می‌کند.

Abstract (English)

High-quality training datasets are essential for the performance of neural networks. However, the audio domain still lacks a large-scale, strongly-labeled, and single-source sound event dataset. The FSD50K dataset, despite being relatively large and open, contains a considerable fraction of multi-source samples where background interference or overlapping events could limit the usefulness of the data. To address this challenge, we introduce a data curation framework designed for large-scale open audio corpora. Our approach leverages a generative diffusion model to synthesize clean single-class events to construct controlled noisy mixtures for supervision. We subsequently employ a pre-trained audio encoder coupled with a discriminative classifier to automatically identify and filter out multi-source samples. Experiments show that our framework achieves strong performance on a human expert-curated test set. Finally, we release FSD50K-Solo, a model-curated subset of FSD50K containing single-source audio samples identified by our method. Beyond FSD50K, our method establishes a scalable paradigm for curating open source audio corpora.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله FSD50K-Solo: گردآوری خودکار رویدادهای صوتی تک‌منبعی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا