,

مقاله فراتر از انتظار: مطالعه‌ای بر تشخیص گفتار خودکار مدرن برای ارزیابی بهبود گفتار

تومان249,950

سیستم‌های بهبود گفتار (SE) معمولاً با استفاده از معیارهای مختلف ابزاری ارزیابی می‌شوند. استفاده از سیستم‌های تشخیص خودکار گفتار (ASR) برای ارزیابی عملکرد SE در مقالات رایج است، که معمولاً بر اساس نرخ …

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000344 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

فراتر از انتظار: مطالعه‌ای بر تشخیص گفتار خودکار مدرن برای ارزیابی بهبود گفتار

Too Good to Be True: A Study on Modern Automatic Speech Recognition for the Evaluation of Speech Enhancement

نویسندگان: Danilo de Oliveira, Tal Peer, Timo Gerkmann

شناسه منبع: arxiv / 2605.12107v1

دسته: eess.AS

چکیده (فارسی)

سیستم‌های بهبود گفتار (SE) معمولاً با استفاده از معیارهای مختلف ابزاری ارزیابی می‌شوند. استفاده از سیستم‌های تشخیص خودکار گفتار (ASR) برای ارزیابی عملکرد SE در مقالات رایج است، که معمولاً بر اساس نرخ خطای کلمه (WER) سنجیده می‌شود. با این حال، امتیازات WER به شدت به انتخاب سیستم ASR و خط لوله نرمال‌سازی متن بستگی دارد. در این مقاله، ما بررسی می‌کنیم که مدل‌های مدرن ASR چگونه با تشخیص انسانی گفتار بهبود یافته همبستگی دارند. یک آزمایش شنیداری نشان می‌دهد که مدل‌های مدرن ASR با آموزش در مقیاس بزرگ در محیط‌های پرنویز و مدل‌های زبانی تعبیه شده، نسبت به مدل‌های ساده‌تر، همبستگی بیشتری با WER انسانی دارند و مدل ترنسدیوسر قابل اعتمادترین رونویسی‌ها را ارائه می‌دهد. با این وجود، ما همچنین نشان می‌دهیم که استحکام این مدل‌ها در برابر نویز و استفاده از زمینه می‌تواند برای ارزیابی عملکرد بهبود با تمرکز بر آکوستیک، نامربوط باشد.

Abstract (English)

Speech enhancement (SE) systems are typically evaluated using a variety of instrumental metrics. The use of automatic speech recognition (ASR) systems to evaluate SE performance is common in literature, usually in terms of word error rate (WER). However, WER scores depend heavily on the choice of ASR system and text normalization pipeline. In this paper, we investigate how modern ASR models correlate with human recognition of enhanced speech. A listening experiment reveals that modern ASR models with large-scale noisy training and embedded language models correlate more with human WER than simpler ones, with a transducer model providing the most reliable transcriptions. Nevertheless, we also show that these models' robustness to noise and use of context can be uninformative to an acoustics-focused evaluation of enhancement performance.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله فراتر از انتظار: مطالعه‌ای بر تشخیص گفتار خودکار مدرن برای ارزیابی بهبود گفتار”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا