,

مقاله هم‌ترازگرهای تکه‌تکه برای تشخیص گفتار جریانی

تومان249,950

ما “Chunkwise Aligner” را معرفی می‌کنیم، معماری جدیدی برای تشخیص گفتار خودکار جریانی (ASR). در حالی که مدل Transducer استاندارد برای ASR جریانی است، آموزش آن به دلیل نیاز به محاسبه تمام هم‌ترازی‌های م…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000384 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

هم‌ترازگرهای تکه‌تکه برای تشخیص گفتار جریانی

Chunkwise Aligners for Streaming Speech Recognition

نویسندگان: Wen Shen Teo, Takafumi Moriya, Masato Mimura

شناسه منبع: arxiv / 2605.11422v1

دسته: eess.AS

چکیده (فارسی)

ما "Chunkwise Aligner" را معرفی می‌کنیم، معماری جدیدی برای تشخیص گفتار خودکار جریانی (ASR). در حالی که مدل Transducer استاندارد برای ASR جریانی است، آموزش آن به دلیل نیاز به محاسبه تمام هم‌ترازی‌های ممکن صدا-برچسب، پرهزینه است. مدل Aligner که اخیراً معرفی شده است، با حذف هم‌ترازی‌های صریح، این هزینه را کاهش می‌دهد، اما این تغییر آن را برای حالت جریانی نامناسب می‌سازد. رویکرد ما با تقسیم صدا به قطعات (chunks) و هم‌تراز کردن هر برچسب با اولین فریم‌های قطعه خود، این محدودیت را برطرف می‌کند. انتقال بین قطعات توسط احتمال یادگرفته شده پایان قطعه مدیریت می‌شود. آزمایش‌ها نشان می‌دهند که Chunkwise Aligner نه تنها در سناریوهای آفلاین و جریانی با دقت Transducer مطابقت دارد، بلکه کارایی برتر در آموزش و رمزگشایی را نیز ارائه می‌دهد.

Abstract (English)

We propose the Chunkwise Aligner, a novel architecture for streaming automatic speech recognition (ASR). While the Transducer is the standard model for streaming ASR, its training is costly due to the need to compute all possible audio-label alignments. The recently introduced Aligner reduces this cost by discarding explicit alignments, but this modification makes it unsuitable for streaming. Our approach overcomes this limitation by dividing the audio into chunks and aligning each label to the leftmost frames of its chunk, whereas transitions between chunks are managed by a learned end-of-chunk probability. Experiments show that the Chunkwise Aligner not only matches the Transducer's accuracy in both offline and streaming scenarios, but also offers superior training and decoding efficiencies.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله هم‌ترازگرهای تکه‌تکه برای تشخیص گفتار جریانی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا