,

مقاله ترجمه روان و تخصصی: ترجمه گفتار به متن جریانی با استفاده از مدل زبانی بزرگ گفتاری (SpeechLLM)

تومان249,950

به طور معمول، سیستمی که گفتار را به متن ترجمه می‌کند، از ماژول‌های مجزا برای تشخیص گفتار و ترجمه متن به متن تشکیل شده است. ترکیب این وظایف در یک مدل زبانی بزرگ گفتاری (SpeechLLM) نویدبخش بهره‌برداری ا…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000226 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

ترجمه روان و تخصصی: ترجمه گفتار به متن جریانی با استفاده از مدل زبانی بزرگ گفتاری (SpeechLLM)

Streaming Speech-to-Text Translation with a SpeechLLM

نویسندگان: Titouan Parcollet, Shucong Zhang, Xianrui Zheng, Rogier C. van Dalen

شناسه منبع: arxiv / 2605.14766v1

دسته: cs.CL,cs.AI,eess.AS

چکیده (فارسی)

به طور معمول، سیستمی که گفتار را به متن ترجمه می‌کند، از ماژول‌های مجزا برای تشخیص گفتار و ترجمه متن به متن تشکیل شده است. ترکیب این وظایف در یک مدل زبانی بزرگ گفتاری (SpeechLLM) نویدبخش بهره‌برداری از اطلاعات فرازبانی در گفتار و کاهش خطاهای آبشاری است. اما سیستم‌های SpeechLLM موجود کند هستند زیرا به صورت جریانی واقعی عمل نمی‌کنند: آنها منتظر می‌مانند تا یک جمله کامل صوتی دریافت کنند قبل از اینکه ترجمه‌ای را خروجی دهند، یا توکن‌ها را در فواصل زمانی ثابت خروجی می‌دهند که برای کاربردهای واقعی مناسب نیست. این کار یک معماری مبتنی بر مدل زبانی بزرگ برای ترجمه گفتار به متن جریانی واقعی پیشنهاد می‌کند. این مدل زبانی بزرگ نه تنها یاد می‌گیرد که توکن‌های خروجی را منتشر کند، بلکه یاد می‌گیرد که تصمیم بگیرد آیا به اندازه کافی صدا دریافت کرده است تا این کار را انجام دهد. این سیستم با استفاده از هم‌ترازی خودکار گفتار ورودی و متن خروجی آموزش داده می‌شود. در آزمایش‌ها بر روی جفت زبان‌های مختلف، این سیستم کیفیت ترجمه‌ای نزدیک به خط مبنای غیرجریانی را با تأخیری تنها ۱ تا ۲ ثانیه به دست می‌آورد.

Abstract (English)

Normally, a system that translates speech into text consists of separate modules for speech recognition and text-to-text translation. Combining those tasks into a SpeechLLM promises to exploit paralinguistic information in the speech and to reduce cascaded errors. But existing SpeechLLM systems are slow since they do not work in a real streaming fashion: they wait for a complete utterance of audio before outputting a translation, or output tokens at fixed intervals, which is not suitable for real applications. This work proposes an LLM-based architecture for real streaming speech-to-text translation. The LLM learns not just to emit output tokens, but also to decide whether it has seen enough audio to do so. The system is trained using automatic alignments of the input speech and the output text. In experiments on different language pairs, the system achieves a translation quality close to the non-streaming baseline, but with a latency of only 1-2 seconds.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله ترجمه روان و تخصصی: ترجمه گفتار به متن جریانی با استفاده از مدل زبانی بزرگ گفتاری (SpeechLLM)”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا