,

مقاله به سوی درک گفتار چندبعدی و ریزدانه: خط لوله داده، معیار و مدل

تومان249,950

مدل‌های زبانی بزرگ صوتی (LLMs) در وظایف متداول مانند تشخیص گفتار پایه عملکرد خوبی دارند، اما فاقد درک ظریف و چندبعدی هستند. این نقص در ناتوانی آن‌ها در تفکیک ویژگی‌های پیچیده مانند نشانه‌های صوتی دقیق…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000348 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

به سوی درک گفتار چندبعدی و ریزدانه: خط لوله داده، معیار و مدل

Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model

نویسندگان: Guojian Li, Zhixian Zhao, Zhennan Lin, Jingbin Hu, Qirui Zhan, Yuang Cao, Pengyuan Xie, Chuan Xie, Jie Liu, Qiang Zhang, Zhonghua Fu, Lei Xie

شناسه منبع: arxiv / 2605.12036v1

دسته: eess.AS

چکیده (فارسی)

مدل‌های زبانی بزرگ صوتی (LLMs) در وظایف متداول مانند تشخیص گفتار پایه عملکرد خوبی دارند، اما فاقد درک ظریف و چندبعدی هستند. این نقص در ناتوانی آن‌ها در تفکیک ویژگی‌های پیچیده مانند نشانه‌های صوتی دقیق، صحنه‌های صوتی و سیگنال‌های فرازبانی مشهود است. درک ناقص حاصل از این موضوع از گفتار دنیای واقعی، اساساً مانع توسعه سیستم‌های گفتاری نسل بعدیِ ادراک‌گر و همدل می‌شود. در اصل، این محدودیت ادراکی پایدار عمدتاً ناشی از سه عامل درهم‌تنیده است: داده‌های کمیاب با کیفیت بالا و گویا، عدم وجود مدل‌سازی دقیق برای ویژگی‌های چندبعدی، و اتکا به معیارهای ارزیابی با پوشش محدود و درشت‌دانه. ما با سه رویکرد به این چالش‌ها می‌پردازیم: اول، خط لوله قوی جمع‌آوری داده ما، چالش‌های محیط‌های صوتی پیچیده و هم‌ترازی زمانی طولانی صدا را حل کرده و مجموعه‌ای با کیفیت بالا از گفتار خودانگیخته را از منابع شنیداری-دیداری استخراج می‌کند. دوم، ما FMSU-Bench را ایجاد می‌کنیم، یک معیار پیشگام که ۱۴ بعد از ویژگی‌های گفتار را پوشش می‌دهد تا قابلیت‌های درک گفتار ظریف و چندبعدی مدل‌های فعلی را به دقت ارزیابی کند. سوم، با بهره‌گیری از مجموعه داده جمع‌آوری شده، FM-Speech را معرفی می‌کنیم. این مدل که با چارچوب مدل‌سازی جداگانه ویژگی‌ها و تنظیم دقیق تدریجی پیشرفت می‌کند، ادراک صوتی ظریف و چندبعدی را به طور قابل توجهی ارتقا می‌دهد. ارزیابی‌های گسترده بر روی FMSU-Bench نشان می‌دهد که LLMهای گفتاری فعلی هنوز نیاز به بهبود قابل توجهی در درک چندبعدی و ظریف دارند. در مقابل، FM-Speech به طور قابل توجهی بهتر از مدل‌های متن‌باز فعلی عمل می‌کند و یک پارادایم قوی برای درک گفتار دنیای واقعی ایجاد می‌نماید.

Abstract (English)

While speech Large Language Models (LLMs) excel at conventional tasks like basic speech recognition, they lack fine-grained, multi-dimensional perception. This deficiency is evident in their struggle to disentangle complex features like micro-acoustic cues, acoustic scenes, and paralinguistic signals. This resulting incomplete comprehension of real-world speech fundamentally bottlenecks the development of perceptive and empathetic next-generation speech systems. At its core, this persistent perceptual limitation primarily stems from three interacting factors: scarce high-quality expressive data, absent fine-grained modeling for multi-dimensional attributes, and reliance on restricted coverage, coarse-grained benchmarks. We address these challenges through three pillars: First, our robust data curation pipeline resolves complex acoustic environments and long-audio timestamp alignment challenges to extract a high-quality spontaneous speech corpus from audiovisual sources. Second, we construct FMSU-Bench, a pioneering benchmark covering 14 speech attribute dimensions to rigorously assess the fine-grained, multi-dimensional speech understanding capabilities of current models. Third, empowered by our curated corpus, we introduce FM-Speech. Driven by a decoupled attribute modeling and progressive curriculum fine-tuning framework, it substantially elevates fine-grained, multi-dimensional acoustic perception. Extensive evaluations on FMSU-Bench reveal that current speech LLMs still require significant improvement in multi-dimensional, fine-grained understanding. In contrast, FM-Speech substantially outperforms current open-source models, establishing a robust paradigm for real-world speech understanding.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله به سوی درک گفتار چندبعدی و ریزدانه: خط لوله داده، معیار و مدل”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا