,

مقاله SpeakerLLM: یک مدل زبانی بزرگ صوتی تخصصی گوینده برای درک و استدلال تأیید هویت گوینده.

تومان249,950

با افزایش فراوانی عوامل صوتی در هوش مصنوعی فیزیکی، ربات‌های مکالمه‌ای و دستگاه‌های پوشیدنی بدون صفحه نمایش، مدل‌های زبان بزرگ صوتی (audio-LLMs) نیازمند ادغام درک ویژه گوینده برای پشتیبانی از احراز هوی…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000209 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

SpeakerLLM: یک مدل زبانی بزرگ صوتی تخصصی گوینده برای درک و استدلال تأیید هویت گوینده.

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

نویسندگان: KiHyun Nam, Jungwoo Heo, Siu Bae, Ha-Jin Yu, Joon Son Chung

شناسه منبع: arxiv / 2605.15044v1

دسته: cs.SD,cs.AI,cs.LG,cs.MM,eess.AS

چکیده (فارسی)

با افزایش فراوانی عوامل صوتی در هوش مصنوعی فیزیکی، ربات‌های مکالمه‌ای و دستگاه‌های پوشیدنی بدون صفحه نمایش، مدل‌های زبان بزرگ صوتی (audio-LLMs) نیازمند ادغام درک ویژه گوینده برای پشتیبانی از احراز هویت کاربر، شخصی‌سازی و تعامل آگاه از زمینه هستند. این امر مستلزم مدل‌سازی اینکه چه کسی صحبت می‌کند، صدا چگونه است و شرایط ضبط چگونه بر نشانه‌های گوینده تأثیر می‌گذارد، می‌باشد. سیستم‌های سنتی تأیید گوینده، امتیازات مقیاس‌پذیر قوی اما شواهد زبانی کمی ارائه می‌دهند، در حالی که مدل‌های زبان صوتی و مدل‌های زبان آگاه از گوینده فعلی، توانایی محدودی در سازماندهی اطلاعات گوینده فراتر از برچسب‌های دودویی یا پروفایل‌های توصیفی دارند. ما SpeakerLLM را معرفی می‌کنیم، یک چارچوب audio-LLM تخصصی گوینده که پروفایل‌سازی گوینده تک‌گفتاری، درک شرایط ضبط، مقایسه گوینده جفت‌گفتاری و استدلال تأیید سازمان‌یافته بر اساس شواهد را در یک رابط زبان طبیعی یکپارچه می‌کند. ما اهداف استدلال تأیید و یک سیاست ترکیب تصمیم‌گیری را می‌سازیم که شواهد سطح پروفایل را از تصمیم نهایی "یکسان یا متفاوت" جدا کرده و شرایط ضبط، شواهد پروفایل و تصمیم را در یک ردیابی ساختاریافته سازماندهی می‌کند. در هسته خود، SpeakerLLM از یک توکنایزر سلسله مراتبی گوینده استفاده می‌کند که برای ثبت چندین سطح جزئیات شواهد گوینده طراحی شده است. جاسازی‌های گوینده در سطح گفتار، هویت و نشانه‌های سطح پروفایل را خلاصه می‌کنند، در حالی که ویژگی‌های گوینده در سطح فریم، توصیف‌گرهای صوتی دقیق را حفظ می‌کنند. آزمایش‌ها نشان می‌دهند که SpeakerLLM-Base درک پروفایل گوینده و شرایط ضبط را نسبت به audio-LLMهای عمومی بهبود می‌بخشد، در حالی که SpeakerLLM-VR دقت قوی در احکام تولید شده را حفظ کرده و ردیابی‌های تصمیم‌گیری را بر اساس طرح استدلال تأیید نظارت شده تولید می‌کند. ما مجموعه داده نظارتی غنی‌شده با فراداده و کد ساخت هدف را برای تکرارپذیری منتشر خواهیم کرد.

Abstract (English)

As audio-first agents become increasingly common in physical AI, conversational robots, and screenless wearables, audio large language models (audio-LLMs) must integrate speaker-specific understanding to support user authorization, personalization, and context-aware interaction. This requires modeling who is speaking, how the voice sounds, and how recording conditions affect speaker cues. Conventional speaker verification systems provide strong scalar scores but little linguistic evidence, while current audio-LLMs and speaker-aware language models have limited ability to organize speaker information beyond binary labels or descriptive profiles. We present SpeakerLLM, a speaker-specialized audio-LLM framework that unifies single-utterance speaker profiling, recording-condition understanding, utterance-pair speaker comparison, and evidence-organized verification reasoning within a natural-language interface. We construct verification-reasoning targets and a decision-composition policy that separate profile-level evidence from the final same-or-different decision and organize recording condition, profile evidence, and the decision into a structured trace. At its core, SpeakerLLM uses a hierarchical speaker tokenizer designed to capture multiple granularities of speaker evidence. Utterance-level speaker embeddings summarize identity and profile-level cues, whereas frame-level speaker features preserve fine-grained acoustic descriptors. Experiments show that SpeakerLLM-Base improves speaker-profile and recording-condition understanding over general audio-LLMs, while SpeakerLLM-VR preserves strong generated-verdict accuracy and produces decision traces grounded in the supervised verification reasoning schema. We will release the metadata-enriched supervision dataset and target-construction code for reproducibility.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله SpeakerLLM: یک مدل زبانی بزرگ صوتی تخصصی گوینده برای درک و استدلال تأیید هویت گوینده.”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا