,

مقاله پیش‌تنظیم فقط پیش‌پر کردن برای استنتاج کارآمد

تومان249,950

مدل‌های زبان بزرگ امروزه می‌توانند به طور کارآمد و در مقیاس بزرگ با استفاده از روش‌های تنظیم دقیق پارامتر-کارآمد (PEFTs) شخصی‌سازی شوند، اما سرویس‌دهی به PEFTهای مخصوص کاربر، توان عملیاتی را کاهش می‌د…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000257 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

پیش‌تنظیم فقط پیش‌پر کردن برای استنتاج کارآمد

PreFT: Prefill-only finetuning for efficient inference

نویسندگان: Andrew Lanpouthakoun, Aryaman Arora, Zhengxuan Wu, Dhruv Pai, Ben Keigwin, Dan Jurafsky, Christopher Potts

شناسه منبع: arxiv / 2605.14217v1

دسته: cs.LG,cs.AI,cs.CL,eess.SY

چکیده (فارسی)

مدل‌های زبان بزرگ امروزه می‌توانند به طور کارآمد و در مقیاس بزرگ با استفاده از روش‌های تنظیم دقیق پارامتر-کارآمد (PEFTs) شخصی‌سازی شوند، اما سرویس‌دهی به PEFTهای مخصوص کاربر، توان عملیاتی را کاهش می‌دهد، حتی با وجود هسته‌های تخصصی و تکنیک‌های مدیریت حافظه. دلیل این امر، وجود ناهماهنگی نظری و تجربی بین مرحله پیش‌پر کردن (پردازش تعداد زیادی توکن به طور همزمان) و مرحله رمزگشایی (تولید یک توکن به صورت خودبازگشتی) است: مرحله دوم توان عملیاتی بسیار پایین‌تری هنگام سرویس‌دهی به چندین آداپتور دارد. به جای بهینه‌سازی عملکرد نسبت به تعداد پارامترها، برای سرویس‌دهی کارآمد چند آداپتور، باید عملکرد را نسبت به توان عملیاتی سرویس‌دهی بهینه کنیم. بنابراین، ما PreFT (تنظیم دقیق فقط پیش‌پر کردن) را پیشنهاد می‌کنیم، که در آن آداپتور را فقط برای توکن‌های پیش‌پر کردن اعمال کرده و پس از آن آن را حذف می‌کنیم. PreFT توان عملیاتی را به طور قابل توجهی افزایش می‌دهد و تأثیر ناچیزی بر عملکرد دارد. ما پیاده‌سازی کارآمدی از دو PEFT فقط پیش‌پر کردن، LoRA و ReFT، را بر روی موتور استنتاج vLLM توسعه داده و منتشر می‌کنیم. ابتدا نشان می‌دهیم که سرویس‌دهی به PreFTهای چند کاربر نسبت به PEFTهای سنتی کارآمدتر است (توان عملیاتی 1.9 برابر هنگام سرویس‌دهی به 512 آداپتور بر روی Llama 3.1 70B). سپس، عملکرد آداپتورهای فقط پیش‌پر کردن در مقابل آداپتورهای تمام توکن را در طیف وسیعی از وظایف تنظیم دقیق نظارت شده و یادگیری تقویتی با مدل‌های زبان در مقیاس‌های مختلف مقایسه می‌کنیم. در SFT، مشاهده می‌کنیم که خطای ارزیابی PreFTها بالاتر از PEFTها است، اما می‌توان با افزایش رتبه، بدون کاهش تقریباً هیچ توان عملیاتی، آن را جبران کرد. در RL، به طور مداوم دریافتیم که PreFTها به برابری با PEFTهای استاندارد نزدیک می‌شوند. در مجموع، این کار، تطبیق فقط پیش‌پر کردن مدل‌های زبان بزرگ را به عنوان یک مبادله دقت-توان عملیاتی مطلوب‌تر نسبت به PEFTهای موجود برای سرویس‌دهی شخصی‌سازی شده، تأیید می‌کند.

Abstract (English)

Large language models can now be personalised efficiently at scale using parameter efficient finetuning methods (PEFTs), but serving user-specific PEFTs harms throughput, even with specialised kernels and memory management techniques. This is because, theoretically and empirically, a mismatch exists between prefill (processing a large number of tokens at once) and decode (generating a single token autoregressively): the latter has far lower throughput when serving multiple adapters. Rather than optimising performance relative to parameter count, for efficient multi-adapter serving, we instead ought to optimise performance relative to serving throughput. We therefore propose PreFT (Prefill-only Finetuning), wherein we only apply the adapter to prefill tokens and discard it afterwards. PreFT significantly increases throughput with minimal effect on performance. We develop and release an efficient implementation of two prefill-only PEFTs, LoRA and ReFT, on the vLLM inference engine. We first show that serving multi-user PreFTs is more efficient than traditional PEFTs ($1.9times$ the throughput when serving $512$ adapters on Llama 3.1 70B). Then, we compare the performance of prefill-only vs. all-token adapters on a variety of supervised finetuning and reinforcement learning tasks with LMs at varying scales. On SFT, we observe that the evaluation loss of PreFTs is higher than PEFTs, but can be compensated by increasing rank with nearly no reduction in throughput. On RL, we consistently find that PreFTs approach parity with standard PEFTs. Together, this work validates prefill-only adaptation of LLMs as a more favourable accuracy-throughput tradeoff than existing PEFTs for personalised serving.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله پیش‌تنظیم فقط پیش‌پر کردن برای استنتاج کارآمد”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا