,

مقاله مکانیزم توجه با فیلتر بلوکی برای زمینه طولانی (BFLA)

تومان249,950

این مقاله مکانیزم توجه پراکنده پیش‌پر کردن بدون نیاز به آموزش به نام Block-Filtered Long-Context Attention (BFLA) را برای استنتاج در متن‌های طولانی پیشنهاد می‌کند. BFLA از یک طراحی دو مرحله‌ای استفاده…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000151 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

مکانیزم توجه با فیلتر بلوکی برای زمینه طولانی (BFLA)

BFLA: Block-Filtered Long-Context Attention Mechanism

نویسندگان: Chong Wu, Zhenan Feng, Renjie Xu, Houwang Zhang, Jiawang Cao, Maolin Che, Wenbo Zhu, Hong Yan

شناسه منبع: arxiv / 2605.12193

دسته: Signal Processing

چکیده (فارسی)

این مقاله مکانیزم توجه پراکنده پیش‌پر کردن بدون نیاز به آموزش به نام Block-Filtered Long-Context Attention (BFLA) را برای استنتاج در متن‌های طولانی پیشنهاد می‌کند. BFLA از یک طراحی دو مرحله‌ای استفاده می‌کند. در مرحله ۱، دنباله‌های پرس‌وجو (query) و کلید (key) به بلوک‌های درشت فشرده می‌شوند و تخمین جرم سافت‌مکس در سطح بلوک به صورت سبک انجام می‌شود تا یک ماسک اهمیت بلوک وابسته به ورودی ساخته شود. در مرحله ۲، ماسک درشت به شبکه کاشی (tile) توجه تریتون (Triton) گسترش می‌یابد. چندین استراتژی نجات در سطح کاشی برای کاهش از دست رفتن اطلاعات به کار گرفته می‌شود، که در آن یک هسته (kernel) پیش‌پر کردن پراکنده ترکیبی، کاشی‌های کلید-مقدار (KV) نامهم را نادیده می‌گیرد و در عین حال توجه دقیق در سطح توکن را در داخل هر کاشی حفظ شده حفظ می‌کند. BFLA نیازی به بازآموزی، کالیبراسیون، پیش‌پردازش یا اصلاح مدل ندارد و می‌تواند به بارهای کاری موجود paged-attention به سبک vLLM متصل شود. آزمایش‌ها بر روی مدل‌های سری Gemma 4، Llama 3.1، Qwen 3.5 و Qwen 3.6 نشان می‌دهند که BFLA به طور قابل توجهی پیش‌پر کردن متن‌های طولانی را با حداقل افت دقت در مقایسه با Triton FlashAttention متراکم تسریع می‌کند. وب‌سایت پروژه: https://github.com/Alicewithrabbit/BFLA.

Abstract (English)

This paper proposes Block-Filtered Long-Context Attention (BFLA), a training-free sparse prefill attention mechanism for long-context inference. BFLA adopts a two-stage design. In Stage 1, query and key sequences are compressed into coarse blocks, and lightweight block-level softmax mass estimation is performed to construct an input-dependent block importance mask. In Stage 2, the coarse mask is expanded to the Triton attention-tile grid. Several tile-level rescue strategies are applied to reduce information loss, where a fused sparse prefill kernel skips unimportant KV tiles while preserving exact token-level attention inside every retained tile. BFLA requires no retraining, calibration, preprocessing, or model modification and can be plugged into existing vLLM-style paged-attention workloads. Experiments on Gemma 4, Llama 3.1, Qwen 3.5, and Qwen 3.6 series models show that BFLA substantially accelerates long-context prefilling with minimal accuracy degradation compared to dense Triton FlashAttention. Project website: https://github.com/Alicewithrabbit/BFLA.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله مکانیزم توجه با فیلتر بلوکی برای زمینه طولانی (BFLA)”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا