,

مقاله بهینه‌سازی سیاست چندهدفه با توجه تطبیقی صاف چبیشف

تومان249,950

یادگیری تقویتی چندهدفه در حوزه‌های رباتیک نیازمند تعادل بین بده‌بستان‌های پیچیده و غیرمحدب بین اهداف متعارض است. در حالی که روش‌های مقیاس‌بندی خطی پایداری را فراهم می‌کنند، از نظر تئوری قادر به بازیاب…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000123 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

بهینه‌سازی سیاست چندهدفه با توجه تطبیقی صاف چبیشف

Adaptive Smooth Tchebycheff Attention for Multi-Objective Policy Optimization

نویسندگان: Alejandro Murillo-Gonzalez, Mahmoud Ali, Lantao Liu

شناسه منبع: arxiv / 2605.12771

دسته: Robotics,Artificial Intelligence,Machine Learning,Systems and Control,Optimization and Control

چکیده (فارسی)

یادگیری تقویتی چندهدفه در حوزه‌های رباتیک نیازمند تعادل بین بده‌بستان‌های پیچیده و غیرمحدب بین اهداف متعارض است. در حالی که روش‌های مقیاس‌بندی خطی پایداری را فراهم می‌کنند، از نظر تئوری قادر به بازیابی راه‌حل‌ها در نواحی غیرمحدب جبهه پارتو نیستند. در مقابل، مقیاس‌بندی‌های غیرخطی ایستا (مانند چبیشف) از نظر تئوری می‌توانند به این نواحی دسترسی پیدا کنند، اما اغلب در یادگیری تقویتی عمیق از واریانس شدید گرادیان و ناپایداری بهینه‌سازی رنج می‌برند. در این مقاله، چارچوب تطبیقی چبیشف هموار را پیشنهاد می‌کنیم که با تعدیل پویای انحنای چشم‌انداز بهینه‌سازی، این تنش را برطرف می‌کند. ما یک کنترل‌کننده نوآورانه مبتنی بر تعارض معرفی می‌کنیم که همواری بهینه‌سازی را بر اساس تداخل گرادیان در زمان واقعی تنظیم می‌کند. این امر به عامل اجازه می‌دهد تا زمانی که اهداف همسو هستند به سمت مقیاس‌بندی دقیق و غیرمحدب حرکت کند و زمانی که تعارضات مخرب گرادیان پدیدار می‌شوند، به طور انعطاف‌پذیر به تقریب‌های پایدار و هموار بازگردد. ما رویکرد خود را بر روی یک وظیفه چالش‌برانگیز جستجوی بصری مخفیانه رباتیک – به عنوان نماینده نظارت بر اکوسیستم‌های محافظت شده/شکننده – اعتبارسنجی می‌کنیم، جایی که یک عامل باید سرعت جستجو، حداقل‌سازی نوردهی/تداخل و سرعت اکتشاف را متعادل کند. آزمایش‌های گسترده تأیید می‌کنند که سازگاری آگاه از تعارض ما امکان کشف قوی سیاست‌های بهینه پارتو را در نواحی غیرمحدب که برای روش‌های خطی قابل دسترسی نیستند و برای روش‌های غیرخطی ایستا ناپایدار هستند، فراهم می‌کند. وب‌سایت: https://alejandromllo.github.io/research/pasta/

Abstract (English)

Multi-objective reinforcement learning in robotic domains requires balancing complex, non-convex trade-offs between conflicting objectives. While linear scalarization methods provide stability, they are theoretically incapable of recovering solutions within non-convex regions of the Pareto front. Conversely, static non-linear scalarizations (e.g., Tchebycheff) can theoretically access these regions but often suffer from severe gradient variance and optimization instability in deep RL. In this work, we propose an Adaptive Smooth Tchebycheff framework that resolves this tension by dynamically modulating the curvature of the optimization landscape. We introduce a novel conflict-driven controller that regulates the optimization smoothness based on real-time gradient interference. This allows the agent to anneal toward precise, non-convex scalarization when objectives align, while elastically reverting to stable, smooth approximations when destructive gradient conflicts emerge. We validate our approach on a challenging robotic stealth visual search task — a proxy for monitoring of protected/fragile ecosystems — where an agent must balance search, exposure/interference minimization and exploration speed. Extensive ablations confirm that our conflict-aware adaptation enables the robust discovery of Pareto-optimal policies in non-convex regions inaccessible to linear baselines and unstable for static non-linear methods. Website: https://alejandromllo.github.io/research/pasta/

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله بهینه‌سازی سیاست چندهدفه با توجه تطبیقی صاف چبیشف”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا