,

مقاله یادگیری سیاست چندعامله زیرمجموعه‌ای برای تخصیص وظیفه توزیع‌شده آنلاین در سیستم‌های چندعامله باز

تومان249,950

این مقاله به مطالعه یادگیری تقویتی چند عاملی با ابزارهای تیمی زیرمجموعه برای تخصیص وظیفه توزیع‌شده آنلاین می‌پردازد. در این چارچوب، هر عامل یک عمل را از یک سیاست دسته‌بندی محلی انتخاب می‌کند، بنابراین…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000297 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

یادگیری سیاست چندعامله زیرمجموعه‌ای برای تخصیص وظیفه توزیع‌شده آنلاین در سیستم‌های چندعامله باز

Submodular Multi-Agent Policy Learning for Online Distributed Task Allocation in Open Multi-Agent Systems

نویسندگان: Jing Liu, Yangyang Yang, Luca Ballotta, Fangfei Li, Yang Tang, Ruggero Carli

شناسه منبع: arxiv / 2605.13269v1

دسته: eess.SY

چکیده (فارسی)

این مقاله به مطالعه یادگیری تقویتی چند عاملی با ابزارهای تیمی زیرمجموعه برای تخصیص وظیفه توزیع‌شده آنلاین می‌پردازد. در این چارچوب، هر عامل یک عمل را از یک سیاست دسته‌بندی محلی انتخاب می‌کند، بنابراین اقدامات مشترک ممکن، یک ماتروئید افرازی بر روی جفت‌های عامل-عمل تشکیل می‌دهند. امتدادهای چندخطی کلاسیک از نمونه‌برداری برنولی مستقل استفاده می‌کنند و بنابراین با سیاست‌های دسته‌بندی که توسط عوامل غیرمتمرکز اجرا می‌شوند، مطابقت ندارند. برای رفع این عدم تطابق، ما امتداد چندخطی افرازی (PME) را معرفی می‌کنیم، که یک آرام‌سازی پیوسته است و مقدار آن برابر با ابزار تیمی مورد انتظار تحت سیاست‌های دسته‌بندی فاکتورگیری شده است. ما اثبات می‌کنیم که پاداش‌های تفاضلی زیرمجموعه، اطلاعات گرادیان حاشیه‌ای PME بدون سوگیری را فراهم می‌کنند و یک تخمین‌گر گرادیان سیاست با تابع امتیاز مرحله‌ای را نتیجه می‌دهند. بر اساس این ارتباط، ما SubMAPG را پیشنهاد می‌کنیم، یک چارچوب گرادیان سیاست با آموزش متمرکز و اجرای غیرمتمرکز، با سیاست‌های دسته‌بندی پوشانده شده و سیگنال‌های آموزشی پاداش تفاضلی زیرمجموعه. برای دینامیک گرادیان تصادفی تصویر شده در فضای حاشیه‌ای PME مرتبط، ما یک تضمین تقریب 1/2 مرحله‌ای و پشیمانی پویا زیرخطی را در محیط‌های با تغییر آهسته، که با طول مسیر حاشیه‌های بهینه PME اندازه‌گیری می‌شود، اثبات می‌کنیم. برای مدیریت سیستم‌های باز با عوامل و اهداف متغیر با زمان، ما SubMAPG را با سیاست‌های شبکه عصبی گراف پیاده‌سازی می‌کنیم. آزمایش‌ها بر روی پوشش چند ربات و ردیابی چند هدف نشان می‌دهند که SubMAPG از روش‌های محلی حریصانه و پاداش مشترک بهتر عمل می‌کند و با استراتژی‌های حریصانه کوتاه بینانه متمرکز رقابت می‌کند.

Abstract (English)

This paper studies multi-agent reinforcement learning with submodular team utilities for online distributed task allocation. In this setting, each agent selects one action from a local categorical policy, so feasible joint actions form a partition matroid over agent-action pairs. Classical multilinear extensions use independent Bernoulli sampling and therefore do not match the categorical policies executed by decentralized agents. To address this mismatch, we introduce the Partition Multilinear Extension (PME), a continuous relaxation whose value equals the expected team utility under factorized categorical policies. We prove that submodular difference rewards provide unbiased PME marginal-gradient information and yield a stagewise score-function policy-gradient estimator. Based on this connection, we propose SubMAPG, a centralized-training decentralized-execution policy-gradient framework with masked categorical policies and submodular difference-reward training signals. For the associated PME marginal-space projected stochastic-gradient dynamics, we prove a stagewise 1/2-approximation guarantee and sublinear dynamic regret in slowly varying environments, measured by the path length of the optimal PME marginals. To handle open systems with time-varying agents and targets, we instantiate SubMAPG with graph neural network policies. Experiments on multi-robot coverage and multi-target tracking show that SubMAPG outperforms local greedy and shared-reward baselines and is competitive with centralized myopic greedy strategies.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله یادگیری سیاست چندعامله زیرمجموعه‌ای برای تخصیص وظیفه توزیع‌شده آنلاین در سیستم‌های چندعامله باز”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا