, ,

کتاب یادگیری تقویتی بدون مدل: از تئوری تا عمل

تومان249,950

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

📚 کتاب آموزشی جامع

📚 اطلاعات کتاب

عنوان کتاب: کتاب یادگیری تقویتی بدون مدل: از تئوری تا عمل

موضوع کلی: یادگیری تقویتی چندعامله (MARL)

موضوع میانی: مدل‌های بدون مدل (Model-free RL)

📋 سرفصل‌های کتاب (100 موضوع)

  • 1. مقدمه به یادگیری تقویتی بدون مدل
  • 2. مفاهیم کلیدی یادگیری تقویتی
  • 3. هدف یادگیری تقویتی بدون مدل
  • 4. تفاوت با یادگیری تقویتی با مدل
  • 5. مزایای یادگیری تقویتی بدون مدل
  • 6. کاربردهای یادگیری تقویتی بدون مدل
  • 7. مرور تاریخچه یادگیری تقویتی بدون مدل
  • 8. اصول اولیه سیاست (Policy)
  • 9. اصول اولیه تابع ارزش (Value Function)
  • 10. تابع ارزش وضعیت (State-Value Function)
  • 11. تابع ارزش وضعیت-عمل (State-Action Value Function)
  • 12. رابطه بین توابع ارزش
  • 13. معادلات بلمن (Bellman Equations)
  • 14. معادله بلمن برای تابع ارزش وضعیت
  • 15. معادله بلمن برای تابع ارزش وضعیت-عمل
  • 16. معادلات بلمن اپراتور (Bellman Operator)
  • 17. چرا یادگیری تقویتی بدون مدل؟
  • 18. چالش‌های یادگیری تقویتی بدون مدل
  • 19. مفاهیم پایه محیط (Environment)
  • 20. مفاهیم پایه عامل (Agent)
  • 21. مفاهیم پایه حالت (State)
  • 22. مفاهیم پایه عمل (Action)
  • 23. مفاهیم پایه پاداش (Reward)
  • 24. مفاهیم پایه سیاست (Policy)
  • 25. مفاهیم پایه تابع ارزش (Value Function)
  • 26. مفاهیم پایه مدل محیط (Environment Model)
  • 27. انواع یادگیری تقویتی بدون مدل
  • 28. یادگیری تقویتی بدون مدل مبتنی بر ارزش (Value-Based)
  • 29. یادگیری تقویتی بدون مدل مبتنی بر سیاست (Policy-Based)
  • 30. یادگیری تقویتی بدون مدل ترکیبی (Actor-Critic)
  • 31. روش‌های مونت کارلو (Monte Carlo Methods)
  • 32. یادگیری تقویتی بدون مدل با استفاده از مونت کارلو
  • 33. مونت کارلو اول-بازدید (First-Visit Monte Carlo)
  • 34. مونت کارلو هر-بازدید (Every-Visit Monte Carlo)
  • 35. مزایای روش‌های مونت کارلو
  • 36. معایب روش‌های مونت کارلو
  • 37. یادگیری تقویتی بدون مدل با استفاده از تفاضل زمانی (Temporal Difference – TD)
  • 38. TD(0)
  • 39. TD(1)
  • 40. TD(λ)
  • 41. مزایای روش‌های تفاضل زمانی
  • 42. معایب روش‌های تفاضل زمانی
  • 43. مقایسه مونت کارلو و تفاضل زمانی
  • 44. الگوریتم Q-Learning
  • 45. مفهوم Q-Learning
  • 46. نحوه عملکرد Q-Learning
  • 47. نکات پیاده‌سازی Q-Learning
  • 48. مثال‌های Q-Learning
  • 49. الگوریتم SARSA
  • 50. مفهوم SARSA
  • 51. نحوه عملکرد SARSA
  • 52. مقایسه Q-Learning و SARSA
  • 53. الگوریتم Deep Q-Network (DQN)
  • 54. مقدمه به شبکه‌های عصبی عمیق در یادگیری تقویتی
  • 55. معماری DQN
  • 56. تجربه تکرار (Experience Replay)
  • 57. هدف ثابت (Target Network)
  • 58. نحوه عملکرد DQN
  • 59. مزایای DQN
  • 60. معایب DQN
  • 61. روش‌های بهبود DQN
  • 62. Double DQN
  • 63. Dueling DQN
  • 64. Prioritized Experience Replay
  • 65. الگوریتم‌های Policy Gradient
  • 66. مقدمه به روش‌های مبتنی بر سیاست
  • 67. تابع هدف سیاست (Policy Objective Function)
  • 68. گرادیان سیاست (Policy Gradient Theorem)
  • 69. نحوه محاسبه گرادیان سیاست
  • 70. الگوریتم REINFORCE
  • 71. نحوه عملکرد REINFORCE
  • 72. مزایای REINFORCE
  • 73. معایب REINFORCE
  • 74. الگوریتم‌های Actor-Critic
  • 75. مقدمه به روش‌های ترکیبی
  • 76. معماری Actor-Critic
  • 77. نقش Actor
  • 78. نقش Critic
  • 79. نحوه عملکرد Actor-Critic
  • 80. الگوریتم A2C (Advantage Actor-Critic)
  • 81. نحوه عملکرد A2C
  • 82. مزایای A2C
  • 83. الگوریتم A3C (Asynchronous Advantage Actor-Critic)
  • 84. نحوه عملکرد A3C
  • 85. مزایای A3C
  • 86. الگوریتم DDPG (Deep Deterministic Policy Gradient)
  • 87. مفهوم سیاست قطعی
  • 88. معماری DDPG
  • 89. نحوه عملکرد DDPG
  • 90. مزایای DDPG
  • 91. الگوریتم TD3 (Twin Delayed Deep Deterministic Policy Gradient)
  • 92. مفهوم TD3
  • 93. نحوه عملکرد TD3
  • 94. مزایای TD3
  • 95. الگوریتم SAC (Soft Actor-Critic)
  • 96. مفهوم آنتروپی (Entropy)
  • 97. نحوه عملکرد SAC
  • 98. مزایای SAC
  • 99. کاوش (Exploration) در یادگیری تقویتی بدون مدل
  • 100. استراتژی‌های کاوش

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب یادگیری تقویتی بدون مدل: از تئوری تا عمل”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا