, ,

کتاب یادگیری تقویتی (Reinforcement Learning) با Python و OpenAI Gym

تومان249,950

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

📚 کتاب آموزشی جامع

📚 اطلاعات کتاب

عنوان کتاب: کتاب یادگیری تقویتی (Reinforcement Learning) با Python و OpenAI Gym

موضوع کلی: برنامه نویسی

موضوع میانی: حوزه‌های تخصصی**

📋 سرفصل‌های کتاب (100 موضوع)

  • 1. مقدمه‌ای بر یادگیری تقویتی (Reinforcement Learning)
  • 2. عوامل کلیدی در RL: عامل، محیط، حالت، عمل، پاداش
  • 3. مقایسه RL با یادگیری نظارت شده و نظارت نشده
  • 4. فرمول‌بندی مسئله RL: فرآیندهای تصمیم‌گیری مارکوف (MDP)
  • 5. مروری بر اصول پایتون برای RL
  • 6. نصب و راه‌اندازی محیط توسعه (کتابخانه‌ها و ابزارها)
  • 7. معرفی OpenAI Gym و مفهوم محیط‌ها
  • 8. اولین قدم‌ها: تعامل با یک محیط ساده در Gym
  • 9. انواع مسائل RL: اپیزودیک در برابر مداوم
  • 10. چالش‌ها و چشم‌اندازهای یادگیری تقویتی
  • 11. تعریف و اجزای فرآیندهای تصمیم‌گیری مارکوف (MDP)
  • 12. بازده (Returns) و عامل تخفیف (Discount Factor)
  • 13. سیاست‌ها (Policies): قطعی در برابر تصادفی
  • 14. توابع ارزش (Value Functions): ارزش حالت و ارزش عمل
  • 15. معادلات بل‌من (Bellman Equations) برای توابع ارزش
  • 16. سیاست‌های بهینه و توابع ارزش بهینه
  • 17. مقدمه‌ای بر برنامه‌ریزی پویا (Dynamic Programming)
  • 18. ارزیابی سیاست (Policy Evaluation): پیش‌بینی ارزش
  • 19. بهبود سیاست (Policy Improvement)
  • 20. تکرار سیاست و تکرار ارزش (Policy Iteration & Value Iteration)
  • 21. یادگیری تقویتی مبتنی بر مدل در برابر بدون مدل
  • 22. برنامه‌ریزی (Planning) در RL
  • 23. الگوریتم تکرار ارزش (Value Iteration Algorithm)
  • 24. الگوریتم تکرار سیاست (Policy Iteration Algorithm)
  • 25. تکرار سیاست تعمیم‌یافته (Generalized Policy Iteration – GPI)
  • 26. معرفی روش‌های مونت کارلو (Monte Carlo Methods)
  • 27. پیش‌بینی مونت کارلو (MC Prediction): بازدید اول و هر بازدید
  • 28. تخمین توابع ارزش حالت با MC
  • 29. تخمین توابع ارزش عمل با MC
  • 30. کنترل مونت کارلو (MC Control): سیاست‌های On-Policy
  • 31. کنترل مونت کارلو: سیاست‌های Off-Policy
  • 32. نمونه‌برداری با اهمیت (Importance Sampling)
  • 33. مسئله اکتشاف در برابر بهره‌برداری (Exploration vs. Exploitation)
  • 34. سیاست‌های اپسیلون-حریصانه (Epsilon-Greedy Policies)
  • 35. پیاده‌سازی مونت کارلو در یک محیط ساده Gym
  • 36. معرفی یادگیری اختلاف زمانی (Temporal-Difference Learning – TD)
  • 37. مزایای TD نسبت به مونت کارلو
  • 38. پیش‌بینی TD(0) و به‌روزرسانی‌های یک مرحله‌ای
  • 39. کنترل TD On-Policy: الگوریتم SARSA
  • 40. گام به گام: پیاده‌سازی SARSA
  • 41. پیاده‌سازی SARSA در محیط‌های Gym
  • 42. کنترل TD Off-Policy: الگوریتم Q-Learning
  • 43. گام به گام: پیاده‌سازی Q-Learning
  • 44. پیاده‌سازی Q-Learning در محیط‌های Gym
  • 45. مقایسه SARSA و Q-Learning: On-Policy در برابر Off-Policy
  • 46. SARSA انتظاری (Expected SARSA)
  • 47. پیش‌بینی TD N-مرحله‌ای
  • 48. SARSA N-مرحله‌ای
  • 49. Q-Learning N-مرحله‌ای
  • 50. TD(lambda) و ردهای واجد شرایط (Eligibility Traces)
  • 51. لزوم استفاده از تقریب تابع (Function Approximation)
  • 52. تقریب تابع خطی
  • 53. مهندسی ویژگی (Feature Engineering) برای RL
  • 54. مونت کارلوی گرادیانی (Gradient Monte Carlo)
  • 55. TD(0) نیمه‌گرادیانی (Semi-Gradient TD(0))
  • 56. مروری بر اصول شبکه‌های عصبی برای RL
  • 57. معرفی کتابخانه‌های یادگیری عمیق (TensorFlow/PyTorch)
  • 58. شبکه‌های Q-عمیق (Deep Q-Networks – DQN)
  • 59. تجربه تکرار (Experience Replay)
  • 60. هدف‌گذاری Q ثابت (Fixed Q-targets)
  • 61. معماری و آموزش DQN
  • 62. پیاده‌سازی DQN در یک محیط Gym
  • 63. DQN دوگانه (Double DQN)
  • 64. DQN دوئلی (Dueling DQN)
  • 65. تجربه تکرار اولویت‌بندی شده (Prioritized Experience Replay)
  • 66. DQN دسته‌بندی شده (Categorical DQN – C51)
  • 67. Rainbow DQN (ترکیب بهبودها)
  • 68. SARSA با تقریب تابع
  • 69. SARSA عمیق (Deep SARSA)
  • 70. مشکلات ناپایداری در یادگیری Q عمیق
  • 71. معرفی روش‌های مبتنی بر سیاست (Policy-Based Methods)
  • 72. مزایای گرادیان سیاست نسبت به روش‌های مبتنی بر ارزش
  • 73. قضیه گرادیان سیاست (Policy Gradient Theorem)
  • 74. REINFORCE: گرادیان سیاست مونت کارلو
  • 75. REINFORCE با خط پایه (Baseline)
  • 76. روش‌های بازیگر-منتقد (Actor-Critic Methods)
  • 77. A2C (Advantage Actor-Critic)
  • 78. A3C (Asynchronous Advantage Actor-Critic) – اصول کلی
  • 79. پیاده‌سازی REINFORCE/A2C در محیط Gym
  • 80. بهینه‌سازی سیاست‌های مجاور (Proximal Policy Optimization – PPO)
  • 81. استراتژی‌های پیشرفته اکتشاف
  • 82. انگیزه درونی (Intrinsic Motivation)
  • 83. مقدمه‌ای بر یادگیری تقویتی چندعامله (Multi-Agent RL – MARL)
  • 84. MARL: همکاری در برابر رقابت
  • 85. فرآیندهای تصمیم‌گیری مارکوف با مشاهده جزئی (Partially Observable MDPs – POMDPs)
  • 86. یادگیری تقویتی سلسله‌مراتبی (Hierarchical RL)
  • 87. یادگیری تقلیدی (Imitation Learning) و شبیه‌سازی رفتاری
  • 88. یادگیری تقویتی معکوس (Inverse Reinforcement Learning – IRL)
  • 89. یادگیری انتقالی (Transfer Learning) در RL
  • 90. فرایادگیری (Meta-Learning) در RL
  • 91. یادگیری تقویتی آفلاین (Offline Reinforcement Learning)
  • 92. ایمنی در یادگیری تقویتی (Safe RL)
  • 93. استراتژی‌های تکاملی (Evolutionary Strategies) به عنوان جایگزینی برای RL
  • 94. کاربردهای یادگیری تقویتی (رباتیک، بازی‌ها، مالی، پزشکی)
  • 95. چالش‌ها و مسیرهای تحقیقاتی آینده در RL
  • 96. تنظیم هایپرپارامترها (Hyperparameter Tuning) در RL
  • 97. اشکال‌زدایی (Debugging) عامل‌های RL
  • 98. بنچمارک‌گذاری و مقایسه الگوریتم‌های RL
  • 99. انتخاب الگوریتم مناسب برای مسئله مورد نظر
  • 100. ساخت یک پروژه کامل RL: طراحی محیط و آموزش عامل

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب یادگیری تقویتی (Reinforcement Learning) با Python و OpenAI Gym”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا