, ,

کتاب بهینه‌سازی اجرای مدل‌های DL بر روی GPU

تومان249,950

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

📚 کتاب آموزشی جامع

📚 اطلاعات کتاب

عنوان کتاب: کتاب بهینه‌سازی اجرای مدل‌های DL بر روی GPU

موضوع کلی: برنامه نویسی

موضوع میانی: محاسبات سطح بالا (High-Performance Computing)

📋 سرفصل‌های کتاب (100 موضوع)

  • 1. مقدمه‌ای بر یادگیری عمیق و شبکه‌های عصبی
  • 2. مروری بر معماری‌های اصلی شبکه‌های عصبی
  • 3. مفهوم Tensor و عملیات پایه
  • 4. آشنایی با سخت‌افزار GPU و تفاوت آن با CPU
  • 5. مقدمه‌ای بر محاسبات موازی
  • 6. مفهوم حافظه سلسله‌مراتبی (Memory Hierarchy) در CPU و GPU
  • 7. نقش GPU در سرعت‌بخشیدن به آموزش و استنتاج مدل‌های DL
  • 8. معرفی ابزارهای اصلی برای برنامه‌نویسی GPU (CUDA/OpenCL)
  • 9. معرفی فریم‌ورک‌های یادگیری عمیق (PyTorch, TensorFlow)
  • 10. چالش‌های بهینه‌سازی مدل‌های DL بر روی GPU
  • 11. جزئیات معماری داخلی GPU (SMs, Cores)
  • 12. مفهوم Warp و Thread در GPU
  • 13. مدل برنامه‌نویسی CUDA: هاست (Host) و دیوایس (Device)
  • 14. ساختار سلسله‌مراتبی Threadها (Grid, Block, Thread)
  • 15. نحوه نگارش اولین کرنل (Kernel) CUDA
  • 16. انتقال داده بین CPU و GPU (cudaMemcpy)
  • 17. مدیریت حافظه در CUDA (cudaMalloc, cudaFree)
  • 18. مفهوم کرنل و فراخوانی آن
  • 19. همگام‌سازی (Synchronization) در CUDA (cudaDeviceSynchronize, __syncthreads)
  • 20. کنترل خطا و دیباگینگ در برنامه‌های CUDA
  • 21. انواع حافظه در GPU: سراسری (Global), مشترک (Shared), محلی (Local)
  • 22. حافظه ثابت (Constant Memory) و حافظه بافت (Texture Memory)
  • 23. بهینه‌سازی دسترسی به حافظه سراسری (Memory Coalescing)
  • 24. استفاده بهینه از حافظه مشترک (Shared Memory) برای کاهش دسترسی به Global Memory
  • 25. تکنیک‌های کاهش Bank Conflict در Shared Memory
  • 26. مدیریت حافظه مجازی و Unified Memory در CUDA
  • 27. استفاده از حافظه‌های Pin-Memory (Page-locked Host Memory)
  • 28. انتقال ناهم‌زمان داده (Asynchronous Data Transfer) با Streamها
  • 29. مفهوم رویدادها (Events) برای زمان‌بندی و همگام‌سازی در Streamها
  • 30. تاثیر پهنای باند حافظه (Memory Bandwidth) بر عملکرد
  • 31. بهینه‌سازی استفاده از رجیسترها و جلوگیری از Register Spill
  • 32. پنهان‌سازی تاخیر (Latency Hiding) با افزایش Occupancy
  • 33. مفهوم و تاثیر Warp Divergence بر عملکرد
  • 34. تکنیک‌های کاهش Warp Divergence
  • 35. عملیات اتمیک (Atomic Operations) و کاربرد آنها
  • 36. پیاده‌سازی عملیات Reduction بر روی GPU
  • 37. پیاده‌سازی Parallel Prefix Sum (Scan)
  • 38. بهینه‌سازی Matrix Multiplication (GEMM) با CUDA
  • 39. استفاده از __CUDA_ARCH__ برای کدنویسی ویژه معماری
  • 40. دستورالعمل‌های Intrinsics برای بهینه‌سازی‌های سطح پایین
  • 41. استفاده از Dynamic Parallelism (Kernels launching Kernels)
  • 42. تکنیک‌های Loop Unrolling و Software Pipelining
  • 43. بهینه‌سازی دسترسی به داده (Data Locality)
  • 44. استفاده از شتاب‌دهنده‌های سخت‌افزاری (Tensor Cores در NVIDIA GPUs)
  • 45. بررسی تاثیر Cache L1/L2 بر عملکرد Kernel
  • 46. آشنایی با نحوه استفاده فریم‌ورک‌ها از GPU
  • 47. مدل‌سازی Tensorها در PyTorch و TensorFlow برای GPU
  • 48. مفهوم گراف محاسباتی (Computational Graph) و اجرای آن بر روی GPU
  • 49. مشتق‌گیری خودکار (Autograd) و نقش آن در بهینه‌سازی GPU
  • 50. استفاده از API فریم‌ورک‌ها برای عملیات GPU (e.g., .to('cuda'), tf.device('/GPU:0'))
  • 51. معرفی CuDNN و CuBLAS: کتابخانه‌های بهینه‌شده برای DL بر روی GPU
  • 52. تفاوت بین نسخه‌های مختلف CUDA/CuDNN و تاثیر آن
  • 53. پیاده‌سازی کرنل‌های CUDA سفارشی (Custom CUDA Kernels) در PyTorch
  • 54. پیاده‌سازی کرنل‌های CUDA سفارشی در TensorFlow
  • 55. مدیریت حافظه GPU توسط فریم‌ورک‌ها
  • 56. بهینه‌سازی عملیات I/O و پیش‌پردازش داده برای GPU
  • 57. استفاده از Dataloaders موازی برای تغذیه سریع‌تر GPU
  • 58. استراتژی‌های بهینه‌سازی حافظه در فریم‌ورک‌ها
  • 59. بررسی مصرف حافظه GPU توسط لایه‌های مختلف مدل
  • 60. ابزارهای پروفایلینگ حافظه در فریم‌ورک‌ها (e.g., PyTorch Memory Profiler)
  • 61. معرفی ابزارهای پروفایلینگ GPU (NVIDIA Nsight Systems, Nsight Compute)
  • 62. تحلیل خروجی پروفایلر برای شناسایی گلوگاه‌ها
  • 63. تفکیک زمان مصرفی بین CPU و GPU
  • 64. شناسایی عملیات‌های با Latency بالا
  • 65. بررسی میزان استفاده از GPU (GPU Utilization)
  • 66. تحلیل پهنای باند حافظه و ترافیک داده
  • 67. شناسایی Bottleneckهای ناشی از Warp Divergence و Bank Conflict
  • 68. استفاده از ابزارهای پروفایلینگ فریم‌ورک‌ها (e.g., PyTorch Profiler, TensorFlow Profiler)
  • 69. تجزیه و تحلیل ردیابی (Trace Analysis) برای درک جریان اجرایی
  • 70. تکنیک‌های بنچمارکینگ (Benchmarking) دقیق و قابل تکرار
  • 71. آموزش با دقت مخلوط (Mixed Precision Training) با FP16 و BFloat16
  • 72. استفاده از Automatic Mixed Precision (AMP) در PyTorch و TensorFlow
  • 73. مزایا و چالش‌های Mixed Precision
  • 74. مفهوم Loss Scaling در Mixed Precision
  • 75. بهینه‌سازی حجم بچ (Batch Size) برای GPU
  • 76. تجمع گرادیان (Gradient Accumulation) برای شبیه‌سازی بچ‌های بزرگتر
  • 77. بارگذاری داده پویا (Dynamic Batching) برای افزایش استفاده از GPU
  • 78. تاثیر بهینه‌سازها (Optimizers) و زمان‌بند نرخ یادگیری (Learning Rate Schedulers) بر سرعت همگرایی
  • 79. استفاده از Dataloaders با قابلیت پیش‌واکشی (Prefetching)
  • 80. تکنیک‌های کاهش مصرف حافظه در آموزش (e.g., Gradient Checkpointing)
  • 81. مقدمه‌ای بر آموزش توزیع‌شده (Distributed Training)
  • 82. Data Parallelism: روش اصلی آموزش بر روی چند GPU
  • 83. مفهوم All-Reduce و نقش آن در Data Parallelism
  • 84. پیاده‌سازی DistributedDataParallel در PyTorch
  • 85. پیاده‌سازی MirroredStrategy/MultiWorkerMirroredStrategy در TensorFlow
  • 86. Pipe-line Parallelism برای مدل‌های بزرگ
  • 87. Tensor Parallelism برای لایه‌های بزرگ
  • 88. ترکیب Data و Model Parallelism
  • 89. ارتباطات بین GPUها (NVLink, PCIe)
  • 90. بهینه‌سازی ارتباطات شبکه برای Multi-GPU Training
  • 91. بهینه‌سازی استنتاج (Inference Optimization)
  • 92. کوانتیزاسیون (Quantization) مدل برای کاهش حجم و افزایش سرعت
  • 93. کوانتیزاسیون پس از آموزش (Post-Training Quantization – PTQ)
  • 94. کوانتیزاسیون در حین آموزش (Quantization-Aware Training – QAT)
  • 95. معرفی NVIDIA TensorRT برای بهینه‌سازی استنتاج
  • 96. استفاده از ONNX و ONNX Runtime برای استنتاج Cross-Platform
  • 97. کامپایلرهای JIT (Just-In-Time) مانند TorchScript و XLA
  • 98. Fusion کرنل و Graph Optimization برای افزایش کارایی
  • 99. استراتژی‌های سرو مدل‌های DL (Model Serving) با تاخیر کم و throughput بالا
  • 100. ملاحظات اخلاقی و پایداری در محاسبات با کارایی بالا (High-Performance Computing)

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “کتاب بهینه‌سازی اجرای مدل‌های DL بر روی GPU”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا