,

مقاله FutureSim: بازپخش رویدادهای جهان برای ارزیابی عامل‌های انطباق‌پذیر

تومان249,950

عوامل هوش مصنوعی به طور فزاینده‌ای در محیط‌های پویا و باز مستقر می‌شوند که نیازمند سازگاری با اطلاعات جدید به محض دریافت آن‌ها است. برای اندازه‌گیری کارآمد این قابلیت برای موارد استفاده واقعی، ما پیشن…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000002 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

FutureSim: بازپخش رویدادهای جهان برای ارزیابی عامل‌های انطباق‌پذیر

FutureSim: Replaying World Events to Evaluate Adaptive Agents

نویسندگان: Shashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu, Steffen Staab, Moritz Hardt, Maksym Andriushchenko, Jonas Geiping

شناسه منبع: arxiv / 2605.15188

دسته: Machine Learning,Artificial Intelligence,Computation and Language

 

چکیده (فارسی)

عوامل هوش مصنوعی به طور فزاینده‌ای در محیط‌های پویا و باز مستقر می‌شوند که نیازمند سازگاری با اطلاعات جدید به محض دریافت آن‌ها است. برای اندازه‌گیری کارآمد این قابلیت برای موارد استفاده واقعی، ما پیشنهاد می‌کنیم شبیه‌سازی‌های مبتنی بر واقعیت بسازیم که رویدادهای دنیای واقعی را به ترتیبی که رخ داده‌اند، بازپخش می‌کنند. ما FutureSim را می‌سازیم، جایی که عوامل رویدادهای جهان را فراتر از نقطه قطع دانش خود پیش‌بینی می‌کنند و در عین حال با بازپخش زمانی جهان تعامل دارند: مقالات خبری واقعی که در دوره شبیه‌سازی شده دریافت می‌شوند و پرسش‌ها حل می‌شوند. ما عوامل پیشرفته را در محیط بومی خود ارزیابی می‌کنیم و توانایی آن‌ها را برای پیش‌بینی رویدادهای جهان در یک دوره سه ماهه از ژانویه تا مارس ۲۰۲۶ آزمایش می‌کنیم. FutureSim جدایی واضحی در قابلیت‌های آن‌ها نشان می‌دهد، به طوری که دقت بهترین عامل ۲۵٪ است و بسیاری از آن‌ها امتیاز مهارت بریر (Brier skill score) بدتری نسبت به عدم پیش‌بینی دارند. از طریق آزمایش‌های دقیق، ما نشان می‌دهیم که FutureSim چگونه یک محیط واقع‌گرایانه برای مطالعه جهت‌گیری‌های تحقیقاتی نوظهور مانند سازگاری در زمان آزمایش با افق طولانی، جستجو، حافظه و استدلال در مورد عدم قطعیت ارائه می‌دهد. در مجموع، ما امیدواریم که طراحی معیار ما راه را برای اندازه‌گیری پیشرفت هوش مصنوعی در سازگاری باز در افق‌های زمانی طولانی در دنیای واقعی هموار کند.

Abstract (English)

AI agents are being increasingly deployed in dynamic, open-ended environments that require adapting to new information as it arrives. To efficiently measure this capability for realistic use-cases, we propose building grounded simulations that replay real-world events in the order they occurred. We build FutureSim, where agents forecast world events beyond their knowledge cutoff while interacting with a chronological replay of the world: real news articles arriving and questions resolving over the simulated period. We evaluate frontier agents in their native harness, testing their ability to predict world events over a three-month period from January to March 2026. FutureSim reveals a clear separation in their capabilities, with the best agent’s accuracy being 25%, and many having worse Brier skill score than making no prediction at all. Through careful ablations, we show how FutureSim offers a realistic setting to study emerging research directions like long-horizon test-time adaptation, search, memory, and reasoning about uncertainty. Overall, we hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله FutureSim: بازپخش رویدادهای جهان برای ارزیابی عامل‌های انطباق‌پذیر”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا