,

مقاله تأیید یکپارچگی رفتاری برای مهارت‌های عامل هوش مصنوعی

تومان249,950

مهارت‌های عامل، مدل‌های زبان بزرگ (LLM) را با قابلیت‌های ممتاز شخص ثالث مانند دسترسی به سیستم فایل، اعتبارنامه‌ها، فراخوانی‌های شبکه و اجرای شل، گسترش می‌دهند. تحقیقات موجود در زمینه ایمنی، دستورات مخ…

انتخاب پلن

torobpay
هر قسط با ترب‌پی: تومان62,488
۴ قسط ماهانه. بدون سود، چک و ضامن.
شناسه محصول: SuperPaper-0000000176 دسته: ,

📚 محتوای این محصول آموزشی (پکیج کامل)

💡 این محصول یک نسخهٔ کامل و جامع است

تمامی محتوای آموزشی این کتاب در قالب یک بسته‌ی کامل و یکپارچه ارائه می‌شود و شامل تمام نسخه‌ها و فایل‌های موردنیاز برای یادگیری است.

🎁 محتویات کامل بسته دانلودی

🎯 این بسته یک دورهٔ آموزشی کامل و چندلایه است؛ شامل کتاب‌ها، تمرین‌ها و خودآزمایی .


ℹ️ نکات مهم هنگام خرید

  • این محصول به صورت فایل دانلودی کامل ارائه می‌شود و نسخهٔ چاپی ندارد.
  • توجه: لینک‌های اختصاصی دوره طی حداکثر 24 ساعت پس از ثبت سفارش ارسال می‌شوند.
  • دقت کنید لینک ها به شماره موبایل شما ارسال می شوند. پس در ارائه شماره موبایل صحیح دقت کنید.
  • برای راهنمایی در مورد نحوه دانلود به شماره 09395106248 پیامک دهید یا تماس بگیرید. (ایده آل ترین گزینه ارسال پیام در یکی از پیام رسان ها به همین شماره است تا سریعا لینک های کتاب همانجا برای شما ارسال گردد.)
  • اگر پرداخت انجام شده ولی بعد از 24 ساعت هنوز لینک‌ها را دریافت نکرده‌اید، نام و نام خانوادگی و نام محصول را پیامک کنید تا لینک‌ها دوباره ارسال شوند.

💬 راه‌های ارتباطی پشتیبانی:
واتس‌اپ یا هر پیام رسان داخلی یا پیامک: 09395106248
تلگرام: @ma_limbs

تأیید یکپارچگی رفتاری برای مهارت‌های عامل هوش مصنوعی

Behavioral Integrity Verification for AI Agent Skills

نویسندگان: Yuhao Wu, Tung-Ling Li, Hongliang Liu

شناسه منبع: arxiv / 2605.11770

دسته: Cryptography and Security,Artificial Intelligence,Systems and Control

چکیده (فارسی)

مهارت‌های عامل، مدل‌های زبان بزرگ (LLM) را با قابلیت‌های ممتاز شخص ثالث مانند دسترسی به سیستم فایل، اعتبارنامه‌ها، فراخوانی‌های شبکه و اجرای شل، گسترش می‌دهند. تحقیقات موجود در زمینه ایمنی، دستورات مخرب و اقدامات پرخطر در زمان اجرا را شناسایی می‌کنند، اما خود مصنوع مهارت (skill artifact) مورد تأیید قرار نمی‌گیرد. ما این موضوع را به عنوان مسئله "تأیید یکپارچگی رفتاری" (BIV) فرموله می‌کنیم: مقایسه‌ای از مجموعه‌های تایپ شده بین قابلیت‌های اعلام شده و واقعی بر اساس یک طبقه‌بندی مشترک که کد، دستورالعمل‌ها و فراداده را به هم پیوند می‌دهد. چارچوب BIV این مقایسه را با جفت کردن تحلیل کد قطعی با استخراج قابلیت با کمک LLM پیاده‌سازی می‌کند. شواهد ساختاریافته حاصل، از سه تحلیل پایین‌دستی پشتیبانی می‌کند: طبقه‌بندی انحراف، طبقه‌بندی علت ریشه‌ای و تشخیص مهارت مخرب. در 49,943 مهارت از رجیستری OpenClaw، طبقه‌بندی انحراف، شکاف فراگیر بین شرح و پیاده‌سازی را آشکار می‌کند: 80.0% از مهارت‌ها با رفتار اعلام شده مغایرت دارند و چهار دسته تهدید ترکیبی جدید شناسایی شده است. طبقه‌بندی علت ریشه‌ای نشان می‌دهد که انحرافات عمدتاً ناشی از سهل‌انگاری هستند، نه بدخواهی: 81.1% به سهل‌انگاری توسعه‌دهنده و 18.9% به قصد مخرب ردیابی می‌شوند، و 5.0% از مهارت‌ها زنجیره‌های حمله چند مرحله‌ای پیش‌بینی شده را حمل می‌کنند. در یک معیار تشخیص مهارت مخرب شامل 906 مهارت، BIV به امتیاز F1 0.946 دست می‌یابد و از روش‌های پیشرفته مبتنی بر قوانین و LLM تک‌گذر پیشی می‌گیرد. این نتایج، حسابرسی یکپارچگی رفتاری برای مهارت‌های عامل در مقیاس بزرگ را نشان می‌دهد.

Abstract (English)

Agent skills extend LLM agents with privileged third-party capabilities such as filesystem access, credentials, network calls, and shell execution. Existing safety work catches malicious prompts and risky runtime actions, but the skill artifact itself goes unverified. We formalize this as the behavioral integrity verification (BIV) problem: a typed set comparison between declared and actual capabilities over a shared taxonomy that bridges code, instructions, and metadata. The BIV framework instantiates this comparison by pairing deterministic code analysis with LLM-assisted capability extraction. The resulting structured evidence supports three downstream analyses: deviation taxonomy, root-cause classification, and malicious-skill detection. On 49,943 skills from the OpenClaw registry, the deviation taxonomy reveals a pervasive description-implementation gap: 80.0% of skills deviate from declared behavior, with four novel compound-threat categories surfaced. Root-cause classification finds that deviations are mostly oversight, not malice: 81.1% trace to developer oversight and 18.9% to adversarial intent, with 5.0% of skills carrying predicted multi-stage attack chains. On a 906-skill malicious-skill detection benchmark, BIV reaches an F1 of 0.946, outperforming state-of-the-art rule-based and single-pass LLM baselines. These results demonstrate behavioral integrity auditing for agent skills at scale.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مقاله تأیید یکپارچگی رفتاری برای مهارت‌های عامل هوش مصنوعی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا