Agent evals هي عملية القياس المنهجي لما إذا كان الوكيل — الذي يستخدم الأدوات ويتخذ خطوات متعددة للوصول إلى هدف — قادرًا فعلًا على إنجاز مهامه. إنها تطور لتقييمات الـ LLM، يتوسع فيه الهدف من «مخرَج واحد» إلى «سلسلة من الأفعال». ولأن الوكيل يخطط، ويستدعي الأدوات، ويحدّث الحالة، فإن المخرَج النهائي وحده لا يكفي؛ وتشير Google إلى أن عليك فهم «لماذا» وراء أفعال الوكيل، وتقسّم التقييم إلى استجابة نهائية و trajectory. الأبعاد الخمسة هي: النتيجة (نجاح المهمة، يُحكَم عليها بالحالة النهائية — ما إذا كان الحجز موجودًا في الـ DB، لا التصريح «لقد حجزتُه»)، والمسار (خطوات معقولة، أدوات صحيحة بالترتيب الصحيح)، وصحة استخدام الأدوات (الأداة والوسائط الصحيحة، مع فحص أسماء الدوال والأنواع)، والكفاءة (الخطوات، الرموز، التكلفة، زمن الاستجابة — غالبًا إشارات قابلية مراقبة مُدخَلة في التقييم)، وجودة الاستجابة النهائية (عبر LLM-as-judge أو معيار تقييم). والمُقيّمون هم الكود (سريع/رخيص/قابل لإعادة الإنتاج لكنه هشّ)، و LLM-as-judge (مرن لكنه غير حتمي ويحتاج إلى معايرة)، والبشر (المعيار الذهبي لكنه مكلف — تجنّبه إن أمكن). توصي Anthropic بتقييم النتيجة لا المسار: فمطابقة المسار الحرفية «صارمة وهشّة» لأن الوكلاء يجدون بدائل صحيحة، بينما تقدّم Google و Microsoft مقاييس مطابقة المسار لتشخيص الإخفاقات. والمزالق الخاصة هي اللاحتمية (pass^k)، والأخطاء المتراكمة (p^t)، واختراق المكافأة (ذراع روبوت DeepMind تزيّف إمساكًا)، وتقادم مجموعات التقييم أو تلوثها. والخطة العملية، وفق Anthropic: حوّل 20-50 إخفاقًا في الإنتاج إلى حالات اختبار، وشغّل التقييم الآلي في CI، وافصل تقييمات القدرة والانحدار، واكتبها مبكرًا. ومعايير مثل SWE-bench و tau-bench و WebArena و GAIA و OSWorld و BFCL مراجع مفيدة (الدرجات تتغير حسب الإصدار، فلا تأخذها على ظاهرها). استنادًا إلى المعلومات الرسمية، مع الإشارة إلى أوجه عدم اليقين.

2026/06/20

أحدث المقالات

عرض الكل

Claude تطوير AI والبرمجة للمبتدئين

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

2026/06/20

Claude تطوير AI والبرمجة للمبتدئين

ما هي خطافات Claude Code؟ تشغيل أوامر الشِل بشكل حتمي

خطافات Claude Code هي أوامر شِل يعرّفها المستخدم وتُنفَّذ تلقائيًا عند نقاط محددة في دورة حياة Claude Code، فتجعل قاعدة "يجب أن يحدث هذا دائمًا" حقيقية وحتمية دون الاعتماد على حكم نموذج اللغة الكبير. الأحداث الكلاسيكية تسعة — SessionStart، وUserPromptSubmit، وPreToolUse، وPostToolUse، وNotification، وStop، وSubagentStop، وSessionEnd، وPreCompact — ومنها PreToolUse وغيره يمكنه الحظر (موقِفًا تعديلات الملفات المحمية أو الأوامر الخطيرة). تُعِدّها في settings.json تحت مفتاح "hooks" على هيئة اسم الحدث ← matcher ← type + command. عقد الإدخال/الإخراج: يتلقى الخطاف JSON على stdin (session_id، وtool_input، إلخ) ويُرجع عبر رمز الخروج 0 (نجاح) / 2 (حظر، مع تمرير stderr إلى Claude) أو JSON مُهيكَل (continue، وdecision:block، وpermissionDecision: deny/allow/ask). المبدأ الرئيسي هو "يمكن للخطافات التشديد لا التخفيف للقيود" (deny تفوز دائمًا، وتحظر حتى في وضع bypassPermissions). حالات استخدام كلاسيكية: التنسيق التلقائي بعد التعديلات (PostToolUse + Edit|Write)، وحماية الملفات الحرجة، وإيقاف الأوامر الخطيرة، وإعادة حقن السياق (SessionStart)، والإشعارات/سجل التدقيق، والاختبار قبل التوقف (Stop). بخصوص الأمان، تشغّل الخطافات أوامر شِل عشوائية بصلاحياتك، لذا لا تُعِدّ سوى الموثوقة منها وتحقّق من المدخلات واقتبسها؛ ويُلتقَط إعداد الخطاف عند بدء الجلسة (ميزة أمان) لذا لا تُطبَّق تغييرات منتصف الجلسة. استنادًا إلى التوثيق الرسمي، مرتكزًا على الأحداث التسعة الكلاسيكية وعقد الإدخال/الإخراج.

2026/06/20

Claude تطوير AI والبرمجة للمبتدئين

ما هما checkpointing و /rewind في Claude Code؟ التراجع عن التغييرات

checkpointing و /rewind شبكة أمان: يتتبع Claude Code تلقائيًا تعديلات Claude للملفات أثناء عملك، فتعود إلى "ما قبل الخطأ" بضغطات قليلة. تُلتقط لقطة قبل كل تعديل، ويصبح كل موجّه ترسله نقطة استعادة، وتستمر نقاط التفتيش عبر الجلسات. للاستخدام، اكتب /rewind أو اضغط Esc مرتين عندما يكون الإدخال فارغًا لفتح القائمة، ثم اختر نقطة واختر استعادة الكود والمحادثة / استعادة المحادثة / استعادة الكود (ملاحظة: إذا احتوى الإدخال على نص، فإن Esc مرتين يمسحه بدلًا من ذلك). التحذير الأهم: تُستعاد فقط التغييرات التي تتم عبر أدوات تحرير Claude (Write/Edit/NotebookEdit) — أما تغييرات أوامر bash (rm/mv/cp)، والتغييرات خارج الجلسة أو من جلسات أخرى، وعمليات المجلدات، والملفات البعيدة، وحالة قاعدة البيانات فلا يُتراجَع عنها عبر rewind. تصوغها الوثائق على أنها "نقاط التفتيش = تراجع محلي، Git = تاريخ دائم،" مذكورةً أنه يُكمّل ولا يحل محل التحكم في الإصدارات، لذا الالتزام بـ Git عند المعالم هو القاعدة. كما أن /rewind هو التعافي من خطأ 400 المرتبط بتزامن استخدام الأدوات وكتل التفكير (يدفعك المنتج نفسه لتشغيله)، رغم أن الإصدارات السابقة لـ v2.1.156 قد لا تزيله فيأتي claude update أولًا. مُفعّل افتراضيًا في واجهة سطر الأوامر التفاعلية، واشتراك صريح في Agent SDK، ومُحتفَظ به مع الجلسات لمدة 30 يومًا (قابل للتهيئة). استنادًا إلى الوثائق الرسمية، مع الإشارة إلى مواطن عدم اليقين.

2026/06/20

Claude تطوير AI والبرمجة للمبتدئين

ما هو Claude Managed Agents؟ سحابة Anthropic المُدارة بالكامل

أُطلق Claude Managed Agents كإصدار تجريبي عام في 8 أبريل 2026 كمجموعة من واجهات برمجة التطبيقات القابلة للتركيب لبناء ونشر وكلاء مستضافين على السحابة على نطاق واسع. بدلاً من بناء حلقة الوكيل الخاصة بك وتنفيذ الأدوات وبيئة التشغيل، تحصل على بيئة مُدارة بالكامل يمكن فيها لـ Claude قراءة الملفات وتشغيل الأوامر وتصفح الويب وتنفيذ التعليمات البرمجية بأمان، مع تخزين مؤقت للموجّهات وضغط للسياق وعزل في sandbox وحفظ للحالة مدمجة. وهو منظَّم حول أربعة مفاهيم (Agent وEnvironment وSession وEvents)، ويمكن أن تكون الـ Environment بيئة سحابية مُدارة من Anthropic أو ذاتية الاستضافة. والفرق عن Agent SDK ذاتي الاستضافة (حيث تُشغّل الحلقة والأدوات والبنية التحتية) هو "أنت تشغّله مقابل Anthropic تشغّله" — ليسا متنافسَين بل خيار حول مقدار ما تحتفظ به من التشغيل. ومن السمات المميّزة الذاكرة الدائمة المحدودة بنطاق مساحة العمل (memory store) المُركّبة في الـ sandbox على /mnt/memory، يقرأها الوكيل ويكتب إليها بعمليات الملفات الاعتيادية وتبقى عبر الجلسات (نسخ غير قابلة للتعديل، احتفاظ 30 يوماً، حدود مثل 100 kB لكل ذاكرة). والـ dreaming مهمة غير متزامنة تقرأ الذاكرة القائمة والنصوص السابقة لإنتاج متجر ذاكرة مُعاد تنظيمه — بدمج المكرّرات وتحديث القيم القديمة وإبراز رؤى جديدة (معاينة بحثية تتطلب وصولاً؛ يصفها البعض بـ"المجدولة" لكن الوثائق تصفها بمهمة غير متزامنة عند الطلب). ويتضمن أيضاً تقييماً قائماً على النتائج (يقيّم مُقيّم منفصل وفق معيارك؛ تحسّن مذكور يصل إلى 10 نقاط) وتنسيق تعدد الوكلاء. والتسعير هو الرموز (tokens) + 0.08$ لكل ساعة جلسة (يُقاس بالملّي ثانية، فقط أثناء التشغيل؛ نحو 0.705$ لجلسة Opus 4.8 لمدة ساعة). مُفعَّل افتراضياً لجميع حسابات الـ API، لكنه ذو حالة لذا غير مؤهّل لـ ZDR أو HIPAA BAA. استناداً إلى المعلومات الرسمية، مع الإشارة إلى أوجه عدم اليقين.

2026/06/20

Claude تطوير AI والبرمجة للمبتدئين

ما هو plugin في Claude Code وما هو الـ marketplace؟ اجمع ميزاتك وشاركها

الـ plugin في Claude Code هو دليل واحد يجمع skills وأوامر slash وsubagents وhooks وخوادم MCP بحيث يمكن إصداره ومشاركته وإعادة استخدامه عبر الفرق والمشاريع، ويُوزَّع عبر marketplace. يشرح هذا المقال بنية الـ plugin، وكيفية استخدامه عبر /plugin والـ marketplaces، وكيفية بناء ما يخصّك ونشره عبر git، إضافةً إلى نطاق التوزيع وملاحظات الأمان (إذ يمكن للـ plugins تنفيذ شيفرة عشوائية).

2026/06/20

Claude تطوير AI والبرمجة للمبتدئين

Subagents مقابل Agent Teams في Claude Code: الفرق الحاسم وأيهما تستخدم

تتشابه الأسماء بين subagents وAgent Teams في Claude Code، لكن دوريهما وأسلوب التنسيق مختلفان جوهريًا. الـ subagents ميزة مدمجة تفوّض مهمة إلى مساعد بسياق جديد وتستعيد ملخّصًا فقط (هرمي، تتداخل حتى 5 مستويات). أما Agent Teams فتجريبية معطّلة افتراضيًا (تحتاج CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1) وتتنسّق فيها جلسات مستقلة كأقران عبر قائمة مهام مشتركة. يوضّح المقال الفرق الحاسم وأيهما تستخدم وكيف.

2026/06/20