تخطي إلى المحتوى

أدلة ومقارنات وأحدث الأخبار عن أدوات الذكاء الاصطناعي

أدلة ومقارنات وأحدث الأخبار عن أدوات الذكاء الاصطناعي للمبتدئين

مقال مميز

ما هي Agent Evals؟ قياس النتيجة والمسار معًا
Claude تطوير AI والبرمجة للمبتدئين

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

Agent evals هي عملية القياس المنهجي لما إذا كان الوكيل — الذي يستخدم الأدوات ويتخذ خطوات متعددة للوصول إلى هدف — قادرًا فعلًا على إنجاز مهامه. إنها تطور لتقييمات الـ LLM، يتوسع فيه الهدف من «مخرَج واحد» إلى «سلسلة من الأفعال». ولأن الوكيل يخطط، ويستدعي الأدوات، ويحدّث الحالة، فإن المخرَج النهائي وحده لا يكفي؛ وتشير Google إلى أن عليك فهم «لماذا» وراء أفعال الوكيل، وتقسّم التقييم إلى استجابة نهائية و trajectory. الأبعاد الخمسة هي: النتيجة (نجاح المهمة، يُحكَم عليها بالحالة النهائية — ما إذا كان الحجز موجودًا في الـ DB، لا التصريح «لقد حجزتُه»)، والمسار (خطوات معقولة، أدوات صحيحة بالترتيب الصحيح)، وصحة استخدام الأدوات (الأداة والوسائط الصحيحة، مع فحص أسماء الدوال والأنواع)، والكفاءة (الخطوات، الرموز، التكلفة، زمن الاستجابة — غالبًا إشارات قابلية مراقبة مُدخَلة في التقييم)، وجودة الاستجابة النهائية (عبر LLM-as-judge أو معيار تقييم). والمُقيّمون هم الكود (سريع/رخيص/قابل لإعادة الإنتاج لكنه هشّ)، و LLM-as-judge (مرن لكنه غير حتمي ويحتاج إلى معايرة)، والبشر (المعيار الذهبي لكنه مكلف — تجنّبه إن أمكن). توصي Anthropic بتقييم النتيجة لا المسار: فمطابقة المسار الحرفية «صارمة وهشّة» لأن الوكلاء يجدون بدائل صحيحة، بينما تقدّم Google و Microsoft مقاييس مطابقة المسار لتشخيص الإخفاقات. والمزالق الخاصة هي اللاحتمية (pass^k)، والأخطاء المتراكمة (p^t)، واختراق المكافأة (ذراع روبوت DeepMind تزيّف إمساكًا)، وتقادم مجموعات التقييم أو تلوثها. والخطة العملية، وفق Anthropic: حوّل 20-50 إخفاقًا في الإنتاج إلى حالات اختبار، وشغّل التقييم الآلي في CI، وافصل تقييمات القدرة والانحدار، واكتبها مبكرًا. ومعايير مثل SWE-bench و tau-bench و WebArena و GAIA و OSWorld و BFCL مراجع مفيدة (الدرجات تتغير حسب الإصدار، فلا تأخذها على ظاهرها). استنادًا إلى المعلومات الرسمية، مع الإشارة إلى أوجه عدم اليقين.

أحدث المقالات

145 مقالات
ما هي Agent Evals؟ قياس النتيجة والمسار معًا

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

Agent evals هي عملية القياس المنهجي لما إذا كان الوكيل — الذي يستخدم الأدوات ويتخذ خطوات متعددة للوصول إلى هدف — قادرًا فعلًا على إنجاز مهامه. إنها تطور لتقييمات الـ LLM، يتوسع فيه الهدف من «مخرَج واحد» إلى «سلسلة من الأفعال». ولأن الوكيل يخطط، ويستدعي الأدوات، ويحدّث الحالة، فإن المخرَج النهائي وحده لا يكفي؛ وتشير Google إلى أن عليك فهم «لماذا» وراء أفعال الوكيل، وتقسّم التقييم إلى استجابة نهائية و trajectory. الأبعاد الخمسة هي: النتيجة (نجاح المهمة، يُحكَم عليها بالحالة النهائية — ما إذا كان الحجز موجودًا في الـ DB، لا التصريح «لقد حجزتُه»)، والمسار (خطوات معقولة، أدوات صحيحة بالترتيب الصحيح)، وصحة استخدام الأدوات (الأداة والوسائط الصحيحة، مع فحص أسماء الدوال والأنواع)، والكفاءة (الخطوات، الرموز، التكلفة، زمن الاستجابة — غالبًا إشارات قابلية مراقبة مُدخَلة في التقييم)، وجودة الاستجابة النهائية (عبر LLM-as-judge أو معيار تقييم). والمُقيّمون هم الكود (سريع/رخيص/قابل لإعادة الإنتاج لكنه هشّ)، و LLM-as-judge (مرن لكنه غير حتمي ويحتاج إلى معايرة)، والبشر (المعيار الذهبي لكنه مكلف — تجنّبه إن أمكن). توصي Anthropic بتقييم النتيجة لا المسار: فمطابقة المسار الحرفية «صارمة وهشّة» لأن الوكلاء يجدون بدائل صحيحة، بينما تقدّم Google و Microsoft مقاييس مطابقة المسار لتشخيص الإخفاقات. والمزالق الخاصة هي اللاحتمية (pass^k)، والأخطاء المتراكمة (p^t)، واختراق المكافأة (ذراع روبوت DeepMind تزيّف إمساكًا)، وتقادم مجموعات التقييم أو تلوثها. والخطة العملية، وفق Anthropic: حوّل 20-50 إخفاقًا في الإنتاج إلى حالات اختبار، وشغّل التقييم الآلي في CI، وافصل تقييمات القدرة والانحدار، واكتبها مبكرًا. ومعايير مثل SWE-bench و tau-bench و WebArena و GAIA و OSWorld و BFCL مراجع مفيدة (الدرجات تتغير حسب الإصدار، فلا تأخذها على ظاهرها). استنادًا إلى المعلومات الرسمية، مع الإشارة إلى أوجه عدم اليقين.

ما هي خطافات Claude Code؟ تشغيل أوامر الشِل بشكل حتمي

ما هي خطافات Claude Code؟ تشغيل أوامر الشِل بشكل حتمي

خطافات Claude Code هي أوامر شِل يعرّفها المستخدم وتُنفَّذ تلقائيًا عند نقاط محددة في دورة حياة Claude Code، فتجعل قاعدة "يجب أن يحدث هذا دائمًا" حقيقية وحتمية دون الاعتماد على حكم نموذج اللغة الكبير. الأحداث الكلاسيكية تسعة — SessionStart، وUserPromptSubmit، وPreToolUse، وPostToolUse، وNotification، وStop، وSubagentStop، وSessionEnd، وPreCompact — ومنها PreToolUse وغيره يمكنه الحظر (موقِفًا تعديلات الملفات المحمية أو الأوامر الخطيرة). تُعِدّها في settings.json تحت مفتاح "hooks" على هيئة اسم الحدث ← matcher ← type + command. عقد الإدخال/الإخراج: يتلقى الخطاف JSON على stdin (session_id، وtool_input، إلخ) ويُرجع عبر رمز الخروج 0 (نجاح) / 2 (حظر، مع تمرير stderr إلى Claude) أو JSON مُهيكَل (continue، وdecision:block، وpermissionDecision: deny/allow/ask). المبدأ الرئيسي هو "يمكن للخطافات التشديد لا التخفيف للقيود" (deny تفوز دائمًا، وتحظر حتى في وضع bypassPermissions). حالات استخدام كلاسيكية: التنسيق التلقائي بعد التعديلات (PostToolUse + Edit|Write)، وحماية الملفات الحرجة، وإيقاف الأوامر الخطيرة، وإعادة حقن السياق (SessionStart)، والإشعارات/سجل التدقيق، والاختبار قبل التوقف (Stop). بخصوص الأمان، تشغّل الخطافات أوامر شِل عشوائية بصلاحياتك، لذا لا تُعِدّ سوى الموثوقة منها وتحقّق من المدخلات واقتبسها؛ ويُلتقَط إعداد الخطاف عند بدء الجلسة (ميزة أمان) لذا لا تُطبَّق تغييرات منتصف الجلسة. استنادًا إلى التوثيق الرسمي، مرتكزًا على الأحداث التسعة الكلاسيكية وعقد الإدخال/الإخراج.

ما هما checkpointing و /rewind في Claude Code؟ التراجع عن التغييرات

ما هما checkpointing و /rewind في Claude Code؟ التراجع عن التغييرات

checkpointing و /rewind شبكة أمان: يتتبع Claude Code تلقائيًا تعديلات Claude للملفات أثناء عملك، فتعود إلى "ما قبل الخطأ" بضغطات قليلة. تُلتقط لقطة قبل كل تعديل، ويصبح كل موجّه ترسله نقطة استعادة، وتستمر نقاط التفتيش عبر الجلسات. للاستخدام، اكتب /rewind أو اضغط Esc مرتين عندما يكون الإدخال فارغًا لفتح القائمة، ثم اختر نقطة واختر استعادة الكود والمحادثة / استعادة المحادثة / استعادة الكود (ملاحظة: إذا احتوى الإدخال على نص، فإن Esc مرتين يمسحه بدلًا من ذلك). التحذير الأهم: تُستعاد فقط التغييرات التي تتم عبر أدوات تحرير Claude (Write/Edit/NotebookEdit) — أما تغييرات أوامر bash (rm/mv/cp)، والتغييرات خارج الجلسة أو من جلسات أخرى، وعمليات المجلدات، والملفات البعيدة، وحالة قاعدة البيانات فلا يُتراجَع عنها عبر rewind. تصوغها الوثائق على أنها "نقاط التفتيش = تراجع محلي، Git = تاريخ دائم،" مذكورةً أنه يُكمّل ولا يحل محل التحكم في الإصدارات، لذا الالتزام بـ Git عند المعالم هو القاعدة. كما أن /rewind هو التعافي من خطأ 400 المرتبط بتزامن استخدام الأدوات وكتل التفكير (يدفعك المنتج نفسه لتشغيله)، رغم أن الإصدارات السابقة لـ v2.1.156 قد لا تزيله فيأتي claude update أولًا. مُفعّل افتراضيًا في واجهة سطر الأوامر التفاعلية، واشتراك صريح في Agent SDK، ومُحتفَظ به مع الجلسات لمدة 30 يومًا (قابل للتهيئة). استنادًا إلى الوثائق الرسمية، مع الإشارة إلى مواطن عدم اليقين.

ما هو Claude Managed Agents؟ سحابة Anthropic المُدارة بالكامل

ما هو Claude Managed Agents؟ سحابة Anthropic المُدارة بالكامل

أُطلق Claude Managed Agents كإصدار تجريبي عام في 8 أبريل 2026 كمجموعة من واجهات برمجة التطبيقات القابلة للتركيب لبناء ونشر وكلاء مستضافين على السحابة على نطاق واسع. بدلاً من بناء حلقة الوكيل الخاصة بك وتنفيذ الأدوات وبيئة التشغيل، تحصل على بيئة مُدارة بالكامل يمكن فيها لـ Claude قراءة الملفات وتشغيل الأوامر وتصفح الويب وتنفيذ التعليمات البرمجية بأمان، مع تخزين مؤقت للموجّهات وضغط للسياق وعزل في sandbox وحفظ للحالة مدمجة. وهو منظَّم حول أربعة مفاهيم (Agent وEnvironment وSession وEvents)، ويمكن أن تكون الـ Environment بيئة سحابية مُدارة من Anthropic أو ذاتية الاستضافة. والفرق عن Agent SDK ذاتي الاستضافة (حيث تُشغّل الحلقة والأدوات والبنية التحتية) هو "أنت تشغّله مقابل Anthropic تشغّله" — ليسا متنافسَين بل خيار حول مقدار ما تحتفظ به من التشغيل. ومن السمات المميّزة الذاكرة الدائمة المحدودة بنطاق مساحة العمل (memory store) المُركّبة في الـ sandbox على /mnt/memory، يقرأها الوكيل ويكتب إليها بعمليات الملفات الاعتيادية وتبقى عبر الجلسات (نسخ غير قابلة للتعديل، احتفاظ 30 يوماً، حدود مثل 100 kB لكل ذاكرة). والـ dreaming مهمة غير متزامنة تقرأ الذاكرة القائمة والنصوص السابقة لإنتاج متجر ذاكرة مُعاد تنظيمه — بدمج المكرّرات وتحديث القيم القديمة وإبراز رؤى جديدة (معاينة بحثية تتطلب وصولاً؛ يصفها البعض بـ"المجدولة" لكن الوثائق تصفها بمهمة غير متزامنة عند الطلب). ويتضمن أيضاً تقييماً قائماً على النتائج (يقيّم مُقيّم منفصل وفق معيارك؛ تحسّن مذكور يصل إلى 10 نقاط) وتنسيق تعدد الوكلاء. والتسعير هو الرموز (tokens) + 0.08$ لكل ساعة جلسة (يُقاس بالملّي ثانية، فقط أثناء التشغيل؛ نحو 0.705$ لجلسة Opus 4.8 لمدة ساعة). مُفعَّل افتراضياً لجميع حسابات الـ API، لكنه ذو حالة لذا غير مؤهّل لـ ZDR أو HIPAA BAA. استناداً إلى المعلومات الرسمية، مع الإشارة إلى أوجه عدم اليقين.

ما هو plugin في Claude Code وما هو الـ marketplace؟ اجمع ميزاتك وشاركها

ما هو plugin في Claude Code وما هو الـ marketplace؟ اجمع ميزاتك وشاركها

الـ plugin في Claude Code هو دليل واحد يجمع skills وأوامر slash وsubagents وhooks وخوادم MCP بحيث يمكن إصداره ومشاركته وإعادة استخدامه عبر الفرق والمشاريع، ويُوزَّع عبر marketplace. يشرح هذا المقال بنية الـ plugin، وكيفية استخدامه عبر /plugin والـ marketplaces، وكيفية بناء ما يخصّك ونشره عبر git، إضافةً إلى نطاق التوزيع وملاحظات الأمان (إذ يمكن للـ plugins تنفيذ شيفرة عشوائية).

Subagents مقابل Agent Teams في Claude Code: الفرق الحاسم وأيهما تستخدم

Subagents مقابل Agent Teams في Claude Code: الفرق الحاسم وأيهما تستخدم

تتشابه الأسماء بين subagents وAgent Teams في Claude Code، لكن دوريهما وأسلوب التنسيق مختلفان جوهريًا. الـ subagents ميزة مدمجة تفوّض مهمة إلى مساعد بسياق جديد وتستعيد ملخّصًا فقط (هرمي، تتداخل حتى 5 مستويات). أما Agent Teams فتجريبية معطّلة افتراضيًا (تحتاج CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1) وتتنسّق فيها جلسات مستقلة كأقران عبر قائمة مهام مشتركة. يوضّح المقال الفرق الحاسم وأيهما تستخدم وكيف.

ما هو Claude Design و design-sync؟ تصميم وكود في كلا الاتجاهين

ما هو Claude Design و design-sync؟ تصميم وكود في كلا الاتجاهين

Claude Design أداة تصميم من Anthropic Labs تتيح إنشاء واجهات المستخدم والنماذج الأولية والشرائح عبر المحادثة. أضاف تحديث 17 يونيو 2026 استيراد أنظمة التصميم والمزامنة ثنائية الاتجاه مع Claude Code عبر /design-sync، مما قلّص رحلة الذهاب والإياب بين المصممين والمطورين. يشرح المقال ما هي الأداة وما الذي تغيّر واتجاهي /design-sync وشروط الاستخدام ولماذا يُعدّ هذا مهمًّا.

ما هو Claude Code Artifacts؟ حوِّل جلستك إلى صفحة مشترَكة حيّة

ما هو Claude Code Artifacts؟ حوِّل جلستك إلى صفحة مشترَكة حيّة

في 18 يونيو 2026، أطلقت Anthropic ميزة Claude Code Artifacts (بيتا) التي تحوّل جلسة برمجة في الطرفية إلى صفحة ويب حيّة يمكن لفريقك مشاركتها. وبدلاً من بثّ git diff والسجلات نصًّا، صار بإمكان Claude Code نشر شرح موضّح لطلب دمج، أو لوحة تحكّم ذاتية التحديث، أو خط زمني لحادثة في صفحة واحدة. يوضّح هذا المقال ما هو Artifacts، وكيف يختلف عن claude.ai Artifacts لعام 2024، وكيفية استخدامه، وقيوده، وشروط توفّره.

أخطاء تسجيل الدخول والمصادقة في Claude Code: «Invalid API key» وحلولها

أخطاء تسجيل الدخول والمصادقة في Claude Code: «Invalid API key» وحلولها

تظهر أخطاء المصادقة في Claude Code مثل «Not logged in» و«Invalid API key» و«organization has been disabled» عادةً بصفة 401/403. السبب الحقيقي الأكثر شيوعًا هو أن متغيّر البيئة ANTHROPIC_API_KEY يتجاوز بصمت تسجيل دخول اشتراكك، فيُنتج رسومًا غير متوقعة ورفضًا للدخول. يشرح المقال ترتيب أولوية بيانات الاعتماد، وسير تشخيص من /status إلى unset ثم /logout و/login، وتمييزه عن 429 و529 وحد الاستخدام.

الخطأ «command not found: claude» في Claude Code: التثبيت وإصلاح PATH

الخطأ «command not found: claude» في Claude Code: التثبيت وإصلاح PATH

يكون الخطأ «command not found: claude» في معظم الحالات مجرّد أن مجلد التثبيت (~/.local/bin) غير مُدرَج في PATH؛ الملف الثنائي موجود، فيكفي إضافة سطر واحد وإعادة تشغيل الطرفية. يغطي المقال طرق التثبيت ومواقعه، وإصلاح PATH، وتعارض عمليات التثبيت المتعددة، ومزالق Windows، والتحديث. خطأ npm EACCES يُحَلّ بالانتقال إلى المثبّت الأصلي لا بـ sudo، وعند التعثّر شغّل claude doctor.

أخطاء الاتصال والشبكة في Claude Code: إعداد البروكسي (proxy) وشهادات TLS

أخطاء الاتصال والشبكة في Claude Code: إعداد البروكسي (proxy) وشهادات TLS

أخطاء الشبكة/البروكسي في Claude Code (Unable to connect / fetch failed / SSL certificate verification failed) تعني أن الطلب لم يصل إلى خادم Anthropic أصلًا، وليست مصادقة أو تحميلًا زائدًا أو حدّ معدل. الأسباب المعتادة هي البروكسي المؤسسي وفحص TLS والجدار الناري. يشرح المقال ضبط HTTPS_PROXY، والوثوق بشهادة CA المؤسسية عبر NODE_EXTRA_CA_CERTS، والنطاقات الواجب السماح بها، وسير عمل التشخيص. لا تعطّل التحقق أبدًا عبر NODE_TLS_REJECT_UNAUTHORIZED=0.

أخطاء خادم Claude Code «529 Overloaded» و«500»: الأسباب والحلول

أخطاء خادم Claude Code «529 Overloaded» و«500»: الأسباب والحلول

حين يتوقّف Claude Code فجأة برسالة «API Error: 529 Overloaded» أو «500 Internal server error»، فهذان حدثان عابران من جانب الخادم — وليسا خطأً في طلبك أو إعداداتك، ولا نفادًا لاستخدامك. يشرح هذا المقال معنى 529 (ازدحام واجهة Anthropic API مؤقتًا) و500 (خطأ داخلي غير متوقّع)، وأنهما لا يستهلكان حصتك، وكيف يعيد Claude Code المحاولة تلقائيًا حتى 10 مرات بتراجع أسّي، والحلول من جانب المستخدم (الانتظار، والتبديل بـ/model، ومراجعة status.claude.com، و/feedback مع request_id)، والتمييز بينه وبين 429 وusage limit و400، وإرشادات المطورين، وكيفية تمييز الارتفاع العابر عن العطل المستمر.

تصفح حسب الفئة

GitHub Copilot

عرض الكل

Stable Diffusion

عرض الكل

أدوات أخرى

عرض الكل

للمبتدئين

عرض الكل

تطوير AI والبرمجة

عرض الكل

بيئة التطوير والبنية التحتية

عرض الكل

وكلاء AI والأتمتة

عرض الكل

كفاءة العمل

عرض الكل

الكتابة

عرض الكل

التصميم

عرض الكل

تحليل البيانات

عرض الكل

التعلم والتعليم

عرض الكل

الدخل الإضافي

عرض الكل

تطوير الألعاب

عرض الكل

الأمان والحوكمة

عرض الكل

مخاطر AI والتأثير الاجتماعي

عرض الكل