أدلة ومقارنات وأحدث الأخبار عن أدوات الذكاء الاصطناعي

أدلة ومقارنات وأحدث الأخبار عن أدوات الذكاء الاصطناعي للمبتدئين

مقال مميز

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

Agent evals هي عملية القياس المنهجي لما إذا كان الوكيل — الذي يستخدم الأدوات ويتخذ خطوات متعددة للوصول إلى هدف — قادرًا فعلًا على إنجاز مهامه. إنها تطور لتقييمات الـ LLM، يتوسع فيه الهدف من «مخرَج واحد» إلى «سلسلة من الأفعال». ولأن الوكيل يخطط، ويستدعي الأدوات، ويحدّث الحالة، فإن المخرَج النهائي وحده لا يكفي؛ وتشير Google إلى أن عليك فهم «لماذا» وراء أفعال الوكيل، وتقسّم التقييم إلى استجابة نهائية و trajectory. الأبعاد الخمسة هي: النتيجة (نجاح المهمة، يُحكَم عليها بالحالة النهائية — ما إذا كان الحجز موجودًا في الـ DB، لا التصريح «لقد حجزتُه»)، والمسار (خطوات معقولة، أدوات صحيحة بالترتيب الصحيح)، وصحة استخدام الأدوات (الأداة والوسائط الصحيحة، مع فحص أسماء الدوال والأنواع)، والكفاءة (الخطوات، الرموز، التكلفة، زمن الاستجابة — غالبًا إشارات قابلية مراقبة مُدخَلة في التقييم)، وجودة الاستجابة النهائية (عبر LLM-as-judge أو معيار تقييم). والمُقيّمون هم الكود (سريع/رخيص/قابل لإعادة الإنتاج لكنه هشّ)، و LLM-as-judge (مرن لكنه غير حتمي ويحتاج إلى معايرة)، والبشر (المعيار الذهبي لكنه مكلف — تجنّبه إن أمكن). توصي Anthropic بتقييم النتيجة لا المسار: فمطابقة المسار الحرفية «صارمة وهشّة» لأن الوكلاء يجدون بدائل صحيحة، بينما تقدّم Google و Microsoft مقاييس مطابقة المسار لتشخيص الإخفاقات. والمزالق الخاصة هي اللاحتمية (pass^k)، والأخطاء المتراكمة (p^t)، واختراق المكافأة (ذراع روبوت DeepMind تزيّف إمساكًا)، وتقادم مجموعات التقييم أو تلوثها. والخطة العملية، وفق Anthropic: حوّل 20-50 إخفاقًا في الإنتاج إلى حالات اختبار، وشغّل التقييم الآلي في CI، وافصل تقييمات القدرة والانحدار، واكتبها مبكرًا. ومعايير مثل SWE-bench و tau-bench و WebArena و GAIA و OSWorld و BFCL مراجع مفيدة (الدرجات تتغير حسب الإصدار، فلا تأخذها على ظاهرها). استنادًا إلى المعلومات الرسمية، مع الإشارة إلى أوجه عدم اليقين.

2026/06/20

أدلة ومقارنات وأحدث الأخبار عن أدوات الذكاء الاصطناعي

مقال مميز

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

أحدث المقالات

أوضاع Claude الثلاثة: الدردشة وCowork والكود — مقارنة شاملة ونصائح للاستخدام

تصفح حسب الفئة

Claude

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

ما هي خطافات Claude Code؟ تشغيل أوامر الشِل بشكل حتمي

ما هما checkpointing و /rewind في Claude Code؟ التراجع عن التغييرات

ما هو Claude Managed Agents؟ سحابة Anthropic المُدارة بالكامل

ChatGPT

كيف تجعل ردود البريد والدردشة أسرع 10 أضعاف بالذكاء الاصطناعي — إطار الطبقات الثلاث والأدوات والقوالب

ما هو الذكاء الاصطناعي متعدّد الوسائط؟ — البنية الموحَّدة للنصّ/الصورة/الصوت/الفيديو ومقارنة أبرز النماذج

الاستعداد للامتحانات وأساليب الدراسة بالذكاء الاصطناعي — 5 تقنيات جوهرية و6 أدوات مقارنة

ما هي واجهة API للذكاء الاصطناعي؟ — دليل المبتدئ للأسعار والتوكنات واختيار النموذج والفرق عن دردشة الويب

Gemini

ما هو Google Gemini؟ الذكاء الاصطناعي متعدد الوسائط المدمج مع منظومة Google

ما هو الذكاء الاصطناعي متعدّد الوسائط؟ — البنية الموحَّدة للنصّ/الصورة/الصوت/الفيديو ومقارنة أبرز النماذج

تواريخ قطع المعرفة لأدوات الذكاء الاصطناعي التوليدي الرئيسية — مقارنة شاملة

GitHub Copilot

ما هو GitHub Copilot؟ من إكمال الشيفرة إلى وكيل برمجة ذاتي القيادة

Codex

إصدار ChatGPT 5.5 (GPT-5.5) — شرح شامل للمزايا والمعايير والأسعار ومقارنة مع Claude Opus 4.7

Midjourney

كيفية استخدام Midjourney — دليل V8.1 الكامل: الخطط، الموجّهات الخمسية، المعاملات، والمراجع

أفضل 8 أدوات ذكاء اصطناعي لتوليد الصور — مقارنة وفرز حسب حالة الاستخدام

Stable Diffusion

ما هو Stable Diffusion — ذكاء اصطناعي للصور مفتوح المصدر: كيف يعمل، التشغيل المحلي، والترخيص التجاري

أفضل 8 أدوات ذكاء اصطناعي لتوليد الصور — مقارنة وفرز حسب حالة الاستخدام

أدوات أخرى

ما هو LoRA؟ تخصيص الذكاء الاصطناعي بقليل جدًا من التدريب الإضافي

ما هو التكميم (Quantization)؟ تقليص نماذج الذكاء الاصطناعي لتشغيلها على جهازك

ما هو تقطير النماذج؟ نقل المعرفة من ذكاء اصطناعي كبير إلى صغير

ما هو الضبط الدقيق (fine-tuning)؟ الضبط الدقيق مقابل RAG، وLoRA/QLoRA، ومتى تستخدمه — دليل المبتدئين

للمبتدئين

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

ما هي خطافات Claude Code؟ تشغيل أوامر الشِل بشكل حتمي

ما هما checkpointing و /rewind في Claude Code؟ التراجع عن التغييرات

ما هو Claude Managed Agents؟ سحابة Anthropic المُدارة بالكامل

تطوير AI والبرمجة

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

ما هي خطافات Claude Code؟ تشغيل أوامر الشِل بشكل حتمي

ما هما checkpointing و /rewind في Claude Code؟ التراجع عن التغييرات

ما هو Claude Managed Agents؟ سحابة Anthropic المُدارة بالكامل

بيئة التطوير والبنية التحتية

كيف تُشغّل نموذج LLM محليًا: ذكاء اصطناعي على جهازك الخاص — المواصفات والأدوات وأفضل النماذج للمبتدئين

هل يستطيع الذكاء الاصطناعي التوليدي التعامل مع البنية التحتية وإعداد البيئة؟ — دليل المبتدئين لـ"أين تفوّض"

الذكاء الاصطناعي يقول "استخدم Next.js" — ما يجب أن يعرفه المبتدئون فعلاً قبل الانطلاق

ما هو Cursor؟ — محرر الذكاء الاصطناعي: كيف تستخدمه وكيف يختلف عن VS Code

وكلاء AI والأتمتة

ما هي AI observability؟ مراقبة وتتبّع LLMs والوكلاء للمبتدئين

كيف تبني نظام وكلاء متعددين: دليل عملي إلى نمط supervisor

ما هو النظام متعدد الوكلاء؟ التنسيق بين عدة وكلاء ذكاء اصطناعي مشروحاً للمبتدئين

ما هو A2A (Agent2Agent)؟ كيف يختلف عن MCP، وبطاقات الوكيل، وكيف يعمل

كفاءة العمل

إلى أي مدى يستطيع الذكاء الاصطناعي أتمتة مهام المتصفح؟ واقع ملء النماذج والحجز والبحث

10 حالات استخدام لوكلاء الذكاء الاصطناعي — أمثلة واقعية لأتمتة الأعمال وأثرها وكيفية البدء

كيف يوسّع الذكاء الاصطناعي فجوة القدرات بين الموظفين؟ المحور المتحوّل، الأرضية مقابل السقف، وكيف لا تتخلّف عن الركب

هندسة الأوامر: الموجز العملي — 6 أجزاء وتقنيات للحصول على الإجابات التي تريدها من الذكاء الاصطناعي

الكتابة

الفروق بين AEO وLLMO — التداخل 70%، والفريد 30%، وأين يقف GEO

ما AEO — Answer Engine Optimization: التعريف والفرق عن SEO وسبع تقنيات تجعلك تُستشهد

ممارسة الكتابة بالذكاء الاصطناعي — توزيع ChatGPT/Claude/Gemini وسير العمل الهجين الذي يفوز بـ SEO

كيف غيّر Google AI Overviews الـ SEO والـ AEO — الفروق عن LLMO ودليل شامل

التصميم

البدء في توليد الفيديو بالذكاء الاصطناعي [2026] — مشهد ما بعد Sora، وVeo/Kling، ونصائح المطالبات

البدء بتوليد الصور بالذكاء الاصطناعي — كيف يعمل، والخطوات الأربع، وتشريح موجّه الصورة، والحقوق

كيفية استخدام Midjourney — دليل V8.1 الكامل: الخطط، الموجّهات الخمسية، المعاملات، والمراجع

ما هو Stable Diffusion — ذكاء اصطناعي للصور مفتوح المصدر: كيف يعمل، التشغيل المحلي، والترخيص التجاري

تحليل البيانات

إلى أي مدى يصل الذكاء الاصطناعي بتحليل البيانات؟ 3 طرق للتحليل دون كتابة Python — والمزالق

التعلم والتعليم

الاستعداد للامتحانات وأساليب الدراسة بالذكاء الاصطناعي — 5 تقنيات جوهرية و6 أدوات مقارنة

الدخل الإضافي

الخطوة الأولى للكسب من المنزل بالذكاء الاصطناعي من الصفر — بداية بلا لقاءات وجهًا لوجه لمن في وضع hikikomori والمنقطعين عن العمل والتعليم

هل سيقضي الذكاء الاصطناعي على وظائف المكاتب؟ توقع Amodei بنسبة 50% والبيانات وما سيبقى

دليل شامل للعمل الجانبي بالذكاء الاصطناعي التوليدي | المجالات والأدوات وطرق الربح

تطوير الألعاب

20 أداة ذكاء اصطناعي توليدي لتطوير الألعاب! دليل شامل للرسم والموسيقى والبرمجة