تخطي إلى المحتوى

أدلة ومقارنات وأحدث الأخبار عن أدوات الذكاء الاصطناعي

أدلة ومقارنات وأحدث الأخبار عن أدوات الذكاء الاصطناعي للمبتدئين

مقال مميز

ما هي Agent Evals؟ قياس النتيجة والمسار معًا
Claude تطوير AI والبرمجة للمبتدئين

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

Agent evals هي عملية القياس المنهجي لما إذا كان الوكيل — الذي يستخدم الأدوات ويتخذ خطوات متعددة للوصول إلى هدف — قادرًا فعلًا على إنجاز مهامه. إنها تطور لتقييمات الـ LLM، يتوسع فيه الهدف من «مخرَج واحد» إلى «سلسلة من الأفعال». ولأن الوكيل يخطط، ويستدعي الأدوات، ويحدّث الحالة، فإن المخرَج النهائي وحده لا يكفي؛ وتشير Google إلى أن عليك فهم «لماذا» وراء أفعال الوكيل، وتقسّم التقييم إلى استجابة نهائية و trajectory. الأبعاد الخمسة هي: النتيجة (نجاح المهمة، يُحكَم عليها بالحالة النهائية — ما إذا كان الحجز موجودًا في الـ DB، لا التصريح «لقد حجزتُه»)، والمسار (خطوات معقولة، أدوات صحيحة بالترتيب الصحيح)، وصحة استخدام الأدوات (الأداة والوسائط الصحيحة، مع فحص أسماء الدوال والأنواع)، والكفاءة (الخطوات، الرموز، التكلفة، زمن الاستجابة — غالبًا إشارات قابلية مراقبة مُدخَلة في التقييم)، وجودة الاستجابة النهائية (عبر LLM-as-judge أو معيار تقييم). والمُقيّمون هم الكود (سريع/رخيص/قابل لإعادة الإنتاج لكنه هشّ)، و LLM-as-judge (مرن لكنه غير حتمي ويحتاج إلى معايرة)، والبشر (المعيار الذهبي لكنه مكلف — تجنّبه إن أمكن). توصي Anthropic بتقييم النتيجة لا المسار: فمطابقة المسار الحرفية «صارمة وهشّة» لأن الوكلاء يجدون بدائل صحيحة، بينما تقدّم Google و Microsoft مقاييس مطابقة المسار لتشخيص الإخفاقات. والمزالق الخاصة هي اللاحتمية (pass^k)، والأخطاء المتراكمة (p^t)، واختراق المكافأة (ذراع روبوت DeepMind تزيّف إمساكًا)، وتقادم مجموعات التقييم أو تلوثها. والخطة العملية، وفق Anthropic: حوّل 20-50 إخفاقًا في الإنتاج إلى حالات اختبار، وشغّل التقييم الآلي في CI، وافصل تقييمات القدرة والانحدار، واكتبها مبكرًا. ومعايير مثل SWE-bench و tau-bench و WebArena و GAIA و OSWorld و BFCL مراجع مفيدة (الدرجات تتغير حسب الإصدار، فلا تأخذها على ظاهرها). استنادًا إلى المعلومات الرسمية، مع الإشارة إلى أوجه عدم اليقين.

أحدث المقالات

145 مقالات
ما هو نموذج اللغة الكبير LLM؟ آلية العمل وأبرز النماذج واستخداماتها

ما هو نموذج اللغة الكبير LLM؟ آلية العمل وأبرز النماذج واستخداماتها

مصطلح "LLM" منتشر في كل مكان، لكن ما معناه تحديداً؟ نماذج اللغة الكبيرة هي المحرك الذي يقف خلف ChatGPT وClaude وGemini. في هذا الدليل نشرح آلية عملها، ونقارن بين أبرز النماذج، ونستعرض حالات الاستخدام الفعلية والقيود الأساسية.

نقاط القوة والضعف في الذكاء الاصطناعي التوليدي — ما يستطيع وما لا يستطيع فعله بأمثلة عملية

نقاط القوة والضعف في الذكاء الاصطناعي التوليدي — ما يستطيع وما لا يستطيع فعله بأمثلة عملية

"هل يستطيع الذكاء الاصطناعي التوليدي فعل كل شيء؟" — ليس تماماً. يتفوق الذكاء الاصطناعي التوليدي في المهام القائمة على الأنماط كالكتابة والبرمجة وتحليل البيانات، لكنه لا يزال عاجزاً عن الفهم العاطفي والحكم الأخلاقي والإبداع الحقيقي. إليك تحليلاً واضحاً بأمثلة عملية.

الذكاء الاصطناعي التوليدي لتحسين كفاءة الأعمال | دليل عملي لكل قسم مع خطوات التطبيق

الذكاء الاصطناعي التوليدي لتحسين كفاءة الأعمال | دليل عملي لكل قسم مع خطوات التطبيق

"ما الذي يمكن للذكاء الاصطناعي التوليدي فعله فعلاً لتحسين كفاءة العمل؟" — نشرح بالتفصيل التطبيقات العملية في كل قسم، من المبيعات إلى الموارد البشرية، مع الأدوات الموصى بها وخطوات التطبيق والأخطاء الشائعة.

دليل شامل للعمل الجانبي بالذكاء الاصطناعي التوليدي | المجالات والأدوات وطرق الربح

دليل شامل للعمل الجانبي بالذكاء الاصطناعي التوليدي | المجالات والأدوات وطرق الربح

«كيف أبدأ العمل الجانبي بالذكاء الاصطناعي التوليدي؟ ومن أين أبدأ؟» — في هذا الدليل نشرح لك كيف تستخدم أدوات مثل ChatGPT وMidjourney لتحقيق دخل إضافي، مع شرح تفصيلي حسب كل مجال.

ما هو الذكاء الاصطناعي التوليدي؟ وكيف يختلف عن الذكاء الاصطناعي التقليدي

ما هو الذكاء الاصطناعي التوليدي؟ وكيف يختلف عن الذكاء الاصطناعي التقليدي

تسمع عبارة «الذكاء الاصطناعي التوليدي» في كل مكان، لكن ما الذي يميّزه عن الذكاء الاصطناعي العادي؟ ولماذا يُوصف ChatGPT وMidjourney بأنهما «توليديان»؟ هذا المقال يجيب عن هذه الأسئلة بلغة بسيطة.

ما أفضل أطر العمل للتطوير بمساعدة الذكاء الاصطناعي التوليدي؟ مقارنة شاملة

ما أفضل أطر العمل للتطوير بمساعدة الذكاء الاصطناعي التوليدي؟ مقارنة شاملة

جودة الكود الذي ينتجه الذكاء الاصطناعي التوليدي تتأثر بشكل كبير باختيار إطار العمل. نقارن أطر العمل الرئيسية من حيث حجم بيانات التدريب ووضوح القواعد وأمان الأنواع، مع توصيات الحزمة التقنية المثلى لعام 2026.

تواريخ قطع المعرفة لأدوات الذكاء الاصطناعي التوليدي الرئيسية — مقارنة شاملة

تواريخ قطع المعرفة لأدوات الذكاء الاصطناعي التوليدي الرئيسية — مقارنة شاملة

هل سبق أن سألت الذكاء الاصطناعي التوليدي سؤالاً فأجابك "هذه المعلومة خارج نطاق بياناتي"؟ لكل أداة ذكاء اصطناعي توليدي تاريخ قطع معرفة يحدد آخر فترة زمنية تغطيها بياناتها. نقارن في هذا المقال تواريخ القطع وإمكانيات البحث لـ 8 أدوات رئيسية.

ما هو Claude Agent SDK؟ دليل شامل لتطوير وكلاء الذكاء الاصطناعي

ما هو Claude Agent SDK؟ دليل شامل لتطوير وكلاء الذكاء الاصطناعي

باستخدام Claude Agent SDK من Anthropic، يمكنك بناء وكلاء ذكاء اصطناعي قادرين على اتخاذ القرارات وتنفيذ المهام بشكل مستقل. نشرح في هذا المقال كل شيء من المفاهيم الأساسية إلى التطبيق العملي.

20 أداة ذكاء اصطناعي توليدي لتطوير الألعاب! دليل شامل للرسم والموسيقى والبرمجة

20 أداة ذكاء اصطناعي توليدي لتطوير الألعاب! دليل شامل للرسم والموسيقى والبرمجة

أدوات الذكاء الاصطناعي التوليدي تُحدث ثورة في تطوير الألعاب. في هذا المقال نستعرض أفضل الأدوات حسب التخصص: الرسومات، الموسيقى، البرمجة، والاختبار، مع اختيار أدوات يمكن حتى للمطورين المستقلين استخدامها.

15 وظيفة مهددة بالاستبدال بالذكاء الاصطناعي التوليدي! المهن المعرضة للزوال وطرق النجاة [2026]

15 وظيفة مهددة بالاستبدال بالذكاء الاصطناعي التوليدي! المهن المعرضة للزوال وطرق النجاة [2026]

هل تشعر بالقلق حول مستقبل وظيفتك مع تطور الذكاء الاصطناعي التوليدي؟ في هذا المقال نستعرض 15 وظيفة معرضة لخطر الاستبدال، وخصائص الوظائف الآمنة، واستراتيجيات عملية للنجاة في عصر الذكاء الاصطناعي.

تصفح حسب الفئة

GitHub Copilot

عرض الكل

Stable Diffusion

عرض الكل

أدوات أخرى

عرض الكل

للمبتدئين

عرض الكل

تطوير AI والبرمجة

عرض الكل

بيئة التطوير والبنية التحتية

عرض الكل

وكلاء AI والأتمتة

عرض الكل

كفاءة العمل

عرض الكل

الكتابة

عرض الكل

التصميم

عرض الكل

تحليل البيانات

عرض الكل

التعلم والتعليم

عرض الكل

الدخل الإضافي

عرض الكل

تطوير الألعاب

عرض الكل

الأمان والحوكمة

عرض الكل

مخاطر AI والتأثير الاجتماعي

عرض الكل