تخطي إلى المحتوى

أدلة ومقارنات وأحدث الأخبار عن أدوات الذكاء الاصطناعي

أدلة ومقارنات وأحدث الأخبار عن أدوات الذكاء الاصطناعي للمبتدئين

مقال مميز

ما هي Agent Evals؟ قياس النتيجة والمسار معًا
Claude تطوير AI والبرمجة للمبتدئين

ما هي Agent Evals؟ قياس النتيجة والمسار معًا

Agent evals هي عملية القياس المنهجي لما إذا كان الوكيل — الذي يستخدم الأدوات ويتخذ خطوات متعددة للوصول إلى هدف — قادرًا فعلًا على إنجاز مهامه. إنها تطور لتقييمات الـ LLM، يتوسع فيه الهدف من «مخرَج واحد» إلى «سلسلة من الأفعال». ولأن الوكيل يخطط، ويستدعي الأدوات، ويحدّث الحالة، فإن المخرَج النهائي وحده لا يكفي؛ وتشير Google إلى أن عليك فهم «لماذا» وراء أفعال الوكيل، وتقسّم التقييم إلى استجابة نهائية و trajectory. الأبعاد الخمسة هي: النتيجة (نجاح المهمة، يُحكَم عليها بالحالة النهائية — ما إذا كان الحجز موجودًا في الـ DB، لا التصريح «لقد حجزتُه»)، والمسار (خطوات معقولة، أدوات صحيحة بالترتيب الصحيح)، وصحة استخدام الأدوات (الأداة والوسائط الصحيحة، مع فحص أسماء الدوال والأنواع)، والكفاءة (الخطوات، الرموز، التكلفة، زمن الاستجابة — غالبًا إشارات قابلية مراقبة مُدخَلة في التقييم)، وجودة الاستجابة النهائية (عبر LLM-as-judge أو معيار تقييم). والمُقيّمون هم الكود (سريع/رخيص/قابل لإعادة الإنتاج لكنه هشّ)، و LLM-as-judge (مرن لكنه غير حتمي ويحتاج إلى معايرة)، والبشر (المعيار الذهبي لكنه مكلف — تجنّبه إن أمكن). توصي Anthropic بتقييم النتيجة لا المسار: فمطابقة المسار الحرفية «صارمة وهشّة» لأن الوكلاء يجدون بدائل صحيحة، بينما تقدّم Google و Microsoft مقاييس مطابقة المسار لتشخيص الإخفاقات. والمزالق الخاصة هي اللاحتمية (pass^k)، والأخطاء المتراكمة (p^t)، واختراق المكافأة (ذراع روبوت DeepMind تزيّف إمساكًا)، وتقادم مجموعات التقييم أو تلوثها. والخطة العملية، وفق Anthropic: حوّل 20-50 إخفاقًا في الإنتاج إلى حالات اختبار، وشغّل التقييم الآلي في CI، وافصل تقييمات القدرة والانحدار، واكتبها مبكرًا. ومعايير مثل SWE-bench و tau-bench و WebArena و GAIA و OSWorld و BFCL مراجع مفيدة (الدرجات تتغير حسب الإصدار، فلا تأخذها على ظاهرها). استنادًا إلى المعلومات الرسمية، مع الإشارة إلى أوجه عدم اليقين.

أحدث المقالات

145 مقالات
أثر الذكاء الاصطناعي في الأمن السيبراني — كيف غيّر Claude Mythos خريطة المعركة

أثر الذكاء الاصطناعي في الأمن السيبراني — كيف غيّر Claude Mythos خريطة المعركة

حقّق Claude Mythos Preview الذي أصدرته Anthropic في أبريل 2026 معدّلات نجاح في استغلال محرّك JavaScript في Firefox أعلى بـ 90 ضعفًا من Opus 4.6، واكتشف آلاف ثغرات اليوم الصفري في OpenBSD وFFmpeg ونواة Linux. قرّرت Anthropic عدم إطلاقه للعموم، وتبنّت بدلًا من ذلك "Project Glasswing" — تسليمًا محدودًا لشركاء مثل AWS وGoogle وMicrosoft. يرسم هذا المقال خريطة المشهد الجديد للأمن السيبراني للذكاء الاصطناعي الذي كشف عنه Mythos: أتمتة المهاجمين، والذكاء الاصطناعي على جانب الدفاع، والاستجابة التنظيميّة، والإجراءات التي ينبغي على المؤسّسات اتّخاذها، استنادًا إلى أحدث البيانات.

ما هي هندسة الطوق (Harness Engineering)؟ تصميم الطبقة المُحيطة بنموذج اللغة في عصر وكلاء الذكاء الاصطناعي

ما هي هندسة الطوق (Harness Engineering)؟ تصميم الطبقة المُحيطة بنموذج اللغة في عصر وكلاء الذكاء الاصطناعي

انتقل مركز الثقل من هندسة المُوجِّهات إلى هندسة الطوق — ساحة المعركة الجديدة في عصر وكلاء الذكاء الاصطناعي. يستعرض هذا المقال ما تعنيه هندسة الطوق فعلاً، وكيف تختلف عن هندسة المُوجِّهات، ومكوّناتها الستة (تعريف الأدوات، إدارة السياق، الذاكرة، الحلقة، الحواجز الواقية، تجربة مستخدم المُخرجات)، ومقارنة جنبًا إلى جنب بين Claude Code وCursor وCodex CLI وDevin، وقائمة تحقّق عمليّة للتصميم — وهو الأساس الذي تحتاجه لاستخدام وكلاء الذكاء الاصطناعي أو بنائهم بجدّيّة.

لماذا يتجاهل وكلاء الذكاء الاصطناعي قواعد ملفات .md — وكيف تجعل CLAUDE.md وقواعد Cursor وAGENTS.md تلتزم فعلاً

لماذا يتجاهل وكلاء الذكاء الاصطناعي قواعد ملفات .md — وكيف تجعل CLAUDE.md وقواعد Cursor وAGENTS.md تلتزم فعلاً

تجاهل وكلاء الذكاء الاصطناعي (Claude Code وCursor وCopilot وCodex) لملفات قواعدك بصيغة .md يعود إلى 5 أسباب جذرية: حدود نافذة السياق، الضغط التلقائي الذي يُمييع التعليمات الأولى، الأولوية الضبابية، الصياغة الغامضة، والملفات المنتفخة المُبعثرة. يتناول هذا المقال التشخيص، والمكاسب السريعة (الضغط إلى أقل من 150 سطرًا، علامات الأولوية)، والأتمتة طويلة الأمد عبر Claude Code Hooks والوكلاء الفرعيين وأوامر السلاش المخصّصة — إلى جانب أفضل الممارسات الخاصة بكل أداة.

إصدار ChatGPT 5.5 (GPT-5.5) — شرح شامل للمزايا والمعايير والأسعار ومقارنة مع Claude Opus 4.7

إصدار ChatGPT 5.5 (GPT-5.5) — شرح شامل للمزايا والمعايير والأسعار ومقارنة مع Claude Opus 4.7

أطلقت OpenAI "ChatGPT 5.5 (GPT-5.5)" في 23 أبريل 2026. يُقدَّم هذا النموذج بوصفه "فئة جديدة من الذكاء للعمل الفعلي ووكلاء الذكاء الاصطناعي"، وقد سجّل 82.7% في Terminal-Bench 2.0 — متفوقاً على Claude Opus 4.7 (69.4%) وGemini 3.1 Pro (68.5%) ليستعيد الصدارة. لكن سعر API تضاعف مقارنة بـ GPT-5.4 ($5/$30 لكل مليون توكن)، وما زال Claude Opus 4.7 يتفوق عليه في SWE-Bench Pro. هذا المقال يقدّم لك الصورة الكاملة — المزايا، المعايير، الأسعار، توافر الخطط، مقارنة مع Claude وGemini، وكيفية الاختيار — كل ذلك مستند إلى المصادر الرسمية.

ما هو Next.js الذي يوصي به الذكاء الاصطناعي؟ شرح شامل لمطوري React المبتدئين

ما هو Next.js الذي يوصي به الذكاء الاصطناعي؟ شرح شامل لمطوري React المبتدئين

حين تطلب من Claude Code أو ChatGPT بناء تطبيق ويب، يقترح دائماً "لنستخدم Next.js". لكن ما هو Next.js أصلاً؟ ألا يكفي React وحده؟ هذا المقال يشرح بالتفصيل: ماهية Next.js، وسبب تفضيل الذكاء الاصطناعي له، والفرق عن React، ومعاني SSR/SSG/ISR، وApp Router مقابل Pages Router، وعلاقته بـ Vercel، ومقارنته بالبدائل كـ Nuxt وRemix وAstro — كل ذلك محدَّث لأحدث إصدار Next.js 16.2 (مارس 2026).

ما هو RAG؟ شرح مبسط للمبتدئين عن آلية العمل والاستخدامات

ما هو RAG؟ شرح مبسط للمبتدئين عن آلية العمل والاستخدامات

تريد أن تجعل ChatGPT يقرأ وثائق شركتك ويجيب على أسئلة الموظفين؟ الحل هو RAG (Retrieval-Augmented Generation / التوليد المعزز بالاسترجاع). في هذا المقال نشرح آلية RAG في 3 خطوات بالرسوم، ونتناول قواعد بيانات المتجهات وتنفيذ LangChain والفرق عن الضبط الدقيق بأسلوب مفهوم للمبتدئين. مع أمثلة عملية وفيرة في QA الداخلي ودعم العملاء والمجالات القانونية والطبية.

إطلاق Claude Opus 4.7 - شرح شامل للمزايا الجديدة والمعايير والأسعار

إطلاق Claude Opus 4.7 - شرح شامل للمزايا الجديدة والمعايير والأسعار

في 16 أبريل 2026 أطلقت Anthropic نموذج Claude Opus 4.7. يأتي بدعم الصور عالية الدقة (حتى 2576px)، ومستوى جهد جديد xhigh، وميزانية المهام (بيتا)، ومُحلِّل توكنز جديد، ودعم نافذة سياق 1M، وتثبيت السعر $5/$25، مع تعزيز كبير في مهام البرمجة والوكلاء والرؤية. من جهة أخرى، هناك تغييرات جذرية كإلغاء التفكير الموسّع ومعاملات العينات. نشرح المزايا الجديدة والتغيرات السلوكية والفرق عن 4.6 ومتى نستخدمه.

دليل ترحيل Claude Opus 4.7 - التغييرات الجذرية وطرق التعامل [النسخة الكاملة]

دليل ترحيل Claude Opus 4.7 - التغييرات الجذرية وطرق التعامل [النسخة الكاملة]

صدر Claude Opus 4.7 وبه عدة تغييرات جذرية عن 4.6. إلغاء التفكير الموسّع (enabled)، وإلغاء temperature/top_p/top_k، ومُحلِّل توكنز جديد يضاعف العدد حتى 1.35x، وإخفاء محتوى التفكير افتراضياً، وإلغاء التعبئة المسبقة. نعرض كل التغييرات الجذرية بكود Before/After في Python و TypeScript، مع التغيرات السلوكية والإعدادات الموصى بها وقائمة تحقق يمكن تتبعها سطراً سطراً.

ما هو PaaS (مثل Vercel)؟ مقارنة شاملة مع الاستضافة المشتركة و VPS والسحابة

ما هو PaaS (مثل Vercel)؟ مقارنة شاملة مع الاستضافة المشتركة و VPS والسحابة

عند الاستعانة بـ AI في كتابة الكود، كثيراً ما يقترح عليك "انشرها على Vercel". لكن ما هو Vercel؟ وما الفرق بينه وبين الاستضافة المشتركة أو AWS؟ في هذا المقال نقارن بشكل شامل بين PaaS (مثل Vercel) والاستضافة المشتركة و VPS والسحابة (IaaS) من حيث السعر وحرية التحكم وعبء التشغيل. نشرح أيضاً خصائص أبرز الخدمات مثل Vercel و Netlify و Render و Railway وطريقة اختيار الأنسب لكل استخدام.

ما هو llms.txt؟ -- شرح شامل للصيغة والمعلومات المطلوبة والتوليد الديناميكي [تحسين LLMO]

ما هو llms.txt؟ -- شرح شامل للصيغة والمعلومات المطلوبة والتوليد الديناميكي [تحسين LLMO]

إذا كان robots.txt هو "ملف إخبار محركات البحث بإذن/رفض الزحف"، فإن llms.txt هو "ملف يُعرّف موقعك لنماذج AI". يساعد زواحف LLM مثل GPTBot و ClaudeBot على فهم موقعك، ويزيد احتمال الاستشهاد بمحتواك في بحث AI. هذا المقال يشرح بالتفصيل صيغة llms.txt والمعلومات الواجب تضمينها ومعايير الاختيار بين الملف الثابت والتوليد الديناميكي وطرق التنفيذ في أشهر أطر العمل.

هل يصبح مهندسو البنية التحتية والشبكات غير ضروريين مع Claude Code و Codex؟ — واقع التشغيل في عصر AI

هل يصبح مهندسو البنية التحتية والشبكات غير ضروريين مع Claude Code و Codex؟ — واقع التشغيل في عصر AI

أصبح Claude Code و OpenAI Codex قادرين على توليد كود البنية التحتية (Terraform و Docker و Ansible وغيرها) تلقائياً، فظهرت تساؤلات حول مستقبل مهندسي البنية التحتية. لكن الواقع ليس بهذه البساطة. هذا المقال يحلل ما يجيده AI من مهام، وما يبقى حكراً على الإنسان مثل الطبقة المادية والحكم على الأعطال والمسؤولية الأمنية، وكيف ينبغي للمهندس أن يتطور في عصر AI.

دليل المبتدئين لتطوير خدمات AI — من البنية العامة لتكنولوجيا المعلومات إلى إطلاق الخدمة [دليل شامل]

دليل المبتدئين لتطوير خدمات AI — من البنية العامة لتكنولوجيا المعلومات إلى إطلاق الخدمة [دليل شامل]

هل تعتقد أن البرمجة مستحيلة بالنسبة لك؟ في عام 2026، يمكنك بناء خدمات ويب وإطلاقها حتى بدون أي معرفة تقنية باستخدام أدوات الترميز بالذكاء الاصطناعي مثل Claude Code. يشرح هذا المقال المفاهيم الأساسية لتكنولوجيا المعلومات مثل التطبيقات وقواعد البيانات والخوادم، والفرق بين الاستضافة المشتركة وVPS والسحابة، وسير عمل التطوير الفعلي باستخدام AI.

تصفح حسب الفئة

GitHub Copilot

عرض الكل

Stable Diffusion

عرض الكل

أدوات أخرى

عرض الكل

للمبتدئين

عرض الكل

تطوير AI والبرمجة

عرض الكل

بيئة التطوير والبنية التحتية

عرض الكل

وكلاء AI والأتمتة

عرض الكل

كفاءة العمل

عرض الكل

الكتابة

عرض الكل

التصميم

عرض الكل

تحليل البيانات

عرض الكل

التعلم والتعليم

عرض الكل

الدخل الإضافي

عرض الكل

تطوير الألعاب

عرض الكل

الأمان والحوكمة

عرض الكل

مخاطر AI والتأثير الاجتماعي

عرض الكل