لقد صقلت مطالباتك، وأضفت معرفة عبر RAG، وربما أجريت الضبط الدقيق أيضًا — فكيف تتأكد أنه "تحسّن فعلًا"؟ هنا تتصدّر تقييمات الذكاء الاصطناعي (AI evals) المشهد. وبحلول عام 2026 صار التقييم جوهريًا في بناء الذكاء الاصطناعي إلى حدّ أن الناس يسمّونه "بنية تحتية".

يعرض هذا المقال للمبتدئين ما هي تقييمات الذكاء الاصطناعي، ولماذا تحتاج إليها، وطريقتي التقييم، وكيف يعمل أسلوب "LLM-as-judge" الذي كثُر الحديث عنه ومزالقه، وكيف تُشغّله في الممارسة العملية.

AI EVALS · لا تُحسّن إلا ما تقيسه

قِس بالكود، واحكم على الذوق بالذكاء الاصطناعي

— حوّل "يبدو جيدًا بما يكفي" إلى رقم

📏

حدّد المعايير

حوّل "المخرج الجيد" إلى مقياس ملموس.

⚙️

صحّح آليًا

قيّم باتّساق في كل مرة، بالكود أو بالذكاء الاصطناعي.

📈

تتبّع التغيّر

راقب باستمرار ما الذي تحسّن وما الذي ساء.

1. ما هي تقييمات الذكاء الاصطناعي (AI evals)؟

تقييمات الذكاء الاصطناعي هي قياس جودة مخرجات نموذج LLM بشكل منهجي. "هل هذه الإجابة دقيقة؟" "هل توجد هلوسات (وقائع ملفّقة)؟" "هل يلتزم بالصيغة المطلوبة؟" "هل النبرة مناسبة؟" — أنت تمنح هذه الجوانب درجات على مقياس ثابت بدل الاعتماد على الإحساس في تلك اللحظة.

تخيّل "تصحيح اختبار". تعطي الطالب (الذكاء الاصطناعي) سؤالًا (المُدخل) وتُقيّمه قياسًا إلى إجابة نموذجية أو معيار تصحيح. وما إن تصبح قادرًا على منح الدرجات حتى ترى أخيرًا "أيّ تغيير جعله أفضل وأيّ تغيير جعله أسوأ". بدون التقييمات، يبقى التحسين مجرد حدس.

💡 في جملة واحدة: التقييمات = "نظام يمنح مخرجات الذكاء الاصطناعي درجات". لا يكتسب تعديل المطالبة ولا الضبط الدقيق معنى إلا حين يكون لديك مقياس تقيسهما به.

2. لماذا تحتاج إليها: لا تُطلق المنتج بالحدس

البرنامج العادي ثابت — "المُدخل A يعطي دائمًا المُخرج B" — لكن الذكاء الاصطناعي يتغيّر حتى على المُدخل نفسه (فهو غير حتمي)، و"الجيد أو السيئ" غالبًا أمر ذاتي. لذا فإنّ "جرّبتُ بعض الأمثلة وبدت جيدة، فلنُطلقه" أمر محفوف بالمخاطر. فالحفنة التي صادفتَها ربما كانت جيدة بمحض الحظ.

منهجة التقييم تتيح لك ما يلي:

  • الحكم على التغييرات بالأرقام: عند تغيير مطالبة أو نموذج، قارن بالدرجة
  • اكتشاف التراجعات: تبيّن ما إذا كان "التحسين" قد كسر شيئًا آخر
  • مراقبة جودة الإنتاج: انتبه حين يتدهور أداء الذكاء الاصطناعي أثناء التشغيل

هذا يتلاءم جيدًا مع التطوير القائم على المواصفات. حدّد "ما الذي ستبنيه" (المواصفات) و"قِس ما إذا كنت قد بنيته" (التقييمات) — وبوجود الاثنين معًا يصبح تطوير الذكاء الاصطناعي أخيرًا شيئًا يمكنك إدارته.

3. طريقتان: الكود مقابل LLM-as-judge

توجد بشكل عام طريقتان للتقييم. قِس آليًا بالكود، ودَع الذكاء الاصطناعي يُقيّم ما هو ذاتي — هذا التقسيم هو المبدأ الأساسي.

CODE-BASED (حتمي)

احكم آليًا وفق القواعد

  • المطابقة التامة، الصيغة المطلوبة (JSON وغيرها)
  • يحتوي على كلمة مطلوبة / يتجنّب كلمة محظورة
  • سريع ورخيص ويعطي النتيجة نفسها في كل مرة
  • الأنسب للعناصر ذات الإجابة الصحيحة الواضحة
LLM-AS-JUDGE (تقييم بالنموذج)

دَع الذكاء الاصطناعي يُقيّم الذكاء الاصطناعي

  • الهلوسة، الصلة بالموضوع، الفائدة، النبرة
  • العناصر الذاتية التي لا إجابة وحيدة صحيحة لها
  • أسرع وأرخص من البشر، وعلى نطاق واسع
  • لكن احذر من نزواته (التحيّزات)

القاعدة العامة: "لا تجعل الذكاء الاصطناعي يُقيّم ما يمكنك قياسه بالكود". فالتقييم بالكود أسرع وأرخص وأكثر استقرارًا. احتفظ بـ LLM-as-judge لـالعناصر الذاتية التي يصعب على الكود الحكم عليها، مثل وجود هلوسة من عدمه.

4. كيف يعمل LLM-as-judge

يعني LLM-as-judge استخدام نموذج LLM قوي بوصفه "حَكَمًا" لمنح درجة لمخرج ذكاء اصطناعي آخر. تُسلّم نموذج المُقيّم مطالبةً تتضمّن المعايير والمُدخل والمُخرج، فيُعيد درجةً، أو نتيجة pass/fail، أو "أيّهما أفضل". وثمّة أسلوبان رئيسيان.

المقارنة الزوجية

ضَع إجابتين جنبًا إلى جنب واسأل "أيّهما أفضل؟" الذكاء الاصطناعي بارع في الحكم على الأقوى نسبيًا. ممتاز للمقارنة A/B.

تسجيل مخرج واحد

قيّم إجابة واحدة قياسًا إلى معيار تصحيح بحيث تمنحها درجة. مناسب لتتبّع الجودة المطلقة عبر الزمن.

⚠️ التسجيل الخشن أدقّ: الذكاء الاصطناعي ضعيف في التسجيل الدقيق على مقياس 1–10 ويتذبذب. أما المقياس الخشن مثل "pass/fail" أو "1–3" فيعطي في الواقع نتائج أكثر استقرارًا.

5. المزلق: تحيّزات المُقيِّم

لـ LLM-as-judge "نزوات حَكَم". وإن جهلتَها، فستثق بالدرجات أكثر من اللازم وتُجري التحسينات الخاطئة. ضَع هذه التحيّزات الثلاثة الكبرى في حسبانك.

1. التحيّز للإطناب

يميل إلى منح الإجابات الأطول والأكثر تعقيدًا درجات أعلى — حتى المحتوى الهزيل يستفيد من مجرّد الطول.

2. التحيّز للموضع

ترتيب عرض الإجابات (مثل تلك المعروضة أولًا) يخلق ميزة أو عيبًا.

3. تفضيل الذات

يميل إلى منح الإجابات التي كتبها هو نفسه (العائلة نفسها من النماذج) درجات أعلى.

أما الإجراءات المضادّة فبسيطة.

  • استخدم نموذجًا مختلفًا كمُقيّم: لا تُقيّم مخرج GPT بـ GPT. دَع عائلة مختلفة — Claude أو Gemini وما إلى ذلك — تتولّى التحكيم، تجنّبًا لتفضيل الذات.
  • بدّل الترتيب وقيّم مرتين: احتفظ بالنتيجة إن اتفق التقييمان، وتجاهلها إن تعارضا (للتحكّم في التحيّز للموضع).
  • ضَع "الإيجاز" في معيار التصحيح: مجرّد قول "لا تحكم بالطول" لا يكفي. أضِف معيار إيجاز ووجّه المُقيّم إلى معاقبة الإطناب.
  • عايِر مقابل الحكم البشري: دَع شخصًا يُقيّم عيّنة صغيرة واضبط المعايير لتطابق درجات الذكاء الاصطناعي. هذه هي الخطوة الأكثر فاعلية.

6. في الممارسة: التقييم بوصفه "بنية تحتية"

في ممارسة عام 2026، ليس التقييم حدثًا لمرة واحدة — بل المعيار هو تشغيله باستمرار عبر ثلاث طبقات ("التقييم بوصفه بنية تحتية").

1. فحص فوري عند كل تغيير

شغّل تقييمات خفيفة قائمة على الكود تلقائيًا عند كل تغيير في الكود (CI). أوقِف الأعطال الواضحة فورًا.

2. اختبارات تراجع ليلية

قيّم الجودة بالجملة طوال الليل باستخدام LLM-as-judge. التقِط التدهور البطيء الزاحف.

3. مراقبة مستمرة للإنتاج

راقب المخرجات الحيّة ونبّه عند هبوط الجودة. حُدّ من الأثر على المستخدمين الحقيقيين.

وقد نضجت الأدوات أيضًا. للتشغيلات الخفيفة في CI: DeepEval (الذي يشبه pytest) أو Promptfoo؛ ولـRAG تحديدًا: RAGAS (لقياس الأمانة والصلة بالموضوع وغيرها). وللمراجعة البشرية ولوحات المعلومات ومراقبة الإنتاج: منصّات مثل Braintrust وLangSmith وArize. في الممارسة، يكون اقتران "أداة CI خفيفة" بـ"منصّة مراقبة" هو القاعدة. وآليّة التقييم نفسها تدعم الجودة في بناء وكلاء الذكاء الاصطناعي أيضًا.

※ أسماء الأدوات والطرق مقتبسة من أدلّة وإفصاحات متنوّعة (حتى يونيو 2026). تختلف أفضل تهيئة باختلاف حجم الفريق وحالة الاستخدام.

الخلاصة

ثلاث خلاصات حول تقييمات الذكاء الاصطناعي.

  • ما هي: نظام يمنح مخرجات LLM درجات، فيحوّل التحسين من "حدس" إلى "أرقام". خطوة جوهرية في تطوير الذكاء الاصطناعي.
  • طريقتان: تقييمات الكود للعناصر الحتمية، وLLM-as-judge للعناصر الذاتية. قِس بالكود كل ما يستطيع الكود قياسه.
  • احذر: لـ LLM-as-judge تحيّزات الإطناب والموضع وتفضيل الذات. عالِجها بنموذج مُقيّم مختلف، ومقياس خشن، ومعايرة بشرية.

ابدأ بجمع 10 من "المخرجات الجيدة" و10 من "المخرجات السيئة" من ذكائك الاصطناعي وتقييمها وفق معايير بسيطة. يصبح ذلك مقياسك الأول. اقرأ الضبط الدقيق وهندسة السياق إلى جانب هذا المقال للحصول على الصورة الكاملة لتحسين الذكاء الاصطناعي.

الأسئلة الشائعة

س. هل يمكن فعلًا الوثوق بذكاء اصطناعي يُقيّم ذكاءً اصطناعيًا؟

ج. ليس بشكل أعمى. بسبب تحيّزات الإطناب والموضع وتفضيل الذات، من المهم التقييم بعائلة مختلفة من النماذج والمعايرة مقابل عيّنة صغيرة يُقيّمها بشر. وما إن تتم المعايرة حتى يعمل على نطاق واسع بدقّة تقارب دقّة البشر.

س. كم عدد أمثلة التقييم التي أحتاجها؟

ج. يمكنك البدء جيدًا ببضع عشرات فقط. الحيلة هي جمع أمثلة جيدة وسيئة حقيقية وبناء مجموعة تقييم صغيرة أولًا. وبدل السعي إلى الكمال، نمِّ المعايير مع تقدّمك — فذلك أكثر عملية.

س. تقييمات الكود أم LLM-as-judge — أيّهما أستخدم؟

ج. كلاهما. استخدم تقييمات الكود لما يمكن قياسه آليًا، مثل الصيغة والكلمات المطلوبة؛ واستخدم LLM-as-judge للأمور الذاتية مثل الهلوسة والنبرة. لا داعي لأن تجعل الذكاء الاصطناعي يُقيّم ما يمكنك قياسه حتميًا.

س. هل يحتاج المطوّرون المنفردون إلى التقييمات؟

ج. إنها تساعد بصرف النظر عن الحجم. حتى "معيار للمخرج الجيد" صغير يتيح لك معرفة ما إذا كان تغيير مطالبة أو نموذج تحسينًا أم تراجعًا. ومجرّد تقييم حفنة يدويًا بداية مفيدة.