المحتويات
بعد أن تبني وكيل ذكاء اصطناعي، تصطدم دائماً بالجدار نفسه: "حسناً، لكن هل يعمل فعلاً؟" لقد غيّرت المطالبة، وبدّلت النموذج، وأضفت أداة — والآلية التي تقرّر ما إذا كان ذلك قد جعل الأمور أفضل أم أسوأ اعتماداً على البيانات بدل الحدس هي الـ evals (التقييمات).
يمكن لنموذج اللغة الكبير أن ينتج مخرجات مختلفة في كل مرة للمدخل نفسه (فهو احتمالي). لذا فإن الإطلاق بناءً على "يبدو أنه يعمل" يؤدي إلى تراجعات صامتة وإخفاقات في الحالات الطرفية داخل بيئة الإنتاج. يتناول هذا المقال ما هي الـ evals، وخمس طرق لقياس الجودة، والتقييم الخاص بالوكلاء، وكيف تبدأ على نطاق صغير — وهو مكتوب للممارسين.
الخلاصة في 30 ثانية
إن قرأت شيئاً واحداً فليكن هذا
1. لماذا تحتاج إلى الـ Evals
البرمجيات العادية حتمية: المدخل نفسه يعطي المخرَج نفسه. لهذا يعمل اختبار الوحدة الذي يتحقق من "هل يطابق المخرَج القيمة المتوقعة". أما نموذج اللغة الكبير فهو احتمالي — حتى السؤال نفسه يعود مصاغاً أو مؤطراً بشكل مختلف قليلاً في كل مرة. وبمصطلحات الوكلاء الأذكياء مقابل RPA، فهو ليس "يداً" حتمية بل "دماغاً" احتمالياً، لذا فإن اختبارات المطابقة الدقيقة لا تنجح كما هي.
ثلاثة أنماط من الفشل تظهر عادةً هنا.
تجرّب مثالين أو ثلاثة يدوياً وتقرّر أنه "يبدو أفضل". لا تلاحظ أبداً أن حالة أخرى قد تعطّلت.
تغيّر مطالبة أو نموذجاً ويسوء نوع واحد فقط من المدخلات. وتكتشف ذلك من شكوى في الإنتاج.
"يعيد أحياناً شيئاً غريباً". ولأنه احتمالي، لن تعيد محاولة واحدة إنتاجه، فلا يمكنك تتبّع السبب.
الـ evals تمنع الثلاثة دفعة واحدة. حضّر مجموعة بيانات تقييم، وسجّل النقاط للمجموعة كاملةً عند كل تغيير، وقارن النتائج — هذا وحده يحوّل "الحدس" إلى "بيانات" ويجعل التراجعات مرئية. وكلما فوّضت المزيد من الحكم إلى وكيل، أصبحت الـ evals أساس الجودة، جنباً إلى جنب مع حواجز الحماية.
2. ما هي الـ Evals
الـ Evals (التقييمات) = قياس ما إذا كان مخرَج الذكاء الاصطناعي أو سلوك الوكيل يعمل بشكل صحيح ومستقر كما هو متوقع. بلغة البشر، إنه تصحيح أوراق الاختبار. لبِنات البناء بسيطة وتنقسم إلى ثلاثة أجزاء.
مجموعة المدخلات التي تُجري التقييم عليها. اجمع أمثلة استخدام حقيقية، وسجلّات سابقة، وحالات طرفية متوقعة.
كيف تحوّل المخرَج إلى نقطة: مطابقة دقيقة، أو فحوصات بالقواعد، أو تصحيح بواسطة ذكاء اصطناعي آخر.
سجّل نقاط المجموعة كاملةً وقارن ما قبل التغيير بما بعده لتقرّر أهو أفضل أم أسوأ.
الـ evals ليست "ابنِها مرة واحدة وانتهى الأمر" — جوهرها تشغيلها بوصفها اختبار تراجع في كل مرة تغيّر فيها مطالبة أو نموذجاً أو أداة. وكشيفرة الاختبار، هي أصل تنمّيه مع الوقت.
3. خمس طرق لقياس الجودة
هناك خمسة أساليب تسجيل تمثيلية. والقاعدة العملية هي الاختيار بحسب طبيعة المهمة والجمع بين عدة أساليب.
حضّر المخرَج المتوقع (التسمية الذهبية) لكل مدخل وسجّل بمعدل المطابقة. الأنسب للمهام ذات الإجابة الثابتة: التصنيف، الاستخراج، نعم/لا.
تحقّق آلياً من التعبير النمطي، والمطابقة الدقيقة، وصحّة الـ JSON، ووجود المفاتيح المطلوبة. قوية للتحقّق من "يجب أن يعيد هذا التنسيق دائماً" — سريعة وزهيدة.
اجعل نموذج لغة آخر يصحّح وفق معيار (rubric). للمهام التي ليست إجابتها وحيدة: جودة التلخيص، والنبرة، والملاءمة.
قارن النقاط على مجموعة البيانات نفسها قبل وبعد تغيير المطالبة/النموذج. يلتقط "تراجعاً خفياً" حيث يرتفع الكل بينما يهبط جزء منه.
سجّل النقاط وراقب باستمرار السجلات الحيّة. تابع معدل الفشل والتكلفة والكمون وانحراف المدخلات لالتقاط التدهور مبكراً.
| الطريقة | تناسب | التكلفة | الموضوعية |
|---|---|---|---|
| ① الحقيقة المرجعية | التصنيف، الاستخراج، القرارات | منخفضة | ◎ عالية |
| ② القائمة على القواعد | فحوصات التنسيق / البنية | منخفضة | ◎ عالية |
| ③ LLM-as-judge | جودة التلخيص، التوليد، الحوار | متوسطة | ○ تعتمد على المعيار |
| ④ التراجع | كشف التراجعات الناتجة عن التغييرات | متوسطة | ◎ نسبية |
| ⑤ مراقبة الإنتاج | كشف التدهور الحيّ | متوسطة–عالية | ○ مستمرة |
المفتاح هو التدرّج في الطبقات: "قِس آلياً ما يمكن قياسه (① ②)، واستخدم LLM-as-judge للجودة التي لا يمكن قياسها آلياً (③)، وواصل تشغيلها عبر التراجع والإنتاج (④ ⑤)." إن LLM-as-judge (③) عملي، لكن النموذج الحَكَم نفسه متغيّر، لذا اكتب المعيار بوضوح، وعايِره حيثما أمكن مقابل تصحيحات بشرية.
4. تقييم خاص بالوكلاء
لاستجابة واحدة (مدخل واحد ← مخرَج واحد)، تكفي الطرق الخمس أعلاه. لكن وكيل الذكاء الاصطناعي يأخذ خطوات متعددة، ويستدعي الأدوات بنفسه، ويتخذ قرارات في الطريق. لذا يجب أن تقيّم ليس المخرَج النهائي فحسب بل العملية.
هل حقّق الهدف في النهاية (مثلاً: حجز الحجز الصحيح)؟ المقياس الأساسي للوكيل.
هل استدعى الأداة الصحيحة، بالوسائط الصحيحة، بالترتيب الصحيح؟ التقط الاستدعاءات الخاطئة أو الزائدة.
هل مسار الخطوات والقرارات معقول؟ قيّم الالتفافات، والحلقات اللانهائية، وإعادات المحاولة غير الضرورية.
لنجاح متساوٍ، الأقل من الرموز والخطوات والكمون أفضل. وهذا يهمّ في الإنتاج.
مراقبة هذه الأمور تتطلب تتبّعاً (tracing) يسجّل كل خطوة (المدخل، التفكير، استدعاء الأداة، النتيجة). كثير من أطر العمل والأدوات أدناه تأتي بالتتبّع والتقييم معاً. ولإعداد متعدد الوكلاء، احتفظ بتتبّعات هرمية كي تحدّد بدقة أيّ وكيل أخفق.
5. كيف تبدأ — ابنِ على نطاق صغير
لست بحاجة إلى منصة تقييم مثالية من اليوم الأول. البدء بمجموعة بيانات من 20 عنصراً واقعيّ.
- اجمع أمثلة الإخفاق: أولاً، من 10 إلى 20 "مدخلاً أخطأ". السجلات والشكاوى الحقيقية منجم ذهب — وهذا هو جوهر مجموعة التقييم.
- اكتب السلوك المتوقع: أرفق بكل مدخل "إجابة صحيحة" أو "شروطاً يجب استيفاؤها". ليس كل شيء يحتاج إلى إجابة صارمة (قِس الجودة بـ ③).
- اختر أداة تسجيل: فحوصات التنسيق ← ② القائمة على القواعد؛ إجابة ثابتة ← ① الحقيقة المرجعية؛ الجودة ← ③ LLM-as-judge. واحدة أو اثنتان للبداية تكفيان.
- شغّل مرة واحدة وضع خطاً أساسياً: سجّل النقطة الحالية. هذه هي نقطة مرجعك.
- شغّلها عند كل تغيير: بعد تغيير مطالبة/نموذج، أعد التشغيل وقارن بـ ④ التراجع. إن هبطت النتيجة، فلا تُطلق.
- أضف المراقبة في الإنتاج: بمجرد الانطلاق، واصل مراقبة معدل الفشل والتكلفة بـ ⑤ المراقبة، وأعِد تغذية الأمثلة الحقيقية السيئة إلى مجموعة التقييم.
💡 نصيحة: رجّح مجموعة التقييم نحو "الإخفاقات التي لا تريد حدوثها" لا "النجاحات الشائعة". إدراج الحالات الطرفية والمدخلات العدائية والطلبات الغامضة يتيح لك الحماية استباقياً مما يتعطّل عند التغيير. والمعيار الجيّد، مثل تصميم المطالبات الجيّد، يصبح أكثر قابلية للتكرار كلما كان أكثر تحديداً.
6. أخطاء شائعة
- مجموعة بيانات صغيرة جداً / منحرفة جداً: جمع النجاحات فقط يُغفل إخفاقات العالم الحقيقي. اخلط عمداً الإخفاقات والحالات الطرفية.
- الثقة العمياء بـ LLM-as-judge: النموذج الحَكَم أيضاً متغيّر ولديه تحيّزات. اكتب المعيار بوضوح وعايِره دورياً مقابل تصحيحات بشرية. احذر المحاباة الذاتية (النموذج نفسه يكتب مخرجاته ويمتدحها).
- النظر إلى المخرَج النهائي فقط: العملية هي كل شيء للوكلاء. من دون استدعاءات الأدوات والمسار والتكلفة، ستبارك نتيجة "جاءت بالحظ".
- الحكم بناءً على تشغيل واحد: بما أنه احتمالي، فللتقييمات المهمة شغّل عدة مرات وانظر إلى التباين.
- عدم تحديث الـ evals: المواصفات والاستخدام يتغيّران. واصل إضافة إخفاقات الإنتاج الجديدة إلى مجموعة التقييم.
7. أدوات أساسية
يمكنك البدء بسكربتاتك الخاصة، لكن هناك مجموعة متنامية من الأدوات المخصّصة التي تتولّى التتبّع والتقييم معاً. أمثلة تمثيلية (جميعها مواقع رسمية).
| الأداة | ماذا تفعل |
|---|---|
| Anthropic Console / Evals | اختبار وتقييم المطالبات الخاصة بـ Claude في واجهة رسومية. وأيضاً لمقارنة خيارات النماذج. |
| OpenAI Evals | إطار عمل مفتوح المصدر لتعريف الـ evals وتشغيلها. الشكل الأساسي: مجموعة بيانات + أداة تسجيل. |
| LangSmith | تتبّع + تقييم. يسجّل كل خطوة للوكيل، عبر التراجع ومراقبة الإنتاج. |
| Langfuse | قابلية ملاحظة مفتوحة المصدر لنماذج اللغة الكبيرة. التتبّع والتقييم ومراقبة التكلفة معاً. |
| Ragas | تقييم متخصّص في RAG (التوليد المعزّز بالاسترجاع): الملاءمة، والأمانة، وغيرها. |
أياً كان ما تستخدمه، فالجوهر نفسه: مجموعة بيانات + أداة تسجيل + انضباط المقارنة. الأدوات تجعل ذلك أسهل فحسب. وأفضل بداية هي مجموعة تقييم صغيرة واحدة، ولو في سكربت على جهازك.
الخلاصة
- ما هي الـ evals: "تصحيح" يقيس مخرَج الذكاء الاصطناعي وسلوكه بالأرقام — تقرير الأفضل/الأسوأ بالبيانات لا بالحدس.
- لماذا تحتاجها: نماذج اللغة الكبيرة احتمالية ومتغيّرة، لذا اختبارات الوحدة لا تناسبها والتراجعات والحالات الطرفية تتسلّل.
- خمس طرق: ① الحقيقة المرجعية ② القائمة على القواعد ③ LLM-as-judge ④ التراجع ⑤ مراقبة الإنتاج. قِس آلياً ما يمكن، واحكم على الجودة بنموذج، وواصل تشغيلها.
- الوكلاء تحتاج تقييم العملية أيضاً: معدل نجاح المهمة، واستدعاءات الأدوات، والمسار، والتكلفة. التتبّع شرط مسبق.
- كيف تبدأ: 20 مثال إخفاق. ضع لها خطاً أساسياً، ثم شغّلها عند كل تغيير.
بين "لقد بنيته" و"إنه صالح للاستخدام" يقع جسر اسمه الـ evals. فإن كانت حواجز الحماية هي الدفاع الذي يوقف السلوك الجامح، فالـ evals هي الهجوم الذي يقيس الجودة ويواصل رفعها. مجموعة تقييم صغيرة واحدة تحوّل تطوير الوكلاء من "حدس" إلى هندسة.
الأسئلة الشائعة
س. كيف تختلف الـ evals عن اختبارات الوحدة العادية؟
تتحقّق اختبارات الوحدة من "هل يطابق المخرَج القيمة المتوقعة تماماً". لكن نموذج اللغة الكبير احتمالي وينتج مخرجاً مختلفاً في كل مرة، فالمطابقة الدقيقة لا تنجح كما هي. تختلف الـ evals بجمعها قياساً ملائماً للمخرَج الاحتمالي — الفحوصات القائمة على القواعد، والتصحيح بواسطة نموذج، ومراقبة التباين عبر عدة تشغيلات — فوق المطابقة مع الحقيقة المرجعية.
س. هل يمكنني الوثوق بـ LLM-as-judge (ترك الذكاء الاصطناعي يصحّح)؟
إنه عملي لكنه ليس حلاً سحرياً. النموذج الحَكَم قد يتغيّر ويتحيّز. المهم هو كتابة معيار محدّد، والمعايرة مقابل التصحيحات البشرية دورياً، وفصل الأدوار/النماذج للتوليد والتصحيح لتجنّب المحاباة الذاتية. المقارنة النسبية (أيّهما أفضل A أم B) تميل إلى أن تكون أكثر استقراراً من النقاط المطلقة.
س. كم عنصر تقييم أحتاج؟
يمكنك البدء جيداً بـ 10–20. حتى القليل يساعد في المقارنة النسبية لـ "هل ارتفعت النقطة أم هبطت بعد التغيير". وواقعياً، نمّها بإضافة الإخفاقات المكتشَفة في الإنتاج. الأهم من العدد هو التضمين الصحيح للإخفاقات والاستثناءات والحالات الطرفية.
س. هل أحتاج فعلاً إلى تقييم "مسار" الوكيل؟
إن شغّلته في الإنتاج، فنعم. حتى عندما يكون المخرَج النهائي صحيحاً، فإن الالتفافات واستدعاءات الأدوات غير الضرورية والحلقات اللانهائية تضرّ بالتكلفة والموثوقية. أضف تتبّعاً يسجّل كل خطوة وانظر إلى العملية جنباً إلى جنب مع معدل نجاح المهمة. وكلما اشتملت حالة الاستخدام على صلاحيات وآثار جانبية — مثل حالات استخدام أتمتة الأعمال أو أتمتة عمليات السحابة — زاد مردود تقييم العملية.