جدول المحتويات
- 1. Opus 4.8 في ثلاثة أسطر
- 2. المواصفات الأساسية والتوافر
- 3. مقارنة المعايير وجهًا لوجه (4.8 مقابل 4.7)
- 4. التسعير والوضع السريع — سرعة أرخص بثلاث مرات
- 5. الميزة الجديدة #1: معامل effort والتفكير التكيفي
- 6. الميزة الجديدة #2: سير العمل الديناميكي (معاينة بحثية)
- 7. الميزة الجديدة #3: إدخالات system في Messages API
- 8. القفزة الأكبر هي الصدق — ثقة مفرطة أقل بعشر مرات
- 9. التحفظات والتراجعات (مذكورة بصدق)
- 10. من ينبغي له الترقية الآن
- الخلاصة
- الأسئلة الشائعة
في 28 مايو 2026، أطلقت Anthropic نموذج Claude Opus 4.8 — بعد شهرين بالكاد من إطلاق Opus 4.7. من الواضح أن وتيرة الترقيات تتسارع. لكن العنوان البارز هذه المرة ليس بضع نقاط مئوية في معيار قياس. أول ما أبرزته Anthropic نفسها كان "حكمًا أكثر حدة، وصدقًا أكبر بشأن تقدمه، والقدرة على العمل باستقلالية لفترة أطول من سابقيه." إن إصدارًا يتصدره "أصبح أكثر صدقًا" قبل "أصبح أذكى" هو أمر غير معتاد.
إليك الخلاصة: البرمجة تحسنت بشكل راسخ (SWE-bench Pro من 64.3% إلى 69.2%)، والرياضيات تقفز بشكل دراماتيكي (USAMO 2026 من 69.3% إلى 96.7%)، وتتبع السياق الطويل يتضاعف تقريبًا (GraphWalks عند 1M tokens من 40.3% إلى 68.1%). علاوة على ذلك، الوضع السريع أسرع بنحو 2.5 مرة وبفعالية ثلث السعر، وتصل ثلاث ميزات موجهة للمطورين دفعة واحدة: معامل effort، وسير العمل الديناميكي، وإدخالات system في Messages API. وفي الوقت نفسه، لم يتحسن كل شيء — متانة مقاومة حقن الموجهات تراجعت فعليًا. تفصّل هذه المقالة الأرقام والميزات الجديدة والتحفظات، استنادًا إلى الإعلان الرسمي لـ Anthropic وبطاقة النظام.
Claude Opus 4.8 في لمحة
— نموذج رائد يتصدره "الصدق" قبل الذكاء الخام
(كان 4.7 عند 64.3%)
(كان 4.7 عند 69.3%)
$10 / $50 لكل Mtok
مقارنة بـ Opus 4.7
التسعير القياسي ثابت كما في 4.7 ($5 / $25 لكل Mtok)، ويبقى السياق عند 1M tokens.
معرّف النموذج هو claude-opus-4-8، ومتوفر منذ اليوم الأول على Claude API وBedrock وVertex AI وMicrosoft Foundry.
* تستند الأرقام في هذه المقالة إلى الإعلان الرسمي لـ Anthropic وصفحة النموذج وبطاقة النظام، إضافة إلى تقارير من عدة منافذ تقنية (حتى 28 مايو 2026). وقد يجري تحديثها مع توافر المزيد من التحقق.
1. Opus 4.8 في ثلاثة أسطر
للقارئ المشغول، إليك الأساسيات أولًا.
- الأداء: البرمجة أقوى باطّراد؛ والرياضيات (USAMO) وتتبع السياق الطويل (GraphWalks) يتحسنان بشكل دراماتيكي. في المقابل، يتراجع GPQA Diamond قليلًا، وتتخلف المهام متعددة اللغات عن Gemini 3.1 Pro / GPT-5.5.
- التسعير: الوضع القياسي ثابت كما في 4.7. والأثر الاقتصادي الأكبر هو أن الوضع السريع أسرع بنحو 2.5 مرة وبفعالية ثلث السعر.
- الفلسفة: "أكثر صدقًا" قبل "أذكى." إنه أول نموذج Claude يسجل 0% في الإبلاغ غير النقدي عن النتائج المعيبة، والثقة المفرطة أقل بعشر مرات مقارنة بـ 4.7. ميزتا سير العمل الديناميكي ومعامل effort الجديدتان تدعمان العمل المستقل لفترة أطول.
2. المواصفات الأساسية والتوافر
لنبدأ بالحقائق الثابتة: مواصفات Opus 4.8 وأين يمكنك استخدامه.
| العنصر | التفصيل |
|---|---|
| تاريخ الإصدار | 28 مايو 2026 (بعد نحو شهرين من 4.7) |
| معرّف نموذج API | claude-opus-4-8 |
| نافذة السياق | 1,000,000 tokens (نفس 4.7) |
| أقصى إخراج | 128,000 tokens لكل استجابة |
| التسعير القياسي | $5 إدخال / $25 إخراج (لكل 1M tokens، نفس 4.7) |
| تخفيضات التكلفة | خصم يصل إلى 90% مع التخزين المؤقت للموجهات، وخصم 50% مع المعالجة بالدفعات |
| تسعير الوضع السريع | $10 إدخال / $50 إخراج (لكل 1M tokens، أسرع بنحو 2.5 مرة) |
| التوافر | Claude API، وAmazon Bedrock، وGoogle Cloud Vertex AI، وMicrosoft Foundry (منذ اليوم الأول) |
النقطة الأساسية هي أن السعر والسياق ثابتان، وأن الجوهر فقط هو الذي أصبح أقوى. إذا كنت على 4.7، فإن استبدال معرّف النموذج بـ claude-opus-4-8 يمنحك مكاسب الأداء دون تكلفة إضافية (تحفظات الترحيل موجودة في القسم 9). انتبه فقط إلى أن الاستدلال داخل الولايات المتحدة فقط يحمل مضاعف تسعير قدره 1.1x.
3. مقارنة المعايير وجهًا لوجه (4.8 مقابل 4.7)
رأينا المواصفات. فكم نمت القدرة الفعلية؟ إليك أبرز المعايير المنشورة مصفوفة في مقابل 4.7. تشير الكتابة العريضة إلى أكبر المكاسب.
| المعيار | Claude Opus 4.8 | Claude Opus 4.7 | الفرق |
|---|---|---|---|
| SWE-bench Verified (إصلاحات كود حقيقية) | 88.6% | 87.6% | +1.0 |
| SWE-bench Pro (برمجة صعبة) | 69.2% | 64.3% | +4.9 |
| SWE-bench Multilingual | 84.4% | 80.5% | +3.9 |
| USAMO 2026 (أولمبياد الرياضيات) | 96.7% | 69.3% | +27.4 |
| GraphWalks (سياق طويل 1M-token، F1) | 68.1% | 40.3% | +27.8 |
| GPQA Diamond (علوم بمستوى الدراسات العليا) | 93.6% | 94.2% | −0.6 |
| Online-Mind2Web (استخدام المتصفح) | 84% | — | — |
ملاحظة عن قراءة الجدول. تبدو الزيادة بمقدار +4.9 نقطة في SWE-bench Pro متواضعة لكنها مهمة: تجمع Pro مهام برمجة أكثر واقعية وأصعب، لذا فإن أي مكسب فيها يترجم مباشرة إلى "لحظات أقل تتعثر فيها في العمل الحقيقي." لكن ما يبرز حقًا هو القفزات بمقدار +27 نقطة في USAMO وGraphWalks.
ماذا تعني القفزتان
علاوة على ذلك، يتجاوز CursorBench كل نماذج Opus السابقة عبر جميع مستويات effort،
وفي معيار Super-Agent أصبح النموذج الوحيد الذي أنهى كل حالة من البداية إلى النهاية، وسجّل معيار Legal Agent أول نتيجة تتجاوز 10% على معيار النجاح الكامل.
ومع ذلك، لم يرتفع كل شيء. تراجع GPQA Diamond من 94.2% إلى 93.6%. يمكنك اعتباره ضمن هامش الخطأ، لكن كون 4.7 متقدمًا بشكل طفيف في "اختبارات المعرفة العلمية الصرفة" أمر يستحق أن يبقى في الحسبان. المزيد في القسم 9.
4. التسعير والوضع السريع — سرعة أرخص بثلاث مرات
أطلنا الحديث عن الأداء، لكن ما يصيب محفظتك فعليًا بأقوى ضربة هذه المرة هو تغيير سعر الوضع السريع. التسعير القياسي ثابت تمامًا كما في 4.7، فلنصفّ الاثنين جنبًا إلى جنب.
الوضع القياسي (ثابت)
- الإدخال: $5 / 1M tokens
- الإخراج: $25 / 1M tokens
- التخزين المؤقت للموجهات: خصم يصل إلى 90%
- المعالجة بالدفعات: خصم 50%
→ لا يختلف عن 4.7 ولو بقرش واحد. تكلفة تبديل صفرية.
الوضع السريع (تغيير كبير)
- الإدخال: $10 / 1M tokens
- الإخراج: $50 / 1M tokens
- السرعة: نحو 2.5x من القياسي
- ثلث سعر الوضع السريع السابق
→ "السريع = باهظ" لم يعد قائمًا. ممتاز لواجهات الدردشة والمعالجة بالجملة.
هذا أكبر مما يبدو. إن معضلة "أريد السرعة، لكن الوضع السريع باهظ" أصابت بالضبط حالات الاستخدام — استجابات واجهات الدردشة، ومراجعة الكود بالجملة في CI/CD، وعمليات الوكلاء متعددة الخطوات — حيث يمكنك الآن الحصول على السرعة والسعر معًا. وبالاقتران مع ثبات التسعير القياسي، فإن الخلاصة الاقتصادية هذه المرة هي "نفس الميزانية، لكن أسرع وأذكى." للصورة الكاملة للتسعير، راجع مقارنة أسعار Claude Opus / Sonnet / Haiku.
5. الميزة الجديدة #1: معامل effort والتفكير التكيفي
بعد التسعير، تأتي الميزات التي يلمسها المطورون مباشرة. أولًا، معامل effort. هذا مقبض يتيح لك أن تحدد صراحة "مدى عمق التفكير" عبر أربعة مستويات.
اختر عمق التفكير في أربعة مستويات
الجوهر: يستخدم المستوى الافتراضي HIGH عددًا من tokens قريبًا من افتراضي 4.7، مع ارتفاع الأداء فقط.
بعبارة أخرى، حتى بدون أي إعداد على الإطلاق، تحصل على نتائج أفضل بنفس التكلفة.
نظير effort هو التفكير التكيفي: حيث يضبط النموذج تلقائيًا حجم الحوسبة التي يستخدمها وفقًا لتعقيد المهمة. سريع في الأسئلة البسيطة، وأعمق من تلقاء نفسه في الصعبة. أنت تحدد السقف والسياسة باستخدام effort، ويعمل التفكير التكيفي على تحسين التوزيع الفعلي — تصميم من طبقتين يحقق "لا tokens تفكير مهدورة، عمق فقط حيث يهمّ."
6. الميزة الجديدة #2: سير العمل الديناميكي (معاينة بحثية)
أكثر الميزات طموحًا هذه المرة هي هذه. سير العمل الديناميكي ميزة في معاينة بحثية يمكن استخدامها في Claude Code (واجهة الأوامر، وسطح المكتب، وإضافة VS Code)، وهي آلية لتسليم Claude "مهمة كبيرة" بالكامل.
على وجه التحديد، يكتب Claude نصوص التنسيق الخاصة به ويولّد عشرات إلى مئات الوكلاء الفرعيين المتوازين لمهاجمة مشكلة في آنٍ واحد. بل إنه ينشر وكلاء تحقق تنافسيين لفحص النتائج بشكل نقدي، ويكرّر حتى التقارب. وهو ينسّق خارج خيط المحادثة الرئيسي، وحالته قابلة للاستئناف، وتصمد عبر تنفيذ يمتد لعدة أيام.
فيمَ يبرع
حالات الاستخدام المقصودة هي عمليات صيد الأخطاء على مستوى قاعدة الكود بالكامل، والترحيلات واسعة النطاق، وتدقيقات الأمن، ومهام التحقق الحرجة — من نوع العمل الذي "قد يستغرق فريقًا من البشر عدة أيام."
التوافر: خطط Max وTeam وEnterprise (بتفعيل المسؤول)، إضافة إلى الوصول عبر API وBedrock وVertex وFoundry. ولأسباب أمنية يتطلب تأكيدًا صريحًا عند التشغيل الأول. وبصفته معاينة بحثية، قد يتغير سلوكه.
من حيث الموضعة، فهو خطوة نحو جعل النموذج نفسه يصمم ويشغّل، على الفور، "التنسيق المتوازي للعديد من الوكلاء" الذي كان عليك سابقًا أن تبنيه بنفسك باستخدام Claude Agent SDK. وبالنسبة لعمليات إعادة الهيكلة الكبيرة والتحقيقات الشاملة، يتسع النطاق الذي يمكنه قيادته دون توجيه بشري خطوة بخطوة.
7. الميزة الجديدة #3: إدخالات system في Messages API
تغيير دقيق، لكنه مرحَّب به لدى المطورين: أصبح Messages API يقبل الآن إدخالات system داخل مصفوفة messages.
سابقًا، كان موجّه النظام (تعليمات النظام) يُوضع مرة واحدة في بداية المحادثة. مع هذا التغيير، يمكنك حقن تعليمات النظام في منتصف المحادثة — والقيام بذلك دون كسر ذاكرة الموجهات المؤقتة أو الحاجة إلى دور من المستخدم.
// مثال: تحديث "الأذونات والميزانية والبيئة" في منتصف سير العمل
messages: [
{ role: "system", content: "أنت وكيل CI. لا عمليات تدميرية." },
{ role: "user", content: "حدّث التبعيات" },
{ role: "assistant", content: "..." },
// تحديث السياسة أثناء التشغيل (دون كسر الذاكرة المؤقتة)
{ role: "system", content: "ميزانية tokens منخفضة. استخدم effort=low، النقاط الأساسية فقط." },
{ role: "user", content: "تابع" }
]
يثمر هذا في عمليات الوكلاء الطويلة متعددة الخطوات. إن "تبديل السياسة ديناميكيًا" في منتصف التنفيذ — تشديد الأذونات، والإشارة إلى ميزانية tokens، وتحديث سياق البيئة (أي فرع أنت عليه، إلخ) — يعمل الآن مع الحفاظ على كفاءة الذاكرة المؤقتة. إنه تصميم يتناسب جيدًا مع عمليات التشغيل المستقلة طويلة الأمد مثل سير العمل الديناميكي.
8. القفزة الأكبر هي الصدق — ثقة مفرطة أقل بعشر مرات
هذا هو الجزء الذي أرغب في إيصاله أكثر من غيره. إن ما يميز Opus 4.8 حقًا ليس أرقام المعايير — إنه "الصدق بشأن عمله ذاته." ما شدد عليه كل من Anthropic والمختبرين مرارًا هو أن هذا النموذج يبادر إلى الإشارة إلى عدم يقينه ويقل احتمال إطلاقه ادعاءات غير مدعومة.
الصدق في أرقام
علاوة على ذلك، فإن معدل السماح بمرور العيوب في كوده دون تنبيه يبلغ نحو ربع معدل 4.7.
لقد توقف عن "التظاهر بأنه يعمل" — وهذا أمر حاسم لتشغيل الوكلاء.
لماذا يهم هذا؟ إن أكبر خطر في ترك وكيل ذكاء اصطناعي يعمل باستقلالية لفترة طويلة هو "الإبلاغ عن الفشل على أنه نجاح، ثم تكديس المزيد من العمل فوق ذلك الخطأ." قول "تم الإصلاح" بينما لا تزال الاختبارات فاشلة؛ وعرض تخمينات غير مؤكدة بنبرة واثقة — هذا النوع من "الثقة المفرطة" يقوّض موثوقية الأتمتة من جذورها. إن كون Opus 4.8 الآن يشير إلى عدم يقينه من تلقاء نفسه هو، من الناحية العملية، أثمن من بضع نقاط في المعايير. شخصيًا، أعتقد أن هذه النقطة وحدها هي أكثر ما يستحق الثناء في هذا التحديث.
9. التحفظات والتراجعات (مذكورة بصدق)
نظرنا في المكاسب. لكن بما أن هذه مقالة تمتدح "الصدق"، فسأكون صادقًا أنا أيضًا — إليك، دون تمويه، النقاط التي تراجعت أو تستدعي الحذر في 4.8.
| التحفظ | التفصيل | كيفية التعامل معه |
|---|---|---|
| انخفاض متانة مقاومة حقن الموجهات | في اختبارات الفريق الأحمر لـ Gray Swan، ارتفع نجاح الهجمات من 6.0% (4.7) إلى 9.6% (4.8) | بالنسبة للوكلاء الذين يتعاملون مع المدخلات الخارجية، عزّز تنقية المدخلات وفصل الصلاحيات. أعد النظر في تصميم الأذونات لديك |
| تراجع طفيف في GPQA Diamond | 94.2% → 93.6% (−0.6). في اختبارات المعرفة العلمية الصرفة، 4.7 متقدم بشكل طفيف | ضمن هامش الخطأ. أجرِ اختبار A/B على مهامك الحقيقية إن كان الأمر يهمّ |
| ليس المتصدر في تعدد اللغات | المهام متعددة اللغات تتخلف عن Gemini 3.1 Pro / GPT-5.5 | إذا كان تعدد اللغات ساحة معركتك، ففكّر في إقرانه بنماذج أخرى / مقارنته بها |
| سير العمل الديناميكي معاينة بحثية | قد يتغير السلوك. الاعتماد عليه كليًا في عمل إنتاجي حرج سابق لأوانه | تحقق منه على عمل غير حرج قبل اعتماده |
إن انخفاض متانة مقاومة حقن الموجهات على وجه الخصوص لا يمكن تجاهله. إن ارتفاع نجاح الهجمات بنحو 1.6x يعني أنه بالنسبة لـ الوكلاء الذين يقرؤون المدخلات الخارجية (صفحات الويب، والبريد الإلكتروني، ومنشورات المستخدمين) ويتصرفون باستقلالية، فإن مجرد الانتقال إلى 4.8 قد يجعلهم أضعف نسبيًا في الأمن في بعض السيناريوهات. إن ازدياد الذكاء لا يعني التفوق على 4.7 في كل محور من محاور الأمان — افهم هذا التباين على نحو صحيح.
10. من ينبغي له الترقية الآن
إذًا، هل ينبغي لك الانتقال إلى claude-opus-4-8 الآن؟ لنفصّل ذلك حسب النوع.
✅ ترقَّ الآن
- البرمجة / تشغيل الوكلاء هو استخدامك الرئيسي
- تريد تفويض مهام مستقلة طويلة
- تستخدم الوضع السريع بكثافة (أرخص الآن بثلاث مرات)
- تعمل مع قواعد كود ضخمة / سياقات طويلة
- "الإبلاغ الخاطئ بثقة مفرطة" سيكون قاتلًا في بيئتك
⚠ فكّر بعناية
- الوكلاء العامون الذين يتعاملون مع المدخلات الخارجية (انخفاض مقاومة الحقن)
- المعالجة متعددة اللغات هي ساحة معركتك (قد تتصدر نماذج أخرى)
- الأسئلة العلمية الصرفة محورية (تراجع طفيف في GPQA)
- وضع سير العمل الديناميكي مباشرة في إنتاج حرج
بما أن تكلفة التبديل نفسها شبه معدومة (فقط غيّر معرّف النموذج؛ التسعير القياسي ثابت)، فإن الطريق الملكي هو أن تنتقل أولًا إلى claude-opus-4-8 في بيئة غير حرجة وتقيس على مهامك الخاصة. خطوات الترحيل الملموسة من 4.7 تنتقل مباشرة من المنطق الوارد في دليل ترحيل Opus 4.7. للمقارنة مع GPT-5.5 وغيره، راجع مقارنة GPT-5.5 مقابل Claude Opus.
الخلاصة
إن Claude Opus 4.8 (الصادر في 28 مايو 2026، claude-opus-4-8) نموذج رائد عزّز الجوهر مع إبقاء السعر والسياق ثابتين. تحسنت البرمجة باطّراد (SWE-bench Pro +4.9)؛ وتحسنت الرياضيات (USAMO 96.7%) وتتبع السياق الطويل (GraphWalks 68.1%) بشكل دراماتيكي. أصبح الوضع السريع أسرع بنحو 2.5 مرة وبفعالية ثلث السعر، ووصلت الميزات العملية — معامل effort، وسير العمل الديناميكي، وإدخالات system في Messages API — جميعها معًا.
لكن الجوهر ليس الأرقام. معدل 0% في تمرير العيوب دون نقد، وثقة مفرطة أقل بأكثر من 10x — هذا الإصدار، الذي يتصدره "الصدق" قبل "الذكاء"، يشير في الاتجاه الصحيح لعصر الذكاء الاصطناعي المستقل طويل الأمد. وفي الوقت نفسه، تراجعت فعليًا متانة مقاومة حقن الموجهات؛ فهو لا يتفوق على النموذج القديم في كل محور. ولهذا — وعلى نحو لائق، بروح فضيلة هذا النموذج ذاته — فإن أذكى طريقة للتعامل معه هي ألا تفرط في الثقة، وأن تقيس على مهامك الخاصة قبل أن تقرر.
قراءات ذات صلة: تحليل إصدار Claude Opus 4.7، ودليل ترحيل Opus 4.7، ومقارنة أسعار Opus / Sonnet / Haiku، ومقارنة GPT-5.5 مقابل Claude Opus، وما هو Claude Agent SDK.
الأسئلة الشائعة
س. هل الترحيل من Opus 4.7 إلى 4.8 صعب؟
ج. لا يتطلب شيئًا تقريبًا. فقط غيّر معرّف نموذج API إلى claude-opus-4-8؛ فالتسعير القياسي ونافذة السياق (1M tokens) ثابتان. يستخدم المستوى الافتراضي effort=HIGH عددًا من tokens قريبًا من افتراضي 4.7 مع ارتفاع الأداء فقط، لذا تستفيد دون أي تغييرات في الإعدادات. انتبه فقط لانخفاض مقاومة الحقن (أدناه) بالنسبة للوكلاء الذين يتعاملون مع المدخلات الخارجية.
س. ماذا يعني الوضع السريع "الأرخص بثلاث مرات"؟
ج. يعني أن سعر الوضع السريع ($10 إدخال / $50 إخراج لكل 1M tokens) هو بفعالية ثلث سعر الوضع السريع للنموذج السابق. والسرعة نحو 2.5 مرة من القياسي. وتُخفَّف بشكل كبير معضلة "أريد السرعة لكن الوضع السريع باهظ"، مما يسهّل استخدامه لواجهات الدردشة والمعالجة بالدفعات بالجملة.
س. هل يمكن لأي شخص استخدام سير العمل الديناميكي؟
ج. إنه في معاينة بحثية، ويمكن استخدامه من Claude Code (واجهة الأوامر، وسطح المكتب، وإضافة VS Code). التوافر على خطط Max وTeam وEnterprise (بتفعيل المسؤول) وعبر API وBedrock وVertex وFoundry. ولأسباب أمنية، يتطلب التشغيل الأول تأكيدًا صريحًا. وقد يتغير السلوك، لذا فالأكثر أمانًا تجربته على عمل غير حرج أولًا.
س. هل 4.8 أفضل من 4.7 في كل النواحي؟
ج. لا. تراجع GPQA Diamond قليلًا (94.2% → 93.6%)، وتتخلف المهام متعددة اللغات عن Gemini 3.1 Pro / GPT-5.5، وتراجعت فعليًا متانة مقاومة حقن الموجهات (نجاح الهجمات من 6.0% إلى 9.6%). إنه متقدم بوضوح في البرمجة والرياضيات والسياق الطويل والصدق، لكن بالنسبة لبعض الاستخدامات قد يناسب 4.7 أو نماذج أخرى بشكل أفضل.
س. ما الفائدة الملموسة من "الصدق" الأعلى؟
ج. عند تشغيل وكلاء الذكاء الاصطناعي باستقلالية، فإن أكبر خطر هو "الإبلاغ الخاطئ عن الفشل على أنه نجاح وتكديس العمل فوقه." ولأن 4.8 خفّض الإبلاغ غير النقدي عن النتائج المعيبة إلى 0% وقلّص الثقة المفرطة بأكثر من 10x، فإنه يتوقف عن "التظاهر بأنه يعمل" ويقول إنه غير متأكد عندما يكون كذلك. وبالنسبة للأتمتة طويلة الأمد، وCI، ومراجعة الكود، تتحسن الموثوقية على مستوى عملي.