المحتويات
في أبريل 2026، صدر نموذجان رائدان للذكاء الاصطناعي خلال أسبوع واحد فقط: Claude Opus 4.7 من Anthropic (16 أبريل) وGPT-5.5 من OpenAI (23 أبريل). يُسوَّق كلاهما باعتباره "الأساس الجيليّ التالي للوكلاء"، إلا أن فلسفتيّ تصميمهما، ونقاط تميّزهما، وهياكل تسعيرهما يصعب أن تكون أكثر تباينًا.
يقارن هذا المقال بين النموذجين وجهًا لوجه باستخدام معايير الأداء العامة، والوثائق الرسمية، والتقييمات الخارجية، ثم يطرح السؤال العملي: أيّهما ينبغي أن تستخدم فعلاً، ومتى؟
نموذجان رائدان صدرا في الأسبوع نفسه
— متشابهان ظاهريًّا، متعاكسان بالتصميم
Opus 4.7: "الحرفيّ" — قويّ في العمل العميق على قواعد الشيفرات وتسلسل الأدوات
GPT-5.5: "الموسوعيّ" — قويّ في التخطيط والتنفيذ وقيادة الجهاز
1. أين يقف كلّ نموذج
كلا النموذجين رائدان يتنافسان على "دور البطولة في أعباء عمل الوكلاء"، لكنّ خطاباتهما التسويقية تتباعد بحدّة.
Claude Opus 4.7 — الحرفيّ الذي يُنهي العمل في قاعدة شيفرتك
تضع Anthropic نموذج Opus 4.7 باعتباره الأقوى في مجال هندسة البرمجيات الواقعية. يحقّق 87.6% على SWE-bench Verified و64.3% على SWE-bench Pro، متفوّقًا على كل نموذج آخر متاح للجمهور في مهام توليد الترقيعات (patches) لمستودعات GitHub الحقيقية. يأتي معه مُرمِّز جديد، وتقفز الدقة البصرية من 1.15 ميغابكسل إلى 3.75 ميغابكسل، وتستهدف الإضافات بوضوح الوكلاء طويليّ الأمد: مستوى الجهد xhigh، وميزانيات المهام (تجريبية)، وأمر /ultrareview في Claude Code.
GPT-5.5 — الموسوعيّ متعدّد الوسائط الذي يُشغّل جهازك
تصف OpenAI نموذج GPT-5.5 بأنه "صنف جديد من الذكاء للعمل الحقيقي ولوكلاء الذكاء الاصطناعي". إنه متعدّد الوسائط أصلاً، يعالج النص والصورة والصوت والفيديو في نموذج واحد، ويتصدّر قائمة معايير أداء الوكلاء: 82.7% على Terminal-Bench 2.0، و78.7% على OSWorld-Verified، و98.0% على Tau2-bench Telecom — متفوّقًا في التخطيط والتحكّم بالطرفية وسير عمل دعم العملاء. ومن نقاط البيع الأخرى التكامل العميق مع Codex وادعاء كفاءة بتقليل قرابة 40% من رموز المخرجات مقارنة بـ GPT-5.4.
العمق مقابل الاتّساع
- - استدلال عميق على قواعد شيفرات حقيقية
- - دقّة في MCP وسلاسل الأدوات
- - وفاء عالٍ للتعليمات، واحتفاظ قويّ بالسياق
- - أسلوب توضيحيّ "اشرح ثم اكتب الشيفرة"
- - متعدّد الوسائط — لا يبالي بصيغة الإدخال/الإخراج
- - قوة واسعة في التحكّم بالطرفية والمتصفح
- - دعم العملاء وأتمتة عمليات الأعمال
- - يصل إلى الإجابة برموز مخرجات قليلة
2. ورقة المواصفات في لمحة
إذا اصطفّت المواصفات الرئيسية بحسب الوثائق الرسمية، فستبدو كالتالي.
| البند | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|
| المورّد | Anthropic | OpenAI |
| تاريخ الإصدار | 16 أبريل 2026 | 23 أبريل 2026 |
| نافذة السياق | 1,000,000 رمز | 1,000,000 رمز (Codex: 400K) |
| الحدّ الأقصى لرموز المخرجات | 128,000 رمز | غير مُعلَن رسميًّا (يفوق فعليًّا 64K) |
| تاريخ قطع المعرفة | 2025 (طُرح على مراحل) | ديسمبر 2025 |
| الوسائط | نص، صورة (الآن 3.75 ميغابكسل) | نص، صورة، صوت، فيديو (متعدّد الوسائط أصلاً) |
| سعر الـ API (قياسي) | $5 / $25 لكل MTok (إدخال / إخراج) | $5 / $30 لكل MTok |
| سعر الـ API (مستوى Pro) | — (Opus بمستوى واحد) | $30 / $180 لكل MTok (gpt-5.5-pro) |
| الجديد | جهد xhigh، ميزانيات المهام (تجريبية)، Claude Code /ultrareview، مُرمِّز جديد | متعدّد الوسائط أصلاً، تقليل ~40% من رموز المخرجات (مقارنة بـ 5.4)، تكامل عميق مع Codex |
| القنوات | كل خطط Claude.ai، API، AWS Bedrock، Vertex AI، Microsoft Foundry | كل خطط ChatGPT، API، Azure OpenAI، Codex |
الأسعار والمواصفات اعتبارًا من مايو 2026. ملاحظة: بفضل المُرمِّز الجديد، يستهلك Opus 4.7 من 1.0 إلى 1.35 ضعفًا من الرموز مقارنة بـ Opus 4.6 للنص نفسه.
3. غوص عميق في معايير الأداء
تقول العبارة المُكرّرة إن النماذج الرائدة "متقاربة جدًّا"، لكن معيارًا تلو الآخر يظهر نمط واضح. نقاط قوّتيهما تكاد تكون مرآتين متعاكستين.
3-1. البرمجة
ترقيعات الشيفرة الحقيقية لـ Opus، والتخطيط والتنفيذ لـ GPT
الأمر المفتاحيّ هو ما يقيسه كل معيار فعلاً. تقوم SWE-bench Pro / Verified بتقييم توليد الترقيعات لمشكلات GitHub الحقيقية — أي القدرة على تعديل قاعدة شيفرة قائمة. أما Terminal-Bench 2.0 فيُسجِّل الوكلاء الذين يُشغّلون الطرفية ذاتيًّا من سطر الأوامر، قياسًا لحلقة التخطيط والتنفيذ. يفوز Opus 4.7 بالأول، وينتصر GPT-5.5 في الثاني — وهو ما يُترجَم مباشرة إلى الانقسام العمليّ: "Opus لإنزال طلبات السحب الكبيرة في Cursor، وGPT للبناء من الصفر في الـ CLI."
3-2. الوكلاء واستخدام الأدوات
| المعيار | ماذا يقيس | Claude Opus 4.7 | GPT-5.5 | الفائز |
|---|---|---|---|---|
| OSWorld-Verified | التحكّم الذاتي بنظام تشغيل حقيقي | — (متقارب) | 78.7% | GPT-5.5 |
| Tau2-bench Telecom | سير عمل دعم العملاء | — | 98.0% (دون ضبط مُوجِّه) | GPT-5.5 |
| Toolathlon | مهام مركّبة متعدّدة الأدوات | — | أعلى نتيجة | GPT-5.5 |
| MCP-Atlas | الاستخدام العميق للأدوات عبر بروتوكول MCP | أعلى نتيجة | — | Opus 4.7 |
| Expert-SWE | مشكلات بمستوى مهندس أقدم | — | أعلى نتيجة | GPT-5.5 |
عبر معايير الوكلاء عمومًا، يتمتّع GPT-5.5 بقوّة أوسع. تظهر الفجوة في التحكّم بنظام التشغيل، ودعم العملاء، وسلاسل الأدوات المركّبة — وهي المنطقة الأقرب إلى "أتمتة الأعمال". يحتفظ Opus 4.7 بصدارته في الاستخدام العميق للأدوات عبر MCP (بروتوكول سياق النموذج) وجلسات البرمجة طويلة الأمد في Cursor / Claude Code.
3-3. الاستدلال والعمل المعرفيّ
الاستدلال الأكاديميّ متعادل تقريبًا؛ والعمل المعرفيّ يميل إلى Opus
استدلال STEM بمستوى الدراسات العليا. الفجوة 0.6 نقطة ضمن نطاق الضوضاء.
Elo للعمل المعرفيّ عبر 44 مهنة. يتقدّم Opus بـ ~79 نقطة.
صيغة الدقة من GDPval. الرقم نشرته OpenAI.
GPQA Diamond (الاستدلال بمستوى الدراسات العليا) متعادل في جوهره. على GDPVal-AA من Anthropic — وهو Elo للعمل المعرفيّ يغطّي 44 مهنة — يتقدّم Opus 4.7 على GPT-5.4 بـ 79 نقطة، لكن نتيجة GPT-5.5 على المعيار نفسه لم تُنشَر بعد؛ هذا المجال لا يزال يُحدَّث. في الوقت الراهن، اعتبر "الاستدلال المنطقيّ واختبارات المعرفة بمستوى الدكتوراه" متساويين فعليًّا.
4. التكلفة الواقعية — جدار كفاءة الرموز
انظر إلى الأسعار المُعلَنة، فستجد أن Opus 4.7 ($25/MTok) أرخص من GPT-5.5 ($30/MTok). لكن في المشاريع الواقعية غالبًا ما تنقلب الفاتورة — والسبب هو كم رمز إخراج يُنتجه كل نموذج.
على نفس مهمة البرمجة، يُصدر GPT رموز مخرجات أقل بنسبة 72%
— "اشرح ثم اكتب الشيفرة" Opus مقابل GPT الذي يصل مباشرة إلى الإجابة
GPT-5.5: $30/MTok
→ Opus أرخص بنسبة 17% على الورق
GPT يضغط بنسبة −72%
→ مؤكَّد في مقارنات Codex
→ GPT يأتي أرخص بـ ~4 أضعاف
الفاتورة تنقلب على المهمة نفسها
ومع ذلك، فإن سلسلة التفكير المسرودة لـ Opus لها قيمة بحدّ ذاتها — معلومات مفيدة للمراجعة والتنقيح. "الأرخص" لا يعني دائمًا "قيمة أفضل."
إن نمط Opus 4.7 المُميَّز "اشرح ثم اكتب الشيفرة" — قُل ما ستفعله، ثم افعله، ثم لخّص ما فعلته — هو أصل حقيقيّ لمراجعة الشيفرة والتعلّم. لكن إن كان كلّ ما تريده هو المُنتَج النهائي، فإن رموز المخرجات الإضافية تلك إنفاق مهدور. GPT-5.5 على النقيض: يصل مباشرة إلى النتيجة، لكنّ "لماذا كتبها بتلك الطريقة" أصعب في الرؤية. الملاءمة تعتمد على ما تريده فعلاً من المشروع.
انتبه أيضًا للمُرمِّز الجديد. يستخدم Opus 4.7 رموزًا أكثر بنسبة 1.0–1.35 ضعفًا من Opus 4.6 للنص اليابانيّ نفسه، لذلك بالنسبة للنثر اليابانيّ الطويل أو وثائق التصميم الطويلة، يُصبح جانب الإدخال أيضًا أكثر تكلفة.
5. نقاط القوة والضعف في لمحة
اضغط كلّ ما سبق على صفحة واحدة:
نفس وسم النموذج الرائد، شخصيّتان متعاكستان
- - يتصدّر الجدول في SWE-bench Pro / Verified
- - إعادة هيكلة واسعة على قواعد شيفرات قائمة
- - ملاءمة قوية مع MCP وCursor وClaude Code
- - وفاء عالٍ للتعليمات واحتفاظ بالسياق
- - مخرجات بأسلوب مُراجِع مُسرود
- - حجم رموز مخرجات عالٍ يرفع التكلفة
- - المُرمِّز الجديد يضيف رموز إدخال أيضًا
- - متخلّف عن GPT في تشغيل الطرفية
- - لا يدعم الصوت أو الفيديو أصلاً
- - يتصدّر الجدول في Terminal / OSWorld / Toolathlon
- - متعدّد الوسائط — نصّ بالإضافة إلى صوت بالإضافة إلى فيديو
- - رموز مخرجات قليلة، تكلفة واقعية منخفضة
- - جودة دعم بـ 98% على Tau2-bench
- - تكامل Codex يُقدّم تجربة تطوير سلسة
- - متخلّف عن Opus بـ ~6 نقاط في SWE-bench Pro
- - "يصل مباشرة إلى الإجابة" — سلسلة التفكير أقلّ ظهورًا
- - سعر gpt-5.5-pro القائمة أعلى من Opus بـ 6 أضعاف فأكثر
- - نظام MCP / Cursor البيئي يميل إلى Anthropic
6. اختر النموذج المناسب لكل مهمة
"أيّهما ينبغي أن أستخدم" ينقسم بوضوح حسب نوع المهمة.
| حالة الاستخدام | المُوصى به | السبب |
|---|---|---|
| طلبات السحب وإعادة الهيكلة لمستودعات كبيرة | Opus 4.7 | SWE-bench Pro 64.3%، فهم عميق لقاعدة الشيفرة |
| العمل اليومي في Cursor / Claude Code | Opus 4.7 | "اشرح ثم اكتب الشيفرة" يلائم طريقة استخدام المحرّرات |
| الوكلاء الذين يعتمدون على عدّة خوادم MCP | Opus 4.7 | صدارة MCP-Atlas؛ تعمّقات أدوات دقيقة |
| وكلاء يقودون CLI أو طرفية ذاتيًّا | GPT-5.5 | Terminal-Bench 2.0 82.7%، OSWorld 78.7% |
| الردّ الآليّ على دعم العملاء | GPT-5.5 | Tau2-bench Telecom 98.0% خارج الصندوق |
| المهام متعدّدة الوسائط التي تتضمّن صوتًا وفيديو | GPT-5.5 | متعدّد الوسائط أصلاً — لا حاجة لنموذج ثانٍ |
| تقارير مجمّعة من وثائق طويلة | GPT-5.5 | سياق 1M بالإضافة إلى تكلفة رموز مخرجات منخفضة |
| أبحاث وتحليلات الأمن السيبرانيّ | GPT-5.5 | مفاد التقارير أنه أقوى في الاستدلال المركّب طويل السياق |
| المالية والقانون — حيث يهمّ الوفاء بالتعليمات | Opus 4.7 | اتّباع تعليمات مستقرّ |
| استدلال STEM بمستوى الدراسات العليا | أيّهما | GPQA Diamond 94.2 مقابل 93.6 — ضمن نطاق الضوضاء |
التقييمات الخارجية (DataCamp وMindStudio وllm-stats وغيرها) تستقرّ مرارًا على نفس الانقسام: "GPT لأتمتة البناء الجديد، وOpus لإصلاح الشيفرة القائمة وتشغيل الوكلاء طويليّ الأمد."
7. استراتيجية الانتقال والمزدوج المورّدين
الإجابة العملية في مايو 2026 ليست "اختر واحدًا واعتمد عليه" بل "اختر الأداة المناسبة لكلّ مهمة" — وهذا يُحسّن التكلفة والجودة معًا.
النمط أ. تشغيل بمزدوج المورّدين (موصى به)
- البرمجة الأساسية (Cursor / Claude Code): Opus 4.7
- أتمتة CLI والطرفية: GPT-5.5
- RPA الأعمال وروبوتات دعم العملاء: GPT-5.5
- تحليل الوثائق الطويلة وتصنيفها: GPT-5.5 (المخرجات القصيرة رخيصة)
- المساعدة في المراجعة والموافقة على طلبات السحب: Opus 4.7 (الاستدلال المسرود يعمل أيضًا كسجلّ تدقيق)
النمط ب. منهج المُوجِّه (Router)
استخدم OpenRouter / LiteLLM وما شابه لـ تصنيف نوع المهمة وإرسالها ديناميكيًّا. قاعدة بسيطة — البرمجة إلى Opus، أعمال الوكلاء إلى GPT، الاستدلال إلى الأرخص — تُبقي الارتباط بالمورّد منخفضًا وتدفع التكاليف الواقعية إلى الأسفل.
النمط ج. تشغيل بمورّد واحد
إذا كانت قيود الأمن أو حوكمة البيانات تستبعد استخدام أكثر من مورّد، اختر بحسب حالة الاستخدام الأساسية. اعتبارًا من مايو 2026، القرار المباشر هو Opus 4.7 للمنظّمات ذات قواعد شيفرات SaaS كبيرة، وGPT-5.5 للمنظّمات المتمحورة حول أتمتة عمليات الأعمال.
الخلاصة
- Opus 4.7: الأفضل في عمل قواعد الشيفرة الحقيقية والاستخدام العميق لـ MCP / Cursor. الحرفيّ. رموز المخرجات ثقيلة والتكلفة تتراكم، لكنّ سلسلة التفكير المرئية تُجدي في التدقيق والمراجعة.
- GPT-5.5: قويّ على نطاق واسع في التحكّم بالطرفية ودعم العملاء والمهام متعدّدة الوسائط. رموز المخرجات قليلة والتكلفة الواقعية تقريبًا ربع Opus — مقابل شروحات شحيحة.
- الاستدلال متعادل في جوهره. الفجوة 0.6 نقطة على GPQA Diamond ضوضاء.
- كيف تختار: لا تُجمّع نتائج المعايير — بل اسأل أيّ معيار يُشبه عملك الفعليّ أكثر.
- الإجابة العملية في مايو 2026 هي تشغيل كليهما والتقسيم بحسب المهمة. هذا يُعطي أفضل نتيجة لتكلفة/جودة.
الأسئلة الشائعة
س1. أيّهما هو نموذج "الجيل التالي" — Claude Opus 4.7 أم GPT-5.5؟
الجيل نفسه. صدرا بفارق أسبوع، والأدقّ هو رؤيتهما باعتبارهما النموذجين الرائدين للجيل نفسه. الفرق هو في فلسفة التصميم، لا في الجيل.
س2. سعر Opus المُعلَن أقل — لماذا غالبًا ما يأتي GPT أرخص في الواقع؟
لأن Opus يُصدر سلسلة تفكير مسرودة بالإضافة إلى شيفرة بالإضافة إلى ملخّص، فعدد رموز مخرجاته عالٍ. GPT يصل مباشرة إلى الإجابة ويستخدم رموز مخرجات أقلّ بحوالي 72%. قارن الفواتير على المهمة نفسها يمكن أن يقترب الفرق من الربع.
س3. أنا على Cursor / Claude Code — أيّ نموذج ينبغي أن أُحسّن لأجله؟
التطوير اليومي داخل Cursor / Claude Code لا يزال أفضل مع Opus 4.7. تكامل المحرّر، وربط MCP، وعادة "اشرح ثم اكتب الشيفرة" تتلاءم جميعها مع إحساس بيئات التطوير المتكاملة.
س4. ماذا عن بناء وكيل أعمال أو روبوت دردشة؟
GPT-5.5. مع Tau2-bench Telecom 98% وOSWorld 78.7% يتصدّر على نطاق واسع في عمل أتمتة الأعمال، وكونه متعدّد الوسائط يستطيع التعامل مع إدخال الهاتف والصوت والصورة في النموذج نفسه.
س5. معايير الاستدلال متعادلة — لكن للمشكلات الصعبة فعلاً، أيّهما أفضل؟
GPQA Diamond بـ 94.2% مقابل 93.6% متعادل فعليًّا. الانقسام الواقعي تشغيليّ: GPT-5.5 لـ الاستدلال المركّب طويل السياق، وOpus 4.7 عندما تريد شرحًا خطوة بخطوة على طول الطريق.
س6. هل يستحقّ الانتقال من GPT-4 / Claude 3 الأقدم؟
نعم، بشكل جوهريّ. تُظهر القفزة الجيليّة حركة بنحو 30 إلى 40 نقطة على SWE-bench في مهام البرمجة، و20 إلى 30 نقطة على OSWorld / Terminal-Bench لأعمال الوكلاء. أصبح تحديث النماذج في المشاريع طويلة الأمد قرارًا قياسيًّا يجب اتخاذه خلال 2026.
س7. كمستخدم نهائيّ (ChatGPT / Claude.ai)، كيف أختار؟
تقريبًا المنطق نفسه كتقسيم العمل: Claude.ai عندما تريد كتابة شيفرة، وChatGPT للأبحاث والتلخيص والصوت وتوليد الصور. إذا كنت ستدفع لواحد فقط، اختر بحسب حالة استخدامك المهيمنة لتجنّب عدم الملاءمة.