في عام 2023، كانت نافذة سياق بحجم 32K رمز تبدو «فسيحة». وبحلول مايو 2026، أصبح المليون رمز (1M) هو المعيار الافتراضي في الصناعة. Claude Opus 4.7 وClaude Sonnet 4.6 وGPT-5.5 وGemini 3.1 Pro وDeepSeek V4-Pro — جميع النماذج الرائدة الكبرى تدعم 1M. وقد بلغ Gemini 3.1 Ultra حاجز 2M.

«مليون رمز» تعني تقريبًا 8–10 كتب جيب بالإنجليزية، أو عشرات الآلاف من أسطر الشيفرة المصدرية. صار بإمكاننا الإبقاء على هذا الكم «أمام أعيننا» داخل جلسة واحدة. لكن المفاجأة هي أن واحدًا فقط من هذه النماذج يستخدم وعاءه حتى النهاية فعلًا. تُظهر الاختبارات المرجعية المستقلة (multi-needle NIAH، تفاصيلها أدناه) أن وضع Gemini 3 Deep Think فقط يحافظ على دقته عبر كامل المليون. أما البقية فتبدأ في فقدان الدقة بين 200K و400K — هذا هو الواقع الميداني الصريح لعام 2026.

دعني أصرّح برأيي مبكرًا: انتهى عصر اختيار النموذج بناءً على حجم الوعاء فقط. ما يهم الآن هو ثلاثية «السياق الفعّال × التكلفة × الاستراتيجية»، وخطوة Anthropic نحو تسعير ثابت لـ 1M هي أكثر التطورات إثارة هذا العام. يستعرض هذا المقال ماهية السياق فعلًا، وتشكيلة النماذج في مايو 2026، ولماذا لا يكفي الحجم وحده، والاختلافات في بنية التكلفة، وخمسة أساليب عملية لتوفير السياق يمكن للمطورين الفرديين والفرق الصغيرة تطبيقها اليوم — مدعومة بأرقام مرجعية مستقلة.

نافذة السياق · 2023→2026

تضخّم الوعاء بمقدار 250 ضعفًا خلال ثلاث سنوات

— الخط الزمني لكيفية تحول 1M من رفاهية إلى معيار

2023
4K–32K
GPT-3.5 وأوائل GPT-4. بالكاد تستوعب ورقة بحثية واحدة.
2024
128K–200K
Claude 3 / GPT-4 Turbo. عشر أوراق بحثية أو رواية كاملة.
2025
1M–2M
Claude 4.6 / Gemini 1.5 Pro يفتحان حاجز 1M. ووصل Gemini Ultra إلى 2M.
2026
1M = المعيار
Opus 4.7 وSonnet 4.6 وGPT-5.5 وGemini 3.1 وDeepSeek V4 — كلها متوفرة.

لكن «الدعم» و«القراءة الفعلية حتى النهاية» شيئان مختلفان. Gemini 3 Deep Think فقط يحافظ على الدقة عبر كامل المليون في اختبارات multi-needle NIAH؛
أما البقية فتبدأ بالتراجع عند 200K–400K (Digital Applied، Zylos 2026).

1. خمسة نماذج بسعة 1M رمز خلال عام واحد — لكن واحدًا فقط يقرأ المحتوى كاملًا

عندما أعلنت OpenAI عن GPT-5.5 في أبريل 2026، احتفل الإنترنت قائلًا: «أخيرًا وصلت OpenAI إلى 1M». في الشهر نفسه، أطلقت Google نموذج Gemini 3.1 Ultra بسعة 2M. وكانت Anthropic قد قدّمت قبل عام تسعيرًا ثابتًا للمليون على Claude Opus 4.6 ثم عزّزته بإصدار 4.7. كذلك يدعم DeepSeek V4-Pro سعة 1M. خمسة مزوّدين رائدين باتوا اليوم قادرين بشكل مشروع على كتابة «1M+ رمز» في ورقة المواصفات.

كان ينبغي أن يكون هذا حدثًا كبيرًا. فقبل ثلاث سنوات فقط، كانت 32K تبدو مذهلة. لقد شهدنا منذ ذلك الحين قفزة بأكثر من 30 ضعفًا في حجم النافذة. وبدا أن سباق حجم الأوعية قد حُسم.

ثم أجرت جهتا التقييم المستقلتان Digital Applied وZylos Research اختبار Needle-in-a-Haystack متعدد الإبر (NIAH) في 2026 — بإدراج عدة حقائق داخل وثائق طويلة وطلب استرجاعها كلها بدقة. وإليكم ما توصلوا إليه:

  • Gemini 3 Deep Think: يحافظ على الدقة المعلنة عبر كامل المليون
  • Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro: تتراجع الدقة بدءًا من حدود 200K–400K

إذًا، رغم أن «دعم 1M» أصبح شاملًا، فإن نموذجًا واحدًا فقط يستخدم هذا المليون كاملًا في ظروف معادلة للإنتاج. ومع باقي النماذج الرائدة، يبدأ الإجهاد بالظهور عند طلب دمج عدة حقائق بين 200K و400K. هذا هو واقع 2026.

لا تفهم ذلك على أنه «Claude أو GPT سيء». الحالات التي تحتاج فعلًا إلى المليون كاملًا نادرة. فإذا أمكنك قراءة 300K (≈ 2–3 كتب جيب) بثقة، فستُنجز تقريبًا كل مهام البرمجة أو البحث أو التلخيص. الفخ هو اختيار النموذج بناءً على عنوان «دعم 1M» وحده — هذا يضلّل القرار.

2. ما هو السياق؟ — افصل بين الوعاء ومحتواه

توضيح سريع للمصطلحات. ثلاث كلمات يخلط الناس بينها في هذا المجال.

ثلاثة مصطلحات

الرمز (Token)، النافذة (Window)، السياق (Context)

① TOKEN — وحدة النص
أصغر وحدة يعالج بها الذكاء الاصطناعي النص. حوالي 4 حروف إنجليزية لكل رمز (أو ~0.75 من كلمة)؛ أما لغات CJK فتبلغ تقريبًا 1–1.5 رمز لكل حرف.
② WINDOW — حجم الوعاء
الحد الأقصى لعدد الرموز الذي يستطيع النموذج التعامل معه في تبادل واحد. الإدخال زائد الإخراج معًا. أي شيء يتجاوز ذلك يُقتطع من الطرف الأقدم.
③ CONTEXT — المحتوى الفعلي
ما هو محمَّل حاليًا داخل النافذة. يشمل موجّه النظام، وسجل المحادثة، والمرفقات، ومخرجات الأدوات — كل ذلك.

باختصار: «النافذة = حجم الوعاء»، و«السياق = المحتوى»، و«الرمز = الوحدة».
وعاء كبير بمحتوى مشوش يعطيك إجابات مشوشة أيضًا.

كذلك: لا تخلط بين «السياق» و«الذاكرة». السياق يعيش داخل الجلسة — أغلق الدردشة فيختفي. أما ميزات مثل ChatGPT Memory أو Claude Memory فهي آلية احتفاظ منفصلة عبر الجلسات. تُحقن محتويات الذاكرة في النهاية داخل نافذة السياق، لكن من منظور المستخدم هي تخزين دائم مقابل مساحة عمل مؤقتة.

مفهوم خاطئ شائع: «نافذة سياق أكبر = ذكاء اصطناعي أذكى» مقولة خاطئة. حجم النافذة ليس سوى الحد الأعلى لما يمكن أن يكون في الأفق. أما القدرة الاستدلالية وعمق المعرفة ودقة اتباع التعليمات فتُقاس على حدة. كل إصدار جديد للنماذج يتصدّره عنوان «1M سياق!»، لكن هذا ليس سوى وجه واحد من أوجه القدرة.

3. أبرز النماذج في مايو 2026 — أحجام الأوعية

بعد توضيح التعاريف، إليكم أحجام الأوعية التي ينشرها كبار المزوّدين اليوم. كل الأرقام من المواصفات الرسمية اعتبارًا من مايو 2026.

النموذجحد الإدخالحد الإخراجملاحظات
Claude Opus 4.71,000,000128,000تسعير ثابت لـ 1M بالسعر القياسي، دون الحاجة إلى رأس بيتا
Claude Sonnet 4.61,000,00064,000التسعير الثابت ذاته
Claude Haiku 4.5200,00064,000نموذج خفيف، لا يوجد به مستوى 1M
GPT-5.5922,000128,000إجمالي API نحو 1M؛ سعر الإدخال يتضاعف فوق 272K
GPT-5.41,000,000128,000نفس الرسوم الإضافية للسياق الطويل
Gemini 3.1 Pro1,000,00065,535متاح عبر Vertex AI / AI Studio
Gemini 3.1 Ultra2,000,00065,535مستوى 2M — حاليًا النموذج التجاري الوحيد بسعة 2M
Grok 4256,00032,000المواصفات الرسمية لـ xAI؛ متحفظ بين الرواد
DeepSeek V4-Pro1,000,00096,000الأكبر في فئة الأوزان المفتوحة

إذا قرأت الجدول وحده فستستنتج «Gemini Ultra يفوز، انتهت القصة». لكن ثمة حقيقة جديرة بالتظليل: Anthropic تقدّم 1M بسعر ثابت على Opus 4.6/4.7 وSonnet 4.6، بينما تضاعف OpenAI سعر الإدخال على GPT-5.5 فوق 272K رمز. هذا ليس مجرد مقبض تسعير — بل هو موقف استراتيجي حول كيفية التعامل مع أعباء العمل ذات السياق الطويل. سنغوص في حسابات التكلفة في قسم لاحق.

شخصيًا، أحتفظ بـ Claude Opus 4.7 كحصاني للعمل في المهام الطويلة. ثلاثة أسباب: التسعير الثابت، والدقة المستقرة في نطاق الـ 200K، وجودة وثائق Anthropic. أما المستندات التي تتجاوز فعلًا 300K فأنتقل فيها إلى Gemini 3 Deep Think. المزج بين النماذج بحسب حالة الاستخدام هو الخطوة الصحيحة في 2026.

4. ثلاثة أسباب تجعل مقولة «الأكبر أفضل» غير صحيحة

الجدول السابق سرد فقط أحجام الأوعية الفعلية. السؤال الأصعب هو: هل تستخدم النماذج فعلًا ما تُعلن عنه؟ الإجابة المختصرة: خارج Gemini 3 Deep Think، الوضع قاتم. وإليكم ثلاثة أسباب.

السبب ①: Lost in the Middle

وثّقته جامعة ستانفورد لأول مرة عام 2023، وتكرّر في كل جيل من النماذج منذ ذلك الحين. الذكاء الاصطناعي يعطي وزنًا قويًا لبداية الإدخال ونهايته بينما يقلل من شأن المنتصف (المنطقة الموضعية 30–70%). المعلومة الموضوعة قرب مركز سياق بحجم 100K تُسترجع بدقة أقل بمقدار 5–15 نقطة مئوية مقارنةً بالمعلومة نفسها في البداية أو النهاية.

العَرَض اليومي: «ألصق ملف PDF طويلًا، اسأل ‘ما الرقم الخاص بـ X؟’، فيُخطئ النموذج في الرقم الموجود في المنتصف تمامًا.» هذا هو Lost in the Middle. وبعد ثلاث سنوات من ورقة ستانفورد الأصلية، لم تُغلق النماذج الرائدة هذه الفجوة بالكامل بعد.

السبب ②: Context Rot

كلما طالت المحادثة، تلاشت تعليماتك الأولية. قلت في البداية «أجب بالإنجليزية الفصحى»؛ وبعد عشرين دورة، عاد النموذج إلى الصياغة العامية — هذا هو Context Rot.

سببان. ① التعليمات المبكرة تصبح قديمة نسبيًا ويُعطى لها وزن أخف داخل السجل. ② مع طول السجل، يتشتت الانتباه ويصبح من الصعب الإشارة إلى رموز معينة. وقد بدأت Anthropic عام 2026 بصياغة هذا الأمر تحت مسمى «context engineering» — وهي مهارة متعمَّدة لإدارة هذه التأثيرات.

السبب ③: السياق المُعلن ≠ السياق الفعّال

إليكم كيف تبدو فعليًا أحدث الاختبارات المرجعية لعام 2026 (multi-needle NIAH، في ظروف معادلة للإنتاج).

Multi-Needle NIAH × 4 نماذج

السياق الفعّال (دمج عدة حقائق)

Gemini 3 Deep Think ~كامل 1M
Claude Opus 4.7 ~200K–400K
GPT-5.5 ~200K–400K
DeepSeek V4-Pro ~200K–400K

المصادر: Digital Applied "Long-Context Retrieval 2026" / Zylos Research "LLM Context Window Management 2026."
في NIAH أحادي الإبرة (حقيقة واحدة للاسترجاع) تجتاز كل النماذج 1M، لكن دمج الحقائق المتعددة يحكي قصة مختلفة.

للتأكيد: هذا ليس «Claude Opus 4.7 معطّل». 200K–400K تساوي أيضًا سعة 2–3 روايات جيب. معظم المهام الواقعية (مراجعة الشيفرة، الكتابة المطوّلة، تلخيص الاجتماعات، توليف الأبحاث) تنتهي بسهولة ضمن هذا النطاق. المشكلة هي الافتراض بأنه «طالما السعة 1M، فلنُلقِ بـ 1M بكامله» — هذه الاستراتيجية لا تعمل سوى مع Gemini Deep Think.

5. فخ التكلفة — OpenAI تضاعف السعر فوق 272K، وAnthropic تبقى ثابتة

أثبتنا للتو أن «الفعّال هو 200K–400K». أضف إلى ذلك الفخ الثاني: مدخلات السياق الطويل تجعل الفاتورة تقفز. تبنّت Anthropic وOpenAI استراتيجيتين متعاكستين هنا.

النموذجسعر الإدخال القياسيالرسوم الإضافية للسياق الطويل
Claude Opus 4.7$5.00 / 1M رمزثابت عبر 1M، بلا رسوم إضافية
Claude Sonnet 4.6$3.00 / 1M رمزكذلك — بلا رسوم إضافية
GPT-5.5$5.00 / 1M رمزفوق 272K: الإدخال ×2، الإخراج ×1.5
GPT-5.4مماثلنفس الرسوم الإضافية للسياق الطويل

حساب ملموس. إدخال 500K رمز + إخراج 50K رمز، رحلة واحدة ذهابًا وإيابًا — الحالة النموذجية لتلخيص قاعدة شيفرة كبيرة أو تقرير سنوي في تمريرة واحدة.

  • Claude Opus 4.7: $5.00 × 0.5 + $25.00 × 0.05 = $3.75
  • GPT-5.5 (مع رسوم تجاوز 272K): $10.00 × 0.5 + $45.00 × 0.05 = $7.25

هذا فارق $3.50 لكل استدعاء. شغّله 100 مرة يوميًا، فستجد فارقًا قدره $10,500 شهريًا. وللفرق التي تشغّل وكلاء طويلي الأمد، يبلغ الفارق بسهولة عشرات الآلاف منتصف الخمسة أرقام شهريًا. النمط البنيوي ذاته الذي تناولناه في توفير تكلفة رموز وجلسات الذكاء الاصطناعي.

ملاحظة: تم وصف تسعير 1M الثابت الخاص بـ Anthropic بأنه «تمييز متعمَّد» في تحليل Finout في أبريل 2026. حيث تستثمر OpenAI ماليًا في مستخدمي السياق الطويل، تضع Anthropic «استخدم السياق الطويل دون تردد» قيمةً للعلامة التجارية.

6. خمسة أساليب للتوفير — مرتبة وفق الأثر الفعلي للمطورين الفرديين

«الوعاء 1M لكن الفعّال نحو 300K، والاستخدام المطول مكلف.» قد غطّينا ذلك. إذًا ما الذي يمكنك فعله ميدانيًا؟ فيما يلي خمسة أساليب أستخدمها يوميًا، مرتبة حسب الأكبر مردودًا.

خمسة نصائح عملية

توفير السياق — ترتيب الأولويات

① اقطع الجلسة
عندما يتغير الموضوع، افتح دردشة جديدة. مجرد منع السياق القديم من الانتقال يقضي على Context Rot. في Claude Code، استخدم /compact أو ابدأ جلسة جديدة.
② أرسل مقتطفات لا نصوصًا كاملة
لصق PDF من 100 صفحة كاملًا أسوأ خطوة. استخدم grep / البحث لاستخراج الأقسام ذات الصلة، واضغطها إلى 3–5 صفحات ثم أرسلها. عقلية RAG، مطبَّقة فرديًا.
③ كرّر التعليمات الرئيسية في النهاية
إجراء مضاد لـ Lost-in-the-Middle. أعد ذكر القاعدة المذكورة في الأعلى بسطر واحد في النهاية: «بناءً على ما سبق، أخرج بصيغة X».
④ Prompt Caching
إذا كنت تعيد استخدام موجّه النظام نفسه مرارًا، فميزة التخزين المؤقت لدى Anthropic / OpenAI تخفض سعر الإدخال بنسبة تصل إلى 90%. إن كنت تستدعي API، فاضبط هذا أولًا.
⑤ صرّح بعناوين الملفات
تحديد «الملف N، السطر X» يعزز دقة الاسترجاع في السياقات الطويلة. اعتبر الأمر كأنك تسلّم الذكاء الاصطناعي جدول محتويات بإدخالات فهرس.

من بين الأساليب الخمسة، الأسلوب ① «اقطع الجلسة» يحقق أكبر مكسب ملحوظ. مجرد قطع الدردشة يقلّل الهلوسات بشكل ملموس.
الأسلوب ④ مخصص لمطوري API — أما الواجهات (claude.ai / ChatGPT) فتدير التخزين المؤقت تلقائيًا.

أفضل ممارسة شخصية لي: مجرد الالتزام بـ ① و② باستمرار يحرّك الدقة المُدرَكة بشكل ملحوظ. حتى مع Claude Code، بدلًا من دفع جلسة طويلة واحدة، فإن الضغط على /compact أو بدء جلسة جديدة عند كل تغيير موضوع يبقي جودة المخرج النهائي مستقرة.

الخلاصة

تلخيص:

  • نافذة السياق = الحد الأقصى من الرموز التي يستطيع الذكاء الاصطناعي معالجتها في تبادل واحد. حجم الوعاء.
  • اعتبارًا من مايو 2026، Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro جميعها تدعم 1M؛ ويصل Gemini 3.1 Ultra إلى 2M.
  • الاختبارات المرجعية المستقلة (multi-needle NIAH) تُظهر أن Gemini 3 Deep Think فقط يحافظ على الدقة عبر كامل المليون؛ أما البقية فتبدأ بالتراجع عند 200K–400K.
  • على صعيد التكلفة، Anthropic تبقى ثابتة بينما تُطبّق OpenAI رسومًا إضافية فوق 272K. تباين استراتيجي واضح.
  • الأساليب الخمسة — اقطع الجلسة، أرسل مقتطفات، أعد الذكر في النهاية، خزّن مؤقتًا، صرّح بالعناوين — والأسلوبان ① و② يحملان الوزن الأكبر.

حتى مع الأوعية الأكبر، يبقى العمل الفعلي هو تقرير ما يجب إرساله وما يجب استبعاده. مهارة الذكاء الاصطناعي عام 2026 ليست «حشو كل شيء بداخله». بل القدرة على الحكم بإرسال ما يلزم فقط بدقة — هذا ما يبقى نافعًا على المدى الطويل. بعد مشاهدة خمسة مزوّدين يتوّجون أنفسهم «1M» هذا العام، تلك خلاصتي.

الأسئلة الشائعة

س1. كيف أحصي الرموز قبل الإرسال؟

توفّر OpenAI مكتبة tiktoken؛ وتُتيح Anthropic ما يعادل countTokens() عبر واجهة في حزمة SDK الرسمية. القاعدة العملية: ~0.75 كلمة إنجليزية لكل رمز، و~1–1.5 رمز لكل حرف من حروف CJK. تختلف الشيفرة بحسب أداة الترميز، لذا قِس قبل إرسال إدخالات طويلة.

س2. ما الفرق بين «الذاكرة» والسياق؟

السياق يعيش داخل الجلسة فقط — أغلق الدردشة فيختفي. أما الذاكرة (ChatGPT Memory / Claude Memory) فهي آلية احتفاظ منفصلة عبر الجلسات. ينتهي الأمر بحقن محتويات الذاكرة في نافذة السياق، لكن من منظور المستخدم هي دائمة مقابل عابرة.

س3. ما علاقة RAG بنافذة السياق؟

RAG هو نمط «جلب المعلومات اللازمة فقط ديناميكيًا إلى السياق». حتى مع نافذة 1M، فإن إغراقها بكل شيء يجعلها بطيئة وثقيلة ومكلفة، ولذلك يبقى الاسترجاع ثم التحميل (RAG) المنهج السائد. راجع ما هو RAG للمزيد.

س4. لماذا يتراجع الأداء عند 300K مع أن 1M مدعوم؟

عدم التطابق بين أطوال التسلسلات وقت التدريب ووقت الاستدلال، وحدود الترميز الموضعي في آلية الانتباه، والانفجار الحسابي المطلوب لدمج عدة حقائق — كلها تتراكم. «مدعوم» و«الدقة محفوظة عبر النطاق الكامل» مشكلتان مختلفتان.

س5. هل توفّر خوادم MCP السياق؟

نعم. MCP هو آلية للجلب عند الطلب عبر الأدوات، فلا تحتاج إلى تحميل كل شيء في السياق مسبقًا. بدّل النموذج الذهني من «ألصق الملف بأكمله» إلى «دعه يذهب ويقرأ الملف».