في أبريل 2026، شهد المعيار المرجعي للذكاء الاصطناعي متعدّد الوسائط MMMU-Pro (الفهم متعدّد التخصّصات عبر الصور والمخطّطات والأشكال) وصول GPT-5.5 وClaude Opus 4.7 وGemini 3 وQwen 3.5 Omni جميعاً إلى 81–83%. رقم مذهل إذا تذكّرنا أنّ GPT-4V سجّل أوّل مرّة 56% هنا في 2023 — لكنّ الحدود الأمامية باتت مُشبَعة. عصر الذكاء الاصطناعي «النصّي فقط» قد انتهى فعلاً.

الأمر لا يقتصر على النتائج. هاجرت البنية كلّياً من «المُلصَق» إلى «الموحَّد الأصيل». حتى 2024، كان النمط السائد هو «تدريب نموذج نصّي ومُرمِّز صور ومُرمِّز صوت بشكل منفصل، ثم وصلها عند الإخراج». أمّا نماذج 2026 الرائدة فتُحوِّل النصوص والصور والصوت وإطارات الفيديو إلى نفس تيّار التوكنات وتستدلّ عليها جميعاً في عقل واحد. هذا يجعل أموراً مثل «ربط الصوت والمرئيات في فيديو لفهم المعنى» أو «التفسير المتبادل بين أشكال PDF ونصّه الأساسي» تبدو طبيعية.

دعوني أُصرّح برأيي مبكّراً: انتقل تعدّد الوسائط من «ميزة لطيفة» إلى «عدم وجوده يعني عدم الانطلاق». التقاط صورة لشاشة خطأ ليحلّها الذكاء الاصطناعي على الفور، وأخذ لقطة من PDF لاستخراج النقاط الرئيسية، وتفريغ فيديو يوتيوب وتلخيصه — هذه باتت خط الأساس لكفاءة الذكاء الاصطناعي في 2026. تتناول هذه المقالة التعريف، والفرق بين تعدّد الوسائط المُلصَق والأصيل، والقدرات الفعلية للنماذج الرائدة الثلاثة (GPT-5.5 وClaude Opus 4.7 وGemini 3.1 Pro)، والمعايير المرجعية، واختيارات حالات الاستخدام، والحدود — مدعومةً بأبحاث حديثة وخبرة عملية.

MULTIMODAL AI · 2026

أربعة مدخلات يعالجها عقل واحد

— نصوص وصور وصوت وفيديو كتيّار توكنات مشترك واحد

TEXT
نصّ
نثر، شيفرة، رموز
IMAGE
صورة
صور، مخطّطات، لقطات شاشة
AUDIO
صوت
كلام، موسيقى، أصوات محيطة
VIDEO
فيديو
زمن + مرئيات + صوت

أبريل 2026: GPT-5.5 وClaude Opus 4.7 وGemini 3 جميعها تصل إلى 81–83% على MMMU-Pro.
انتهى عصر «الصورة كميزة إضافية»؛ الاستدلال على أربع وسائط في عقل واحد هو الإعداد الافتراضي الجديد.

1. في 2026، توقّف الذكاء الاصطناعي عن أن يكون «نصاً فقط» — MMMU-Pro يتجاوز 80%

بدأ مصطلح «متعدّد الوسائط» يَشيع في 2024، لكنّ النماذج آنذاك لم تكن تقرأ الصور إلا كـأمر ثانوي: كانت أعلى نتائج MMMU (الفهم متعدّد التخصّصات والوسائط) تحوم حول 56%. وكان الوسيط البشري (82%) بعيد المنال في أسئلة الصور التي تتطلّب معرفة تخصّصية.

2026 يبدو مختلفاً تماماً. أحدث نتائج MMMU-Pro (المعيار المُحدَّث الأصعب) في أبريل 2026:

  • GPT-5.5: 83.4%
  • Claude Opus 4.7: 82.1%
  • Gemini 3.1 Pro: 81.7%
  • Qwen 3.5 Omni: 81.0%

«تجاوز 80% يعني أنّ المعيار يقترب من حدّ الإشباع» — هذا هو واقع 2026. انتقل التمايز إلى فهم الفيديو (Video-MMMU) ووثائق OCR الكثيفة والاستدلال المشترك صوت-بصر — أرض أصعب. لوحة المتصدِّرين العامّة على MMMU benchmark تتيح المقارنة للجميع.

2. ما هو الذكاء الاصطناعي متعدّد الوسائط؟ — أربعة مدخلات، عقل واحد

التعريف: «نموذج ذكاء اصطناعي يتعامل مع مدخلات تتجاوز النصّ — صور وصوت وفيديو وما إلى ذلك.» في لغة 2026 الدارجة، يشير «متعدّد الوسائط» في الغالب إلى نماذج تُدمج النص والصورة والصوت والفيديو — أربع وسائط — في خطّ إنتاج واحد.

كان الذكاء الاصطناعي التقليدي أحادي الوسيط: GPT-3 يعالج النصّ؛ Whisper يحوّل الكلام إلى نصّ فقط؛ Stable Diffusion يحوّل النصّ إلى صورة فقط. كان دمجها يتطلّب خطّ إنتاج يُغذّي مخرج نموذج نموذجاً آخر، وتُفقَد المعلومات عند كلّ تسليم.

يقلب الذكاء الاصطناعي متعدّد الوسائط القاعدة: «نموذج واحد يفهم كلّ المدخلات في آنٍ واحد». مهمّة مركَّبة مثل «اقرأ لقطة شاشة الخطأ هذه (صورة) مع سؤالي (نصّ)، ثم اشرح السبب صوتياً» تنتهي في استدعاء API واحد.

المصطلحات: LMM (نموذج متعدّد الوسائط ضخم) = نموذج ضخم بقدرة متعدّدة الوسائط. VLM (نموذج رؤية-لغة) = نصّ + صورة فقط. Omnimodal = الجيل الجديد من النماذج التي توحِّد 4 وسائط فأكثر. GPT-5.5 وGemini 3 هما omnimodal؛ أمّا Claude Opus 4.7 فهو نصّ + صورة بالأساس (قائم على VLM)، مع دعم محدود للصوت والفيديو.

3. مُلصَق مقابل أصيل — الفجوة المعمارية

فهم «ما يجري تحت الغطاء» يكشف نقاط قوّة كلّ نموذج. حدث تحوّل جيلي في البنية بين 2024 و2026.

أجيال البنية

مُلصَق (~2024) مقابل أصيل (2025+)

① مُلصَق (~2024)
  • نموذج نصّي + مُرمِّز صور
  • طبقة مُحوِّل تربط عند الإخراج
  • الصوت/الفيديو على خطوط إنتاج منفصلة
  • فقدان معلومات عند الحدود
  • مثال: GPT-4V، Claude 3 Vision
VS
② أصيل (2025+)
  • جميع الوسائط ← نفس تيّار التوكنات
  • يستدلّ عليها Transformer واحد في آنٍ معاً
  • إطارات الصوت + الفيديو مرتبطة في الخطوة ذاتها
  • فقدان معلومات أدنى، استدلال أعمق
  • مثال: GPT-5.5، Gemini 3، Qwen Omni

البنية الأصيلة تجعل «تفسير الصوت والمرئيات معاً في فيديو» / «الاستدلال المتبادل بين أشكال PDF ونصّه» يبدو طبيعياً.
أمّا المُلصَقة فكانت تتطلّب خطوات وسيطة من قبيل «استخرج النصّ من الصورة أوّلاً» كحلقة وصل.

مثال ملموس: «شاهد فيديو طبخ على يوتيوب واستخرج الوصفة». مُلصَق: صوت ← Whisper إلى نصّ ← GPT للتلخيص؛ فيديو ← استخراج إطارات ← تحليل صور منفصل. خطوات كثيرة. أصيل: استدعاء API واحد يأخذ ملف الفيديو بكامله كمدخل ← يُعيد الوصفة مباشرةً. مستوى الترابط بين الشرح المنطوق والفعل المرئي على مستوى مختلف تماماً من الطبيعية.

4. مقارنة أبرز النماذج — GPT-5.5 وClaude Opus 4.7 وGemini 3.1 Pro

حالة القدرة متعدّدة الوسائط بين الثلاثة الأوائل لعام 2026 (مع البدائل):

النموذجنصّصورةصوتفيديونقطة القوّة
GPT-5.5الأفضل في الوسائط الأربع؛ Voice Mode ثنائي الاتجاه
Gemini 3.1 Pro◎◎متصدِّر الفيديو بـ78.4%، قوي في الفيديو الطويل
Claude Opus 4.7تحليل واجهات المستخدم/الوثائق؛ قوي لأعمال الوكلاء
Qwen 3.5 Omniomnimodal مفتوح الأوزان، نسبة كلفة/أداء قوية
DeepSeek V4-Proمتمحور حول النصّ + الصورة، رخيص جدّاً

ما يبرز:

  • الفيديو ساحة Gemini 3: نتيجة Video-MME 78.4%، مقابل GPT-5.5 (71.2%) وClaude (67.8%) — تقدّم ملحوظ. الفيديو الطويل (ساعة فأكثر) لا يصلح للاستخدام الحقيقي إلا هنا
  • المحادثة الصوتية لـGPT-5.5: Voice Mode يستجيب في أقلّ من 200ms ويقرأ المشاعر. Gemini يلحق به لكنّ التجربة لا تزال لصالح GPT
  • تحليل الوثائق لـClaude: ملفّات PDF الكثيفة ولقطات شاشات الواجهات تُقرأ بدقّة — وهذا بالضبط ما يجعله قويّاً في إعدادات الوكلاء مثل Cursor
  • طفرة الأوزان المفتوحة: Qwen 3.5 Omni وDeepSeek V4 يصلان إلى جودة قريبة من الحدود الأمامية بكلفة أقلّ بكثير

5. المعايير المرجعية المهمّة — MMMU / Video-MMMU / OCR / Audio

ستختار النموذج الخاطئ إذا لم تعرف ما الذي يقيسه فعلاً كلّ معيار. أربعة معايير يجب معرفتها في 2026:

المعايير × 4

بماذا نقيس الذكاء الاصطناعي متعدّد الوسائط

① MMMU-Pro
الفهم متعدّد التخصّصات من الصور + الأشكال + المخطّطات. الحدود الأمامية مُشبَعة عند 81–83%. ضعيف بالفعل كمميِّز.
② Video-MMMU
300 فيديو خبير + 900 سؤال وجواب. Gemini 3 يتصدّر بـ78.4%؛ المقياس الحقيقي لفهم الفيديو الطويل.
③ DocVQA / OCRBench
الوثائق + النصّ داخل الصورة. Claude Opus 4.7 قوي، مفيد لتحليل واجهات المستخدم والفواتير والنماذج.
④ AudioBench
فهم وتوليد الصوت معاً. GPT-5.5 Voice في طليعة الفنّ، متقدّم في زمن الاستجابة المنخفض والانفعال.

«MMMU مرتفع = جيد في كل شيء» قول خاطئ.
للفيديو راجِع Video-MMMU؛ للوثائق DocVQA؛ للصوت AudioBench — وإلّا فاتك الاختيار الصحيح.

6. حسب حالة الاستخدام — دليل اتخاذ القرار «اختر هذا»

خمسة أنماط شائعة، مع اختيارات ملموسة لـ«ابدأ من هنا».

  • ① أسئلة/تشخيص بصور الهاتف (صورة وجبة ← تغذية، شاشة خطأ ← إصلاح، صورة منتج ← بحث)
    ChatGPT (GPT-5.5) أو Claude (Opus 4.7). التقط، أرسل، اسأل. يعمل على الخطط المجّانية
  • ② تحليل PDF / الوثائق (إيصالات، عقود، مواصفات فنّية، أوراق بحثية)
    Claude Opus 4.7. نصّ طويل + أشكال + OCR كلّها دقيقة. دعم Anthropic للـPDF متين
  • ③ تفريغ الفيديو وتلخيصه (اجتماعات، محاضرات، يوتيوب)
    Gemini 3.1 Pro. ملخّصات مهيكلة لفيديوهات بساعة فأكثر. تجربة مجّانية عبر Google AI Studio
  • ④ المحادثة الصوتية / الترجمة الفورية / تدريب المقابلات
    GPT-5.5 Voice Mode. استجابة دون 200ms، انفعال عاطفي. يتطلّب ChatGPT Plus
  • ⑤ الكلفة أوّلاً / المعالجة بالجملة
    Qwen 3.5 Omni (مفتوح) أو Gemini 2.5 Flash-Lite. Batch API يخفّض الكلفة إلى النصف مجدّداً
أفضل ممارسة شخصياً: زاوِج ChatGPT Plus (20$/شهرياً) + Claude Pro (20$/شهرياً). الصور والصوت تذهب إلى ChatGPT، والـPDF والشيفرة إلى Claude، وحين أحتاج للفيديو أفتح Google AI Studio على الطبقة المجّانية. 40$/شهرياً يغطّي الحدود الأمامية العالمية لتعدّد الوسائط.

7. حدود صارمة — استخدِم ولا تثق بشكل أعمى

الذكاء الاصطناعي متعدّد الوسائط قوي، لكنّ ثلاثة حدود ستلدغك إن تجاهلتها.

الحدّ ①: لا تقرأ «التخمينات» المستندة إلى الصور كحقائق

سؤال «طبّق OCR على المبلغ في هذا الإيصال» يبدو بسيطاً، لكن إذا كانت الصورة منخفضة الدقّة أو معتمة أو منحرفة، فإنّ الذكاء الاصطناعي يفبرك أرقاماً مقبولة الشكل. حتى نسبة 83% على MMMU تعني أنّ 17% من الإجابات خاطئة. المبالغ والتواريخ وأسماء العَلَم — يجب دائماً أن يراجعها إنسان. خصوصاً في القانون والمال والرعاية الصحية.

الحدّ ②: تنخفض دقّة الفيديو في الوسط

حتى مع تصدّر Gemini 3 للفيديو، فإنّ استرجاع المعلومات من منتصف فيديو بساعة كاملة صعب — نفس مشكلة «الضياع في المنتصف» الموجودة في مشكلة نافذة السياق. للقطاعات المفصلية، حدِّد أختام الزمن: «حلِّل القطعة 30:00–35:00 تحديداً» يُعطي نتائج أفضل بكثير.

الحدّ ③: يكافح الصوت مع اللهجات والمصطلحات

الإنجليزية/اليابانية الفصحى المنطوقة دقيقة، لكنّ اللهجات الإقليمية والمفردات التخصّصية وتداخل عدّة متحدّثين والبيئات الصاخبة ترفع الأخطاء. لمحاضر الاجتماعات وغيرها من الاستخدامات العالية المخاطر، زاوِج مع أدوات متخصّصة (Otter.ai، Notta، إلخ)، أو نظِّف الصوت أوّلاً قبل إرساله إلى الذكاء الاصطناعي.

الخلاصة

استعادة سريعة:

  • أبريل 2026: GPT-5.5 وClaude Opus 4.7 وGemini 3 جميعها عند 81–83% على MMMU-Pro. انتقل الذكاء الاصطناعي متعدّد الوسائط من «ميزة لطيفة» إلى «لا بدّ منها»
  • البنية: مُلصَقة (~2024) ← omnimodal أصيل (2025+). كل الوسائط تتدفّق عبر تيّار توكنات مشترك واحد
  • أبرز النماذج: GPT-5.5 (الأفضل في الوسائط الأربع، Voice قوي) / Gemini 3.1 Pro (تصدّر الفيديو) / Claude Opus 4.7 (الوثائق + تحليل واجهات المستخدم) / Qwen 3.5 Omni (كلفة/أداء مفتوح المصدر)
  • المعايير المرجعية: MMMU-Pro / Video-MMMU / DocVQA / AudioBench — افحص المحاور الأربعة قبل الاختيار
  • خمسة اختيارات لحالات الاستخدام. الإجابة الشخصية: زوج ChatGPT Plus + Claude Pro = 40$/شهرياً
  • ثلاثة حدود: تخمينات الصور منخفضة الجودة / تراجع الدقّة في منتصف الفيديو / اللهجات والمصطلحات في الصوت. راجِع المخرجات الحرجة جيّداً

في 2026، يتقلّص بسرعة عمل الذكاء الاصطناعي الذي يكتمل «بالنصّ وحده». صور الهاتف وتسجيلات الاجتماعات وفيديوهات يوتيوب وملفّات PDF — كلّها تمرّ الآن عبر الذكاء الاصطناعي ذاته. معرفة كيف تستخدم تعدّد الوسائط لم تَعُد «ميزة مفيدة»؛ بل هي الحدّ الأدنى لكفاءة الذكاء الاصطناعي في 2026. ابدأ بإطعام الذكاء الاصطناعي صورة واحدة من هاتفك اليوم — هذا يكفي للانطلاق.

الأسئلة الشائعة

س1. هل أستطيع تجربة الذكاء الاصطناعي متعدّد الوسائط مجّاناً؟

نعم. ChatGPT المجّاني (GPT-5 mini، إدخال الصور متاح)، وGoogle AI Studio (Gemini 2.5 Flash، يشمل الفيديو، طبقة مجّانية)، وClaude.ai المجّاني (Sonnet، الصور متاحة) كلّها تتيح التجربة. Voice Mode والفيديو الطويل يتطلّبان طبقات مدفوعة. راجِع دليل أدوات الذكاء الاصطناعي المجّانية.

س2. كيف يختلف الذكاء الاصطناعي لتوليد الصور عن متعدّد الوسائط؟

مصطلحان مختلفان. أدوات مثل Midjourney وStable Diffusion متخصّصة في توليد الصور من النصّ — تدفّق أحادي الاتجاه نصّ←صورة. أمّا متعدّد الوسائط فيشير إلى فهم الصور (والوسائط الأخرى) كمدخلات. GPT-5.5 وGemini 3 يقومان بالأمرين. راجِع مقارنة أدوات الذكاء الاصطناعي لتوليد الصور.

س3. كيف أُرسل فيديو عبر الـAPI؟

واجهة Gemini API تأخذ ملفّات الفيديو مباشرةً عبر الحقل fileData (من خلال Google Cloud Storage). أمّا النمط الشائع لدى OpenAI فهو استخراج الإطارات ← إرسالها كسلسلة صور. واجهة Claude اعتباراً من مايو 2026 لا تأخذ الفيديو أصلياً — تُطلب الإطارات. راجِع دليل المبتدئين لواجهات الذكاء الاصطناعي.

س4. هل الخصوصية على ما يرام؟

كثيراً ما تحتوي الصور والصوت والفيديو على بيانات حسّاسة. OpenAI وAnthropic وGoogle جميعها تستثني مدخلاتك من التدريب افتراضياً، لكن للاستخدام المؤسّسي اختر خطط Enterprise أو الوصول عبر API (التدريب مُعطَّل افتراضياً). الوجوه والصور الطبّية والوثائق الداخلية — كُن أكثر حذراً. للسرّية الكاملة، فكِّر في نماذج LLM محلّية (Qwen 3.5 Omni مفتوح الأوزان، إلخ).

س5. هل متعدّد الوسائط أغلى من النصّ فقط؟

تُحتسب الصور والفيديوهات بتحويلها إلى توكنات. الصورة الواحدة ≈ بضع مئات إلى ~1000 توكن (بحسب الدقّة والنموذج)؛ والفيديو ثوانٍ × عشرات إلى مئات التوكنات. فيديو بساعة قد يستهلك مئات الآلاف من التوكنات. تقنيات تخفيض الكلفة الواردة في توفير كلفة التوكنات للذكاء الاصطناعي (إرسال المقتطف فقط، التخزين المؤقّت) تنطبق أيضاً على الفيديو.