يُقدَّر أن GPT-4، الذي صدر في 2023، دُرِّب بتشغيل نحو 25,000 وحدة GPU على Microsoft Azure طوال أشهر. وبلغ الحجم الحوسبي المسكوب في تلك الجولة التدريبية الواحدة قرابة 2×10²⁵ عملية فاصلة عائمة (FLOPs). وحتى تدريب الجيل الأقدم GPT-3 وحده استهلك نحو 1,287 MWh من الكهرباء — أي أكثر من قيمة قرن كامل من استهلاك أسرة متوسطة من الطاقة، أُنفق لبناء نموذج واحد فقط. وراء عبارة عابرة نكتبها مثل «لخّص لي هذا» يكمن عالم من الفيزياء وأكوام من المال.

يتعمّق هذا المقال في «كيف يعمل نموذج LLM (نموذج اللغة الكبير) فعليًا» من ثلاثة اتجاهات: الآلية، والطاقة، والمال. وعلى وجه التحديد — (1) لماذا يستطيع نموذج LLM إنتاج اللغة من مجموعة من مفاتيح الضبط تُسمى «الأوزان (المعاملات)»، (2) وكم من الكهرباء يستهلكه سؤال واحد أو جولة تدريب واحدة، (3) وهل الادعاء بأن «تطوير نماذج LLM المتطورة معركة أموال» صحيح؟ الجواب المختصر عن النقطة الثالثة: «بالنسبة للقمة المطلقة، هو صحيح في جوهره — لكن تيارًا معاكسًا مفاده أن (المال وحده لا يكفي للفوز) قد اشتدّ في 2026.» هذه هي الصورة الدقيقة.

موقفي مقدمًا: «ذكاء» نموذج LLM ليس سحرًا ولا وعيًا — بل هو نتيجة صقل آلة عملاقة للتنبؤ الاحتمالي بالكهرباء. إن فهم الآلية يُذيب كلًّا من المبالغة في الحماس والمبالغة في الخوف. يدخل هذا المقال في عمق المستوى المتوسط. إذا كنت تبدأ من «ما هو نموذج LLM أصلًا»، فاقرأ أولًا ما هو نموذج LLM (تمهيد)؛ ولفهم طول السياق راجع نافذة السياق؛ وللتسعير راجع واجهة AI API للمبتدئين.

كيف تعمل نماذج LLM · الأوزان × الطاقة × المال

تشريح نموذج LLM من ثلاثة اتجاهات

— مِمَّ يتكوّن الذكاء، والطاقة التي يحرقها، والمال الذي يكلّفه

الآلية
الأوزان تتنبأ بالكلمة التالية
مئات المليارات إلى أكثر من تريليون مفتاح ضبط تحسب احتمالات فحسب
الطاقة
سؤال واحد ≈ 0.4–33 Wh
جولة تدريب واحدة = طاقة أكثر من 100 سنة-أسرة
المال
200–500 مليون دولار عند القمة
بحلول 2027، يُتوقَّع جولات تدريب بقيمة 1–3 مليار دولار

ذكاء نموذج LLM ليس سحرًا. إنه نتيجة صقل آلة احتمالات عملاقة بالطاقة والمال.
اعرف الآلية، ويتلاشى كلٌّ من الحماس المفرط والخوف المفرط.

1. نموذج LLM لا يفعل سوى تخمين «الكلمة التالية» باستمرار

قد يبدو الأمر مفاجئًا، لكن ChatGPT وClaude وGemini جميعها تفعل في الأساس شيئًا واحدًا. «بالنظر إلى النص حتى الآن، يحسب احتمال الكلمة التالية الأرجح (وبدقة أكبر، (الرمز/token)) كاستمرار، ويختار واحدة، ويصُفّها تباعًا.» هذا كل شيء. أعطِه «القطة على الـ___» فيُسنِد احتمالات لمرشحين مثل «حصيرة» و«أريكة» و«أرضية» ويُخرج الأعلى احتمالًا (أو واحدًا يُنتقى بحسب الاحتمال). ويكرّر ذلك رمزًا واحدًا تلو الآخر حتى ينتهي النص.

وها هو السؤال الذي يُربك كثيرين. «كيف يستطيع مجرد لعبة تخمين كلمات أن يلخّص أبحاثًا أو يكتب شيفرة؟» الجواب: «لكي يخمّن الكلمة التالية بدقة حقيقية، لا خيار له سوى أن (يفهم) بنية العالم إلى حدٍّ ما.» فتخمين «عاصمة اليابان هي ___» يتطلّب جغرافيا؛ و«3 + 5 = ___» يتطلّب حسابًا؛ و«سبب هذا الخلل هو ___» يتطلّب معرفة برمجية مخزّنة داخليًا. وكناتج عرضي لتدريب (تخمين الكلمة التالية) إلى أقصى حدّ على نصوص هائلة، تنبثق المعرفة والاستدلال. هذه هي الطبيعة الغريبة والجوهرية لنماذج LLM.

فما الذي يحسب ذلك «احتمال الكلمة التالية»؟ كما لُمِّح، البطل الرئيسي كومة مذهلة من الأرقام تُسمى «الأوزان (المعاملات).» يكشف الفصل التالي ماهيتها.

2. ما هي «الأوزان»؟ — تريليون مفتاح ضبط تصنع الذكاء

لوضع داخل نموذج LLM في تشبيه واحد: «جهاز حوسبة عملاق فيه مئات المليارات إلى أكثر من تريليون (مفتاح ضبط).» كل مفتاح هو «وزن (معامل)»، وعند مرور إشارة كلمة الإدخال إلى الطبقة التالية، يقرّر «أيّ الإشارات يقوّيها أو يُضعفها، وبأي مقدار.» كان لدى GPT-3 نحو 175 مليار؛ ويُقال إن أحدث النماذج المتطورة تتجاوز تريليونًا. وضبط هذه المفاتيح الهائلة هو بالضبط ما يمثّل «معرفة» النموذج المكتسبة.

الأوزان

كيف تتحوّل «الأوزان» إلى لغة

① التقطيع إلى رموز
تقسيم النص إلى أجزاء كلمات (رموز/tokens) وتحويلها إلى متجهات عددية
② المرور عبر الأوزان
عشرات من طبقات Transformer تحوّل الإشارات بضرب الأوزان
③ الانتباه (Attention)
الأوزان تحكم على أيّ كلمات الجملة ينبغي التركيز عليها
④ إخراج الاحتمالات
حساب توزيع احتمالات الرمز التالي واختيار واحد

«التعلّم» هو عمل إدارة هذه المفاتيح التريليونية شيئًا فشيئًا نحو الجواب الصحيح.
الضبط النهائي للمفاتيح (الأوزان) = «معرفة» النموذج ذاتها.

إن Transformer، الذي ظهر في 2017، هو أساس نماذج LLM الحديثة. وقلبه هو آلية «الانتباه» (Attention)، التي تحكم ديناميكيًا بالأوزان على «أيّ كلمة في الجملة تهمّ الكلمة الحالية.» وكون «الضفة/البنك» في جملة «رأى النهر أمام الـ(bank)» يعني مؤسسة مالية أم ضفة نهر يتقرّر بترجيح علاقتها بسائر الكلمات في السياق — وهذا «الترجيح المعتمد على السياق» هو بالضبط سبب قدرة نموذج LLM على إعادة ردود متماسكة حتى على مقاطع طويلة. وحين يقول الناس «شيء ما متعلّق بالترجيح»، فإنهم يعنون تحديدًا هذا الانتباه والتريليونات من عمليات الضرب خلفه.

النقطة الحاسمة: هذه الأوزان لم تُضبَط يدويًا. فهي في البداية كتلة من أرقام عشوائية بلا معنى. والمعنى يُغرَس عبر «التعلّم». فكيف يحدث ذلك التعلّم؟

3. مرحلتا التعلّم — التدريب المسبق والتدريب اللاحق (RLHF)

ينقسم تعلّم نموذج LLM عمومًا إلى مرحلتين — وهي العملية التي تتحوّل بها «المفاتيح العشوائية» في الفصل السابق إلى «مفاتيح ذكية».

المرحلة 1: التدريب المسبق. أطعِمه نصًا بحجم الإنترنت (كتب، الويب، شيفرة) واجعله «يخمّن الكلمة التالية» بلا هوادة. وفي كل مرة يخطئ، تُعدَّل جميع المعاملات بمقدار ضئيل في الاتجاه الذي يُقلّص الخطأ (خوارزمية التعديل هذه هي «الانتشار العكسي + النزول الاشتقاقي» الشهيرة). كرّر هذا عبر تريليونات الرموز، فتُنقَش أسس النحو والمعرفة والاستدلال في المفاتيح. يلتهم التدريب المسبق معظم الحوسبة ومعظم الطاقة ومعظم المال. فالـ ~2×10²⁵ FLOPs الفلكية لنموذج من فئة GPT-4 تُحرَق هنا.

المرحلة 2: التدريب اللاحق. النموذج المدرّب مسبقًا فقط «واسع المعرفة لكنه سيّئ الأدب». لذا فإن RLHF (التعلّم المعزّز من التغذية الراجعة البشرية) وما شابهه يُعلّمه «طرق إجابة مفيدة وآمنة». وعلاوة على ذلك، ومنذ 2025 فصاعدًا، تصاعد ثقل التدريب اللاحق الذي يدرّب على الاستدلال الطويل (التفكير بعناية) واستخدام الأدوات والسلوك الوكيلي، إلى درجة أن التدريب اللاحق صار يستحوذ — لعائلات Claude وGPT وGemini — على نحو 15–25% من إجمالي الحوسبة. وسبب «تفكير» النماذج الحديثة كثيرًا قبل الإجابة هو تطوّر هذا التدريب اللاحق. كما يُغرَس هنا سلوك تعدّد الوكلاء.

4. الاستدلال — اللحظة التي يتحوّل فيها سؤالك إلى كهرباء

إذا كان التدريب هو «أعمال البناء لضبط المفاتيح»، فإن الاستدلال هو «عملية إنتاج الإجابات فعليًا باستخدام المفاتيح الجاهزة». ففي كل مرة تكتب فيها سؤالًا في ChatGPT، تجري تريليونات عمليات الضرب عبر قرابة تريليون مفتاح، وتُولَّد الرموز واحدًا تلو الآخر. لقد رأينا كم التدريب ثقيل — لكن على مستوى المجتمع ككل، الاستدلال لا التدريب هو ما يلتهم الطاقة.

السبب بسيط: التدريب يجري مرة واحدة لكل نموذج في الأساس، لكن الاستدلال يجري مئات الملايين من المرات يوميًا حول العالم. ووفق بعض التقديرات، يستحوذ الاستدلال على 80–90% من كل حوسبة الذكاء الاصطناعي، ويُتوقَّع بحلول 2030 أن يكون 75% من الطلب على طاقة الذكاء الاصطناعي استدلالًا. «سؤال واحد لا يكاد يستهلك كهرباء» — صحيح، فالواحد ضئيل. لكن «ضئيل × مئات الملايين × كل يوم» يتراكم إلى مشكلة طاقة بحجم أمّة. لننظر في أرقام ملموسة تاليًا.

5. الطاقة — كم من الكهرباء يلتهم نموذج LLM؟

كثيرًا ما يُقال إن «الذكاء الاصطناعي يلتهم الطاقة»، لكن كم بالضبط؟ إليك الأرقام التمثيلية المنشورة حتى 2026.

الكهرباء

استهلاك نموذج LLM للطاقة بالأرقام

سؤال واحد (قصير)
0.43Wh
من فئة GPT-4o
سؤال قصير واحد
استدلال ثقيل واحد
33Wh+
نموذج طويل التفكير
نحو 70 ضعف النسخة الخفيفة
تدريب GPT-3
1,287MWh
أكثر من 550 طن CO2
(جيل قديم)
طاقة مراكز البيانات عالميًا
415→945
TWh
توقّع 2024→2030

حتى سؤال قصير واحد (0.43Wh)، إذا قيس على 700 مليون/يوم، يعادل طاقة نحو 35,000 أسرة أمريكية.
رفّ واحد في مركز بيانات يسحب حتى 10 أضعاف المعيار القديم؛ ومركز بيانات مخصّص للذكاء الاصطناعي يلتهم 20MW–1GW.

ما يلفت النظر هو أن «كفاءة الطاقة تختلف بمراتب من حيث المقدار بين النماذج». فسؤال قصير لنموذج خفيف الوزن أقلّ من 0.5 Wh، لكن إلقاء سؤال ثقيل على نموذج استدلال طويل التفكير (النوع الذي يتأمّل قبل الإجابة) يستهلك 33 Wh+ — نحو 70 ضعف النسخة الخفيفة. وكما أُشير في فخّ اعتبار استهلاك الرموز عبئًا للعمل، فإن «افعل كل شيء على النموذج الأعلى» ترف في الطاقة والتكلفة معًا. فإرسال المهام الخفيفة إلى نموذج خفيف لطيف على الكوكب وعلى محفظتك. وبلغت طاقة مراكز البيانات عالميًا 415 TWh في 2024 (نحو 1.5% من إجمالي العالم) ويُتوقَّع أن تتضاعف إلى 945 TWh بحلول 2030 — مع كون الذكاء الاصطناعي المحرّك الرئيسي لذلك النمو.

6. هل «التطوير معركة أموال» صحيح؟

وها هو السؤال الذي شغلك أكثر من غيره. «هل تطوير نماذج LLM المتطورة معركة أموال؟» الاستنتاج المُتحقَّق منه أولًا: «محصورًا في التدريب المسبق للقمة، هو صحيح في جوهره.» والأرقام تدعمه.

معركة المال

مسار تكلفة التدريب عند القمة

GPT-3 (2020)
~ 3×10²³ FLOPs. خارج المألوف في زمنه
GPT-4 (2023)
~ 2×10²⁵ FLOPs. نحو 25,000 وحدة GPU
قمة 2026
10²⁶–10²⁷ FLOPs / 200–500 مليون دولار
توقّع 2027
جولة واحدة تبلغ 1–3 مليار دولار

ظلّ حجم حوسبة التدريب عند القمة ينمو بمعدل 4–10 أضعاف سنويًا.
جولة تدريب واحدة من فئة GPT-5 / Gemini Ultra = 200–500 مليون دولار — معركة أموال بحقّ.

وبشكل ملموس، يُقدَّر تدريب نموذج واحد من فئة GPT-5 / Gemini Ultra مرة واحدة بـ 200–500 مليون دولار، وتضع بعض التوقّعات قمة أواخر 2027 عند 1–3 مليار دولار للجولة الواحدة. وهذه «جولة ناجحة واحدة» — وخلفها تقبع محاولات وأخطاء فاشلة، وإعداد بيانات، ورواتب، وبنية تحتية للاستدلال. وفوق ذلك، تكلّف كل وحدة GPU آلاف الدولارات؛ وتشغيل عشرات الآلاف منها طوال أشهر يُراكم فاتورة الكهرباء. جدار من المال لا يستطيع «فكرة لامعة» أو «خوارزمية بارعة» وحدها أن تتجاوزه أبدًا يقف عند مدخل القمة. وبهذا المعنى، «معركة المال» ليست مبالغة — بل حقيقة. ولذلك لا يستطيع القتال في المقدمة المطلقة سوى حفنة ممّن أمّنوا رأس مال هائلًا — OpenAI وGoogle وAnthropic وMeta وxAI.

7. لكن المال وحده لا يحسم — التيار المعاكس للكفاءة

قال الفصل السابق إن «معركة المال حقيقية». لكن إنهاء القصة عند ذلك يسيء قراءة واقع 2026. فليس صحيحًا بحال أنه «بما يكفي من المال تفوز» — بل إن تيارًا معاكسًا قد اشتدّ إن كان من شيء. وكجواب أمين، دعني أكتب هذا الوجه الآخر أيضًا.

الحالة الرمزية هي سلسلة التحرّكات حيث أطلقت DeepSeek الصينية نماذج تقترب من القمة بميزانية صغيرة نسبيًا، وقيل إنها «أعادت ضبط أرضية التكلفة». فقد بُرهنت تباعًا تقنيات لبناء الأداء نفسه أرخص بمراتب من حيث المقدار — بنى كفؤة، وخليط الخبراء (MoE)، والتقطير (نقل معرفة نموذج كبير إلى صغير)، والعمل الدؤوب على جودة البيانات — مدقّةً إسفينًا في معادلة «رأس المال الضخم = النصر». وفي الواقع، يُتوقَّع أن يتباطأ نمو حوسبة القمة من 10 أضعاف سنويًا إلى نحو 3–4 أضعاف من 2026 فصاعدًا، ويتحوّل اهتمام الصناعة من «فقط اذهب أكبر» إلى «كيف نقدّم الأداء نفسه أرخص وبطاقة أقل».

فالصورة الدقيقة هي هذه: «سباق تحديث (الأداء الذروي) للقمة معركة أموال. لكن سباق تقديم (أداء جيد بما يكفي) رخيصًا منافسة عقول وكفاءة.» ومعظم النماذج التي نستخدمها يوميًا تستفيد من الأخيرة، فتصبح أرخص وأسرع وأكفأ في الطاقة عامًا بعد عام. وكما كُتب في إلى أيّ مدى يمكنك المضي على الباقة المجانية، بحلول 2026 بلغت حتى الباقات المجانية مستوى عمليًا — ثمرة سلّمها التيار المعاكس للكفاءة إلى المستخدمين.

8. ماذا بعد — جدار «الطاقة والفيزياء» بعد المال

فهل يمكنك التوسّع إلى الأبد بمجرد تكديس المال؟ كلّا — وذلك هو الجدار الجديد الذي بدأ يظهر في 2026. فوق نحو 10²⁷ FLOPs، يتوقّف العائق عن كونه «الميزانية اللازمة لشراء وحدات GPU». بل إن ما يسدّ الطريق هو —

  • الطاقة: هل تستطيع تزويد كهرباء بحجم الغيغاوات باستمرار في مكان واحد؟ مشكلة محطات طاقة وشبكات الآن
  • الربط البيني: عرض النطاق اللازم لمزامنة عشرات إلى مئات الآلاف من وحدات GPU دون تأخّر. هناك سقف فيزيائي لما تستطيع جولة تدريب عملاقة واحدة احتماله
  • البيانات: نصوص التدريب عالية الجودة تجفّ بحدّ ذاتها (هناك حدّ لكمّ الكتابة الجيدة التي أنتجتها البشرية)

ما يأتي بعد «معركة المال» هو «معركة طاقة وفيزياء وعقول». ولذلك تتحوّل الشركات الآن نحو الاستثمار في الطاقة النووية، وتطوير شرائح مخصّصة خاصة بها، والاستفادة من البيانات الاصطناعية، والبحث في البنى الكفؤة. والعصر الذي كان بإمكانك الفوز فيه بإلقاء المال يتحوّل، من باب المفارقة، إلى عصر لا تستطيع فيه الفوز بالمال وحده.

الخلاصة

الطبيعة الحقيقية لنموذج LLM هي «جهاز تنبؤ عملاق تظلّ فيه مئات المليارات إلى أكثر من تريليون (وزن) تحسب احتمال الكلمة التالية». ويتولّى انتباه Transformer «الترجيح المعتمد على السياق»، فيما يجعل التدريب المسبق (الذي يلتهم معظم الحوسبة والطاقة والمال) إضافةً إلى التدريب اللاحق (RLHF، تدريب الاستدلال) المفاتيح ذكية. والذكاء ليس سحرًا — بل ناتج عرضي لتدريب «تخمين الكلمة التالية» إلى أقصى حدّ على نصوص هائلة.

عن الطاقة: سؤال قصير واحد ≈ 0.43 Wh، واستدلال ثقيل 33 Wh+ (نحو 70 ضعف النسخة الخفيفة)، وتدريب GPT-3 وحده 1,287 MWh. وعلى مستوى المجتمع، يستحوذ الاستدلال على 80–90% من الطاقة، ويُتوقَّع أن تتضاعف طاقة مراكز البيانات عالميًا إلى 945 TWh بحلول 2030. و«افعل كل شيء على النموذج الأعلى» ترف في الطاقة والتكلفة معًا؛ والحركة الذكية هي اختيار النموذج بحسب ثقل المهمة.

والسؤال الجوهري — «هل تطوير نماذج LLM معركة أموال؟» الجواب «صحيح في جوهره، محصورًا في التدريب المسبق للقمة» (200–500 مليون دولار للجولة من فئة GPT-5؛ ويُتوقَّع 1–3 مليار دولار لعام 2027). لكن تيار «المال وحده لا يحسم» المعاكس قوي أيضًا (إعادة ضبط الأرضية من DeepSeek، الكفاءة، التقطير). فتحديث الأداء الذروي معركة مال؛ وتقديم الأداء العملي رخيصًا معركة عقول — وهذه البنية ذات الطبقتين هي واقع 2026. ثم يأتي بعد ذلك الجدار الفيزيائي للطاقة والربط البيني وندرة البيانات. وفهم نموذج LLM لا بوصفه «صندوقًا سحريًا» بل «آلة احتمالات تعمل بالكهرباء» يقيك من الانجراف مع الحماس أو الخوف. ولمزيد من التعلّم، راجع ما هو نموذج LLM (تمهيد)، ونافذة السياق، ومقارنة الباقات المجانية.

الأسئلة الشائعة

س. هل المزيد من المعاملات (الأوزان) أذكى دائمًا؟
ج. «الأكبر كان أذكى» صدق ذات يوم على نحو شبه شامل، لكن في 2026 ليس الأمر بهذه البساطة. فحتى عند العدد نفسه من المعاملات، يتفاوت الأداء كثيرًا بحسب جودة البيانات والتدريب اللاحق وبراعة البنية. وقد تكاثرت النماذج الصغيرة-لكن-الذكية (ثمار التقطير والتصميم الكفؤ)، ولم تعد معادلة «عدد المعاملات = الذكاء» قائمة. لقد دخلنا عصر «كيف دُرِّب» فوق «كم عدده».

س. هل «يفهم» نموذج LLM حقًا، أم أنه حفظ صمّ؟
ج. حتى الخبراء يختلفون — إنه سؤال صعب. والمؤكّد أنه «يُبدي تعميمًا لا يستطيع الحفظ الصمّ تفسيره» (فهو يحلّ مسائل ليست في تدريبه). وأمّا كون ذلك «الفهم المعنوي نفسه عند البشر» فمسألة منفصلة لا جواب واضح لها. وعمليًا، عامِله بوصفه «جهاز تنبؤ بالغ التطوّر يتصرّف كأنه يفهم». ولهذا بالضبط يخطئ بثقة بالغة (الهلوسة).

س. هل أستطيع بناء نموذج LLM خاص بي؟
ج. «فئة القمة» مستحيلة على فرد (تحتاج مئات الملايين من الدولارات وعشرات الآلاف من وحدات GPU). لكن تدريب نموذج صغير، أو الضبط الدقيق لنموذج مفتوح موجود، ممكن حتى للأفراد. وعلاوة على ذلك، تُلبَّى معظم الاحتياجات العملية باستخدام النماذج الموجودة عبر واجهة API. ولا حاجة تقريبًا إلى «بناء كل شيء بنفسك».

س. هل استهلاك الذكاء الاصطناعي للطاقة مشكلة خطيرة للكوكب؟
ج. حقيقة أن الحجم يصبح غير قابل للتجاهل (طاقة مراكز البيانات نحو 1.5% من العالم، ويُتوقَّع أن تتضاعف بحلول 2030). لكن الكفاءة تتقدّم بشراسة بالتوازي؛ و«الطاقة لكل رمز» تنخفض عامًا بعد عام. والمشكلة أقلّ في «كفاءة سؤال واحد» منها في «النمو الانفجاري للحجم الكلّي × التكرار». وكم تستطيع الطاقات المتجدّدة والنووية والشرائح المخصّصة أن تعوّض ذلك هو محور المستقبل.

س. في النهاية، ما الجدير بمعرفته بوصفك مستخدمًا؟
ج. ثلاثة أمور. (1) النموذج «متنبّئ احتمالي»، فهو يخطئ حتى بنبرة واثقة (تحقّق من المعلومات المهمة). (2) الأسئلة الثقيلة مكلفة في الطاقة والمال، فاختر النموذج بحسب ثقل المهمة (المهام الخفيفة للنماذج الخفيفة). (3) «الأداء الذروي» معركة أموال، لكن «الأداء العملي» يصبح أرخص وأكفأ في الطاقة كل عام (انتظار تطوّر النماذج المجانية/الرخيصة حركة ذكية أيضًا). وكلّما عرفت الآلية أكثر، استطعت استخدام الذكاء الاصطناعي بثمن أرخص وبراعة أكبر.