جدول المحتويات
- 1. تكليف Amazon بـ«استخدام الذكاء الاصطناعي 80% أسبوعياً» — وما تبعه من ضخّ للتوكنات
- 2. لماذا انتشر مفهوم «استهلاك التوكن = حصيلة العمل»
- 3. بيانات صلبة عن الفجوة بين الكمّ والجودة
- 4. ثلاثة تشوّهات تحدث على أرض الواقع
- 5. مقاييس أفضل — AWU وDORA والمقاييس القائمة على النتائج
- 6. خمسة إجراءات للأفراد والمنظمات اعتباراً من اليوم
- الخلاصة
- الأسئلة الشائعة
في مايو 2026، نشرت Tom\'s Hardware تقريراً جاء فيه أن «موظفي Amazon يستخدمون الذكاء الاصطناعي دون داعٍ لتحقيق الحصص الداخلية». فقد وضعت الشركة هدفاً داخلياً مفاده «وجوب أن يستخدم أكثر من 80% من المطوّرين أدوات الذكاء الاصطناعي كل أسبوع»، مع إبراز استهلاك التوكن على لوحة صدارة داخلية. فاستجاب الموظفون بضخّ التوكنات: «تمرير مهام بمستوى نسخ-لصق عبر الذكاء الاصطناعي على أي حال»، و«تقسيم السؤال الواحد إلى عدّة أسئلة»، و«طلب من Claude كتابة شِعر لمجرد حرق التوكنات». وقد جرى توثيق سلوكيات مشابهة في Meta وMicrosoft.
أطلقت Silicon Valley على هذا التوجّه اسماً: «Tokenmaxxing». وهي قاعدة عمل جديدة يُكافأ فيها تعظيم استهلاك التوكن. تتبّع تقريباً كل شركات Fortune 500 استخدام الذكاء الاصطناعي، غير أن قلّة جداً منها تقيس العائد على الاستثمار (بحسب المدير التقني لـ ModelOp). وقد بدأ مقياس «الكمّ المستخدم = الكمّ المُنجَز» يُحرف القرارات التنظيمية باتجاهات سيّئة.
دعوني أكشف عن رأيي مبكراً: «استهلاك التوكن = حصيلة العمل» إعادة تشغيل في عقد 2020 لقياس المطوّرين بـ KLOC (آلاف أسطر الكود) في تسعينيات القرن العشرين. الحجم سهل القياس، لكن الحجم والقيمة شيئان مختلفان. تُظهر دراسة شملت 22000 مطوّر و4000 فريق أن استخدام الذكاء الاصطناعي رفع إنجاز المهام بنسبة 34%، لكن الأخطاء ارتفعت بنسبة 54% وزمن مراجعة طلبات الدمج تضاعف 5 مرات. تتناول هذه المقالة لماذا انتشر هذا المقياس السيّئ، وما الخطأ فيه، وما البدائل المتاحة (AWU من Salesforce، DORA، مقاييس النتائج من AWS)، وخمسة إجراءات عملية يمكن للأفراد والمنظمات اتّخاذها اعتباراً من اليوم — كل ذلك مدعوم ببيانات ميدانية ومصادر أوّلية.
قِسْ «الكمّ» وحده، تنهار الأرض من تحتك
— الحجم +34%، لكن الجودة تنهار: الأخطاء +54% / زمن المراجعة ×5
المصدر: دراسة Faros AI «Tokenmaxxing» (22000 مطوّر × 4000 فريق).
مَن يلاحق الحجم وحده تنهار الأرض من تحت قدميه. الدرس الذي تعلّمناه من KLOC في التسعينيات — يتكرّر الآن بوحدة جديدة.
1. تكليف Amazon بـ«استخدام الذكاء الاصطناعي 80% أسبوعياً» — وما تبعه من ضخّ للتوكنات
في مايو 2026، نشرت Tom\'s Hardware تحقيقاً صحفياً وضع «Tokenmaxxing» على الخارطة. كانت Amazon قد حدّدت هدفاً داخلياً: «وجوب أن يستخدم أكثر من 80% من المطوّرين أدوات الذكاء الاصطناعي كل أسبوع». وعُرض استهلاك التوكن على لوحة صدارة داخلية، وأشار إليه المديرون في تقييمات الأداء.
وماذا فعل الموظفون؟ «تمرير مهمة بمستوى نسخ-لصق عبر الذكاء الاصطناعي على أي حال»، و«تقسيم سؤال واحد إلى عدّة أسئلة»، و«جعل Claude يكتب شِعراً لمجرد حرق التوكنات». ليست هذه سوى استهلاك تشغيل خامل للتوكن بأسماء أخرى. قال موظفو Amazon الذين نقلت عنهم Tom\'s Hardware إن ضغط الحصص كان شديداً، وإنهم كانوا «يُقحمون الذكاء الاصطناعي في عمل كان عدم استخدامه فيه أسرع». وتظهر الأنماط ذاتها في Meta وMicrosoft — فهذه ليست قصّة Amazon وحدها.
لخّصت Trending Topics (الصحافة التقنية الأوروبية) التحوّل بقولها: «مقياس تقني يصير عقيدة لثقافة عمل جديدة». فـ«تأدية استخدام الذكاء الاصطناعي» تصبح محور تقييم بحدّ ذاته. وهذا يحدث في آنٍ واحد عبر شركات Fortune 500 في عام 2026.
2. لماذا انتشر مفهوم «استهلاك التوكن = حصيلة العمل»
إذن، لماذا تتبنّى الشركات الكبرى مثل هذا المقياس الفجّ في المقام الأول؟ ثلاثة أسباب.
السبب ①: استثمار الذكاء الاصطناعي يحتاج إلى تبرير
استثمرت شركات Fortune 500 مليارات الدولارات في الذكاء الاصطناعي خلال السنتين الماضيتين. في كل مرّة يسأل فيها المدير المالي أو مجلس الإدارة «ما عائد هذا الاستثمار؟»، يحتاج المدير التقني إلى رقم. استهلاك التوكن هو أسهل رقم يمكن تقديمه. فالسجلّات من بوّابات API، وسجلات الدردشة الداخلية، واستخدام أدوات البرمجة — كلها تتجمّع تلقائياً. وغدت قراءة «كمّ المستخدم» على أنه «كمّ القيمة المُنشَأة» المسارَ الأقلّ مقاومةً للشرح.
السبب ②: استخراج المعارضين للذكاء الاصطناعي من الظلّ
في كل منظمة موظفون متشكّكون من الذكاء الاصطناعي: مخاوف الخصوصية، أو الجودة، أو مجرّد عزوف عن تعلّم أدوات جديدة. تريد الإدارة فرض استخدام الذكاء الاصطناعي، لكن الأوامر وحدها لا تحرّك الناس. ويصبح إبراز استهلاك التوكن أداةً لتحديد «الأشخاص الذين لا يستخدمون الذكاء الاصطناعي». وهدف Amazon البالغ 80% مبنيّ تحديداً لهذا الغرض.
السبب ③: الطلب على مقياس سلميّ مفرد قابل للمقارنة
المقاييس النوعية مثل «الجودة» أو «النتائج» أو «نظافة الكود» لا تُقارَن بسهولة. أمّا «الشخص أ استخدم مليون توكن هذا الشهر، والشخص ب استخدم 500 ألف» — فقيمة سلمية واحدة تُقرأ وكأن أ أنجز أكثر بوضوح. المقارنة السهلة تجلب القرارات الكسولة. وهذا مطابق هيكلياً لفشل KLOC (آلاف أسطر الكود) في تسعينيات القرن العشرين.
3. بيانات صلبة عن الفجوة بين الكمّ والجودة
لو كانت معادلة «الكمّ المستخدم = العمل المُنجَز» صحيحة، لكان مقياس التوكن سليماً. فماذا يُظهر الواقع؟ دراسة Faros AI 2026 — 22000 مطوّر عبر 4000 فريق — نشرت أرقاماً تستبعد ذلك بشكل حاسم.
ما الذي يرفعه استخدام الذكاء الاصطناعي — وما الذي يكسره
- المهام المُنجَزة: +34%
- الـ Epics المُنجَزة: +66%
- الأسطر المُضافة من الكود: ارتفاع حادّ
- عدد طلبات الدمج: ارتفاع واضح
- عدد الأخطاء: +54%
- زمن مراجعة طلبات الدمج: ×5
- معدّل إعادة العمل: ارتفاع
- حوادث الإنتاج: اتجاه صاعد
«حجم المخرجات يرتفع، لكن الجودة وقابلية الصيانة تتلقّيان الضربة».
هذا هو الواقع الميداني. مقاييس استهلاك التوكن لا تنظر إلا إلى نصف الصورة.
عبارة «الذكاء الاصطناعي يجعل التطوير أسرع» ليست خاطئة بحدّ ذاتها. فالمهام +34%، والـ Epics +66% — أرقام حقيقية تُظهر قيمة حقيقية. المشكلة فيما تُظهره مجموعة البيانات نفسها عن الكُلفة. الأخطاء +54%، وزمن المراجعة ×5 — لا يستطيع المراجعون البشر مواكبة الكود المُولَّد بالذكاء الاصطناعي، فتتسرّب العيوب إلى مراحل لاحقة. ويحذّر بعض الباحثين من أن مكاسب الإنتاجية قصيرة المدى قد تُمحى بنموّ الدَّيْن التقني على المدى البعيد.
4. ثلاثة تشوّهات تحدث على أرض الواقع
يكفي تنظيراً. ما الذي يحدث فعلاً على أرض الواقع؟ ثلاثة أنماط قابلة للرصد.
التشوّه ①: ضخّ التوكنات
الأكثر شيوعاً. استدعاء الذكاء الاصطناعي لمجرّد «الظهور بمظهر مَن يستخدمه». سلوكيات Amazon: «تمرير مهام نسخ-لصق عبر الذكاء الاصطناعي»، و«تقسيم السؤال الواحد إلى عدّة أسئلة»، و«الدردشة مع الذكاء الاصطناعي حول مواضيع غير ذات صلة». زيادة كُلفة محضة، بلا قيمة. والمقياس أصبح الآن يُدهور بصورة فعّالة عائد الاستثمار من الذكاء الاصطناعي — الشيء نفسه الذي وُضع لقياسه.
التشوّه ②: السرعة على حساب الجوهر
إذا كانت القاعدة هي «الكتابة أكثر تأتيك بتقييمات أفضل»، يستجيب الناس وفقاً لذلك. مراجعة أخفّ ودمج أسرع، وتخطّي الاختبارات، وتأجيل إعادة الهيكلة — كلها تصرفات منطقية لرفع المخرجات على المدى القصير. ونتيجة Faros «الأخطاء +54%» هي الحصيلة المتوقّعة.
التشوّه ③: الانحراف نحو المهام «الصديقة للذكاء الاصطناعي»
تشوّه أكثر دقّة. ينتقل العمل بعيداً عن المشكلات الصعبة المهمّة (التصميم، وتنظيف الدَّيْن التقني، والبحث العميق) نحو الأعمال الروتينية التي يجيدها الذكاء الاصطناعي (كود CRUD، توليد الوثائق، هياكل الاختبارات). لا يمضي قُدُماً سوى العمل القابل للقياس. هذا نموذج مكتمل لقانون Goodhart (حين يصير المقياس هدفاً، يفقد جودته بوصفه مقياساً).
5. مقاييس أفضل — AWU وDORA والمقاييس القائمة على النتائج
إن لم تكن التوكنات هي الجواب، فما الذي ينبغي قياسه؟ ثلاثة بدائل من طراز 2026.
قِسْ أثر الذكاء الاصطناعي بما هو أبعد من التوكنات
ما تشترك فيه: قِسْ «ما خرج»، لا «ما استُهلك».
أصعب في الالتقاط، لكن أيّاً منها سيُفضي إلى قرارات أفضل من استهلاك التوكن وحده.
رأيي الشخصي: DORA هو الأكثر عمليّةً. خمس عشرة سنة من الاستخدام التشغيلي، وكمّ وافر من بيانات المعيارة، ومن غير المرجّح أن يتشوّه في عصر الذكاء الاصطناعي. وAWU من Salesforce طموح لكنه لم يصر معياراً صناعياً بعد. إذا أردت ما يمكنك قياسه غداً، ابدأ بـ DORA.
6. خمسة إجراءات للأفراد والمنظمات اعتباراً من اليوم
النظرية حُسمت. فما الذي يمكنك فعله صباح الغد فعلاً؟ مقسّماً حسب الدور.
للمطوّرين الأفراد
- ① لا تجعل استهلاك التوكن مقياسك الخاص: حتى إن كان مديرك يراقب، قيّم نفسك بـما أنجزت. إن كانت المهمة أسرع بدون الذكاء الاصطناعي، فلا تُقحم الذكاء الاصطناعي فيها
- ② خصّص وقتاً للمراجعة: افترض أن الكود المُولَّد بالذكاء الاصطناعي يستلزم «وقت قراءة ≥ وقت كتابة». خصّص الوقت لتقرأ طلب الدمج الخاص بك كاملاً قبل دفعه للمراجعة
- ③ ادمج مع توفير التوكن: تخزين موجّهات مؤقّت (prompt caching)، وBatch API، وتعليمات مُختصرة — «نتيجة عالية باستهلاك توكن منخفض» هي المهارة الحقيقية
للإدارة
- ④ استخدم استهلاك التوكن إشارةَ مشتريات فقط: لا تجعله أبداً تقييماً فردياً. تتبّعه على مستوى المنظمة للتأكّد من أن استثمار الذكاء الاصطناعي يُستخدم أصلاً، لا أكثر
- ⑤ انتقل إلى مقاييس DORA: وتيرة النشر، ومعدّل فشل التغييرات، وMTTR بإيقاع ربع سنوي. قارن ما قبل تبنّي الذكاء الاصطناعي وما بعده لترى هل المكاسب حقيقية أم مجرّد ضخّ للتوكنات
الخلاصة
استعراض:
- 2026: رُصِد «Tokenmaxxing» (ضخّ التوكنات لتضخيم المقاييس) في Amazon وMeta وMicrosoft — وصار اليوم مصطلحاً صناعياً
- دراسة Faros AI لـ 22000 مطوّر: استخدام الذكاء الاصطناعي يرفع إنجاز المهام بنسبة 34% لكن الأخطاء +54%، وزمن المراجعة ×5. الكمّ والجودة يفترقان
- «استهلاك التوكن = حصيلة العمل» هو إعادة تشغيل عقد 2020 لتقييم KLOC في التسعينيات. وقانون Goodhart يجعل التشوّه حتمياً
- ثلاثة تشوّهات ميدانية: ضخّ التوكنات / السرعة على حساب الجوهر / الانحراف نحو المهام الصديقة للذكاء الاصطناعي
- البدائل: AWU من Salesforce / DORA الأربعة / مؤشّرات نتائج AWS. وDORA هو الأكثر عملية اليوم
- للفرد: قيّم نفسك بما أُنجِز. للمنظمة: انتقل بالتقييم إلى DORA، وأفصح عن استهلاك التوكن بوصفه بيانات على مستوى النشاط فقط
في 2026، ومع الذكاء الاصطناعي داخل المنظمات، يصير إغراء قياس الحجم أقوى من أيّ وقت مضى. فسجلات API تمنحك أعداد التوكنات مجاناً — ولهذا تحديداً، يكون فخّ قراءة تلك الأعداد بوصفها «حصيلة عمل» عميقاً إلى هذا الحدّ. الدرس الذي تعلّمناه من KLOC قبل ثلاثين عاماً لا ينبغي أن يتكرّر بوحدة جديدة اسمها «التوكنات». هذا هو الجزء الأول من الذكاء التنظيمي المطلوب في عصر الذكاء الاصطناعي.
الأسئلة الشائعة
نعم، بصرف النظر عن الحجم. بل إن الشركات الأصغر تواجه ضغطاً أكبر لـ«التقييم بما هو قابل للقياس»، فيلجأ القادة إلى أسهل مقياس. وحتى الشركات الناشئة تضع قواعد داخلية مثل «هدف 100% لاستخدام الذكاء الاصطناعي». الفخّ نفسه.
«جرّب هذا وأخبرني برأيك» يتفوّق على «استخدمه» على المدى البعيد. أمّا حصص التوكن، فهي تُولّد أرقاماً على المدى القصير لكنها تُحوّل المعارضين إلى أشخاص يستخدمونه استعراضاً. والتبنّي الحقيقي يستلزم استثماراً في الأمان النفسي والتدريب — وهي قاعدة أساسية لإطلاق التقنيات الجديدة، ليست خاصّة بالذكاء الاصطناعي.
أكثر حتى. مخرجات المبيعات والتسويق نوعية ويصعب قياسها، فيتشبّث القادة بمقاييس سطحية مثل «عدد المقترحات المسوّدة بالذكاء الاصطناعي» أو «عدد استعلامات ChatGPT التي أُطلِقت». ما ينبغي قياسه بدلاً من ذلك: معدّل الإغلاق، رضا العملاء، مدّة التسليم — مقاييس النتائج التي كانت موجودة قبل الذكاء الاصطناعي.
الأدوات المجانية تفي بالغرض. GitHub Insights، Jellyfish، LinearB، Faros AI. ولدى Google موقع رسمي dora.dev يحتوي على معايير مرجعية وشروحات. والتجميع اليدوي يفي بالغرض في البداية — مجرّد المقارنة ربع سنوية يكشف ما إذا كان الذكاء الاصطناعي يُنتج قيمة حقيقية.
ليس خاطئاً تماماً. فبوصفه مؤشّراً ماكرو على نشاط الذكاء الاصطناعي العام في المنظمة، إنه مفيد. «عدم الاستخدام» إشارة حقيقية. والمشكلة هي استخدامه للتقييم الفردي، أو الـ KPI، أو الحصص. مقبول بوصفه ملاحظةً ماكرو، وغير مقبول بوصفه تقييماً ميكرو فردياً — احفظ بينهما فاصلاً.