ما هو التكميم (Quantization)؟ تقليص نماذج الذكاء الاصطناعي بشرح مبسط

ما هو التكميم (Quantization)؟ تقليص نماذج الذكاء الاصطناعي لتشغيلها على جهازك

المحتويات

1. ما هو التكميم (Quantization)؟ مثل ضغط الصورة
2. كم يصبح أخف؟ (أرقام الذاكرة)
3. كم تنخفض الدقة؟
4. الطرق الرئيسية: GPTQ / AWQ / GGUF / QLoRA
5. مقابل التقطير والضبط الدقيق
6. كيف تبدأ وكيف تختار عدد البتات
الخلاصة
الأسئلة الشائعة

«نموذج ضخم بحجم 70B (70 مليار وسيط) يعمل على جهاز ألعاب منزلي واحد، لا على رفّ من بطاقات GPU في مركز بيانات.» ما يجعل هذا ممكناً هو التكميم (quantization) — تقنية تخفض الدقة العددية لأوزان النموذج لتقليص حجمه واحتياجاته من الذاكرة بشكل كبير.

بينما كان تقطير النماذج في المرة السابقة «ينقل المعرفة إلى نموذج أصغر منفصل»، فإن التكميم «يجعل النموذج نفسه أخف». يشرح هذا المقال الفكرة عبر تشبيه ضغط الصور، ويغطي مقدار التخفيف (أرقام الذاكرة)، ومقايضة الدقة، والطرق الرئيسية (GPTQ / AWQ / GGUF / QLoRA)، وكيفية تشغيله محلياً — وكل ذلك للمبتدئين.

التكميم · التخفيف بخفض الدقة

اخفض عدد البتات، وتنخفض VRAM بحدة

— مثال: الذاكرة اللازمة لنموذج 70B

FP16

~140GB

INT8

~70GB

INT4

~35GB

ذاكرة أقل بنحو ~4x عند 4-bit يعمل على GPU استهلاكي انخفاض طفيف في الدقة

* تقديرات الذاكرة والأرقام في هذا المقال مقتبسة من مواد منشورة (حتى يونيو 2026). تختلف الاحتياجات الفعلية حسب النموذج والصيغة وطول السياق، فاقرأها كاتجاه عام.

1. ما هو التكميم (Quantization)؟ مثل ضغط الصورة

يعني التكميم خفض الدقة العددية لأوزان النموذج (الوسائط). تُخزَّن أوزان الذكاء الاصطناعي عادةً بصيغة FP16/FP32 (أعداد عشرية بـ16/32 بت)، ويستبدلها التكميم بـأعداد صحيحة مثل INT8 (8 بت) أو INT4 (4 بت). عندئذٍ يشغل كل وزن مساحة أقل، ويصبح النموذج بأكمله أخف بكثير.

فكّر فيه كـ«ضغط صورة عالية الدقة»: الصورة الأصلية بصيغة RAW (FP16) جميلة لكنها ضخمة. اضغطها إلى JPEG ‏(INT8/INT4) فيتقلص حجم الملف إلى جزء بسيط مع بقائه شبه مطابق. التكميم هو نفس الفكرة — التضحية بقليل من الدقة مقابل تخفيف كبير في الوزن. المفاجأة ليست في أنه ينجح، بل في قلة ما تتنازل عنه.

لا يتغير عدد الأوزان أو دورها — يبقى الوعاء (النموذج) كما هو؛ ويُجعل تمثيل التفاصيل أكثر خشونة فحسب. لذا فإن معرفة بنية النموذج تساعد (راجع كيف تعمل أوزان LLM).

2. كم يصبح أخف؟ (أرقام الذاكرة)

يتضح الأثر في الأرقام. لكل وزن: FP32 = 4 بايت، INT8 = 1 بايت، INT4 = 0.5 بايت. لذا فإن الانتقال إلى 4-bit يستخدم نحو ربع ذاكرة FP16.

الدقة	لكل وزن	نموذج 70B (تقريبي)	نموذج 8B (تقريبي)
FP16 (بدون تكميم)	2 بايت	~140GB	~16GB
INT8	1 بايت	~70GB	~8GB
INT4	0.5 بايت	~35GB	~4.5-5GB

* تقديرات. تختلف القيم الفعلية حسب الصيغة والحِمل الإضافي وطول السياق.

الأثر كبير. إذا انتقل نموذج 70B من 140GB إلى 35GB، فإنه يعمل على إعداد واقعي بدل عدة بطاقات A100. كمِّم نموذج 8B إلى 4-bit فيصبح نحو 5GB — يتسع بأريحية في بطاقة GPU متوسطة (8GB VRAM)، فتستطيع تشغيله محلياً على جهازك. لهذا يُسمى التكميم «دمقرطة LLM».

3. كم تنخفض الدقة؟

القلق هو: «ألن يصبح أغبى بمجرد أن يصبح أخف؟» والجواب: «أقل مما تتوقع — لكنه يعتمد على عدد البتات والمهمة».

🟢 INT8: شبه خالٍ من الفقد

في معظم نماذج LLM يكون انخفاض الأداء طفيفاً. خيار آمن حين تريد خفض الذاكرة إلى النصف مع الحفاظ على الجودة.

🟡 INT4: عملي مع الطرق الذكية

في الأسئلة والأجوبة العامة ومهام المعرفة العامة، يُقال إن التدهور أقل من 4%. لكن في الرياضيات وتوليد الشيفرة والاستدلال الصعب يكون الفقد أوضح، فانتبه.

يظهر فقد الدقة تقنياً كـ«ارتفاع طفيف في perplexity». المفتاح هو «اختيار عدد البتات الذي يناسب المهمة» — غالباً ما يكفي INT4 للمحادثة أو التلخيص، أما لتوليد الشيفرة أو الحساب الدقيق فاعتبر INT8 أو عدم التكميم. في النهاية، قيِّم على مهمتك الخاصة للتأكد من أنه ضمن الحد المقبول.

4. الطرق الرئيسية: GPTQ / AWQ / GGUF / QLoRA

توجد عدة طرق وصيغ تكميم تمثيلية. معرفة الأسماء تساعدك على اختيار النماذج والأدوات دون التباس.

الطريقة / الصيغة	السمات	الأنسب لـ
GPTQ	الرائد الذي حقق ضغط 4-bit مع الحفاظ على الدقة.	الاستدلال على GPU
AWQ	يحدد أهم ~1% من الأوزان ويحميها. غالباً أدق بنسبة 1-2% وأسرع من GPTQ.	استدلال إنتاجي سريع وفعّال
GGUF	صيغة llama.cpp / Ollama. اختر مستويات من Q2_K إلى Q8_0؛ تدعم المزج بين CPU+GPU.	التشغيل محلياً على جهازك
QLoRA	يجمع نموذجاً أساسياً بـ4-bit مع LoRA، مما يتيح الضبط الدقيق على GPU استهلاكي.	ضبط دقيق منخفض التكلفة

للمبتدئ الذي يجرب محلياً، استخدام نموذج GGUF مع Ollama هو أسهل طريق. ولتحسين الاستدلال الإنتاجي على GPU، يُعد AWQ خياراً قوياً. ولضبط نموذج كبير دقيقاً بتكلفة زهيدة، استخدم QLoRA — يكفيك تذكُّر ذلك فقط.

5. مقابل التقطير والضبط الدقيق

التكميم تقنية «كفاءة/تحسين للنموذج» إلى جانب التقطير والضبط الدقيق. يسهل الخلط بينها، فلاحظ الفرق في الأهداف.

⚖️ التكميم

اجعل أوزان النموذج نفسه أخف. النموذج نفسه في الداخل، بتمثيل أكثر خشونة فحسب.

🧑‍🏫 التقطير

انقل المعرفة إلى نموذج أصغر منفصل. أعِد بناء الوعاء أصغر.

🎯 الضبط الدقيق

درِّبه أكثر لاستخدام محدد. الحجم نفسه تقريباً؛ يضيف معرفة متخصصة.

الثلاثة ليست متعارضة — بل تُستخدم عادةً مجتمعة. على سبيل المثال، «كمِّم نموذجاً طالباً قُطِّر ليصبح أصغر، لكي يتسع في هاتف»، أو كما في QLoRA، «اضبط دقيقاً على أساس مُكمَّم». إنها تتراكم.

6. كيف تبدأ وكيف تختار عدد البتات

لا حاجة لتنفيذ معقد. الكثير من النماذج المُكمَّمة سلفاً موزَّع، فتستطيع تنزيلها واستخدامها فحسب. عند الحيرة، اختر وفق هذا الدليل.

لتجربته محلياً أولاً، استخدم GGUF ‏(Ollama)

شغّل نموذجاً مُكمَّماً بـOllama بأمر واحد. مجرد تجربته هو أسرع طريقة للتعلم.

اختر عدد البتات حسب VRAM لديك

VRAM ضيقة؟ INT4 ‏(Q4). لديك متسع وتريد الجودة؟ INT8 ‏(Q8). الاستخدام العام غالباً ما يكون جيداً على Q4.

احكم على الدقة وفق حالة الاستخدام

لتوليد الشيفرة أو الحساب الدقيق، تجنّب INT4 واستخدم INT8 فأعلى. للمحادثة والتلخيص، يكون INT4 مريحاً.

الخلاصة

التكميم هو المُمكِّن الأساسي الذي يحوّل ذكاءً اصطناعياً عملاقاً إلى شيء خفيف بما يكفي ليعمل على جهازك. لنلخّص.

أبرز النقاط

⚖️ اخفض دقة الأوزان للتقليص (FP16→INT8→INT4). الفكرة نفسها كضغط الصور.
📉 ذاكرة أقل بنحو ~4x عند 4-bit. ينخفض 70B من 140GB إلى 35GB؛ و8B بنحو ~5GB على GPU استهلاكي.
🎯 فقد دقة طفيف. INT8 شبه خالٍ من الفقد؛ وINT4 أقل من 4% للاستخدام العام (انتبه للرياضيات/الشيفرة).
🛠️ الطرق: GPTQ / AWQ / GGUF ‏(Ollama) / QLoRA. وGGUF هو الأسهل محلياً.
🔀 يختلف عن التقطير/الضبط الدقيق: خفِّف الوعاء نفسه / انتقل إلى وعاء أصغر / أضف معرفة متخصصة.

«احتفظ بالذكاء، وأسقط الوزن فقط.» التكميم هو الخطوة المفردة الأكثر عملية لجعل الذكاء الاصطناعي في المتناول. ابدأ بتشغيل نموذج Q4 على LLM محلي. ولتقنية ذات صلة، راجع تقطير النماذج؛ وللأساس، أوزان LLM.

الأسئلة الشائعة

س. هل يجعل التكميم النموذج أغبى؟

ج. أقل مما تتوقع. INT8 شبه خالٍ من الفقد، وحتى INT4 يُقال إنه يتدهور أقل من 4% في الأسئلة والأجوبة العامة ومهام المعرفة العامة. لكن الفجوة أوضح في الرياضيات وتوليد الشيفرة والاستدلال الصعب، فاختر عدد البتات بما يناسب حالة الاستخدام.

س. ما هي Q4 / Q8، وأيها أختار؟

ج. إنها مستويات تكميم في صيغة GGUF — الأرقام الأصغر أخف (وأكثر خشونة). VRAM ضيقة، اختر Q4؛ وللجودة مع متسع، اختر Q8. للاستخدام العام مثل المحادثة أو التلخيص، يكون Q4 مريحاً غالباً.

س. هل أستخدم التكميم أم التقطير؟

ج. الأهداف مختلفة. لتخفيف نموذج تملكه بالفعل، كمِّمه؛ ولإنشاء نموذج متخصص أصغر تماماً، استخدم التقطير. وغالباً ما يُجمعان معاً — فتكميم نموذج صغير مُقطَّر أكثر أمر شائع.

س. هل أحتاج إلى تكميم النماذج بنفسي؟

ج. عادةً لا. النماذج الرئيسية موزَّعة بالفعل في صيغة مُكمَّمة ويمكن تنزيلها واستخدامها فوراً عبر أدوات مثل Ollama. التكميم بنفسك مخصص فقط للنماذج المخصصة أو المتطلبات الخاصة.

ما هو التكميم (Quantization)؟ تقليص نماذج الذكاء الاصطناعي لتشغيلها على جهازك

اخفض عدد البتات، وتنخفض VRAM بحدة

1. ما هو التكميم (Quantization)؟ مثل ضغط الصورة

2. كم يصبح أخف؟ (أرقام الذاكرة)

3. كم تنخفض الدقة؟

4. الطرق الرئيسية: GPTQ / AWQ / GGUF / QLoRA

5. مقابل التقطير والضبط الدقيق

6. كيف تبدأ وكيف تختار عدد البتات

الخلاصة

الأسئلة الشائعة

مقالات ذات صلة

تواريخ قطع المعرفة لأدوات الذكاء الاصطناعي التوليدي الرئيسية — مقارنة شاملة

ما هو الذكاء الاصطناعي التوليدي؟ وكيف يختلف عن الذكاء الاصطناعي التقليدي

نقاط القوة والضعف في الذكاء الاصطناعي التوليدي — ما يستطيع وما لا يستطيع فعله بأمثلة عملية

ما هو نموذج اللغة الكبير LLM؟ آلية العمل وأبرز النماذج واستخداماتها

التعليقات

اترك تعليقاً