جدول المحتويات
- 1. الخلاصة: كل شيء يتعلق تقريبًا بـ VRAM
- 2. افهم التكميم أولًا—فهو يغيّر كل شيء
- 3. حجم VRAM المطلوب حسب حجم النموذج (جدول سريع)
- 4. فخّ طول السياق / KV cache
- 5. أجهزة GPU وأجهزة Mac عمليًا (دليل السرعة)
- 6. ما تحتاجه إلى جانب VRAM
- 7. تركيبات موصى بها حسب الميزانية (3 فئات)
- 8. كيف تعرف أي نموذج يمكنك تشغيله
- الخلاصة
- الأسئلة الشائعة
عندما تريد البدء بـ نموذج LLM محلي، عادةً ما يكون القلق الأول: "هل سيعمل أصلًا على جهازي؟" الجواب المختصر: 90% من المواصفات المطلوبة تعتمد على VRAM (ذاكرة بطاقة الـ GPU لديك). اضبط هذا، وستعرف فورًا ما الذي سيعمل وما الذي لن يعمل.
يقدّم هذا المقال جدول VRAM سريعًا حسب حجم النموذج، ومعادلة بسيطة، والفخّ المتعلق بالذاكرة الذي يكبر مع طول السياق، وسرعات واقعية لكل GPU/Mac، وأخيرًا تركيبات موصى بها حسب الميزانية. تم تقليل المصطلحات التقنية إلى الحد الأدنى حتى يتمكن المبتدئ أيضًا من معرفة "أيها يجب أن أشتري".
كل شيء يتعلق تقريبًا بـ VRAM
— الأمر يتلخّص في ما إذا كان النموذج يتّسع في الذاكرة
VRAM 8–12 GB
فئة 7B–14B. دردشة يومية وتلخيص وأكواد خفيفة. أسهل نقطة انطلاق.
VRAM 24 GB
حتى فئة 32B. الخط العملي بتوازن رائع بين الجودة والسرعة.
40–64 GB+
فئة 70B. جودة تقترب من السحابة متوسطة المستوى. والتكاليف ترتفع أيضًا.
1. الخلاصة: كل شيء يتعلق تقريبًا بـ VRAM
يتضمّن شراء الكمبيوتر أجزاءً كثيرة—CPU وGPU وذاكرة—لكن بالنسبة لنماذج LLM المحلية فإن أهمّ شيء على الإطلاق هو VRAM (ذاكرة الفيديو، أي الذاكرة الموجودة على الـ GPU). السبب بسيط: إذا اتّسع النموذج بأكمله في VRAM فإنه يعمل بسرعة وسلاسة؛ وإن لم يتّسع فإنه يصبح بطيئًا بشكل مؤلم أو لا يعمل إطلاقًا.
💡 باختصار: اختيار مواصفات نموذج LLM محلي يسير بهذا الترتيب: "حجم النموذج الذي تريد تشغيله" ← "حجم VRAM الذي يحتاجه" ← "جهاز GPU/Mac يلبّي ذلك". أما سعة CPU وRAM فثانوية.
تُعدّ شرائح Apple من فئة M (Mac) حالة خاصة: بفضل "الذاكرة الموحّدة" يمكن استخدام الـ RAM المثبّتة مباشرةً كـ VRAM. لذا يستطيع جهاز Mac بذاكرة كبيرة تشغيل نماذج ضخمة حتى من دون GPU مخصّص—سنتحدث عن ذلك لاحقًا.
2. افهم التكميم أولًا—فهو يغيّر كل شيء
قبل الحديث عن VRAM المطلوب، لا مفرّ من التكميم. إنها تقنية تضغط النموذج لجعله أخفّ، ومقدار الضغط يغيّر حاجة الذاكرة بمقدار عدّة أضعاف.
FP16 (غير مضغوط)
~2 بايت لكل معامل. أعلى جودة، لكنه يستهلك أكبر قدر من الذاكرة. نادرًا ما يستخدمه الأفراد.
Q8 (8 بت)
~1 بايت لكل معامل. نحو نصف FP16. فقدان الجودة ضئيل جدًا—الخيار "المائل نحو الجودة".
Q4 (4 بت)
~0.5–0.7 بايت لكل معامل. نحو 1/4 من FP16. توازن رائع بين الجودة والخفّة—الخيار المفضّل للاستخدام الشخصي.
🔑 معادلة تقريبية: VRAM المطلوب ≈ عدد المعاملات (B) × عدد البايتات لكل معامل. مثال: لتشغيل نموذج 7B عند Q4، 7 × ~0.6 ≈ ~4–5 GB. أضِف +10–20% لـ KV cache (السياق، نتناوله تاليًا) للأمان.
3. حجم VRAM المطلوب حسب حجم النموذج (جدول سريع)
بافتراض تكميم Q4 الأكثر عملية، إليك أهدافًا تقريبية لـ VRAM حسب الحجم (شاملةً هامشًا للسياق). قارنها بـ "VRAM بطاقتك" وسترى حدّك الأقصى على الفور.
فئة 7B–8B
VRAM ~6–8 GB
مثالية للبداية. دردشة وتلخيص وترجمة وأكواد خفيفة. قابلة للتحقيق على كثير من الحواسيب المحمولة.
فئة 13B–14B
VRAM ~8–12 GB
إجابات أذكى قليلًا. "المنطقة المثالية" لبطاقات GPU متوسطة المستوى مثل RTX 3060 (12 GB).
فئة 32B
VRAM ~20–24 GB
الخط العملي الأعلى. الهدف الكلاسيكي بطاقة واحدة لـ RTX 4090 (24 GB).
فئة 70B
VRAM ~40–48 GB+
الفئة الاحترافية. جهاز Mac بذاكرة كبيرة أو عدّة بطاقات GPU هو الخيار الواقعي.
الصعود أعلى إلى 100B+ (نماذج ضخمة جدًا) يحتاج 128 GB أو أكثر—خارج النطاق الشخصي. وعلى العكس، يعمل نموذج صغير 1–3B ضمن حدود 4 GB، فحتى الكمبيوتر المتواضع يمكنه أن يبدأ.
4. فخّ طول السياق / KV cache
من السهل إغفاله: الذاكرة تكبر مع طول السياق. يحتفظ نموذج LLM بسجلّ المحادثة والمُدخلات في VRAM على شكل KV cache. وكلما طال النص الذي تتعامل معه، زادت الذاكرة التي يستخدمها فوق النموذج نفسه.
4k
~+0.3 GB على نموذج 7B. ضئيل لا يُذكر للأسئلة القصيرة.
32k
~+2.5 GB على نموذج 7B. يبدأ تأثيره بالظهور في التلخيصات والمحادثات الطويلة.
128k
~+10 GB على نموذج 7B. قد يتجاوز النموذج نفسه. منطقة تستدعي الحذر.
📌 نصيحة عملية: "عمِل تمامًا عند حدّ VRAM، ثم انهار عندما أدخلتُ مستندًا طويلًا"—هذا هو السبب. قدّر حاجتك عند طول السياق الذي تستخدمه فعلًا. وإن لم تتعامل مع مستندات طويلة، فمجرد ضبط طول سياق أصغر يحرّر الذاكرة.
5. أجهزة GPU وأجهزة Mac عمليًا (دليل السرعة)
حتى للنموذج نفسه، يغيّر العتاد كثيرًا السرعة (عدد التوكنات المُولَّدة في الثانية = tok/s). إليك الخيارات الرئيسية مع إحساس تقريبي (الأرقام إرشادية وتتفاوت حسب الإعداد والنموذج).
RTX 3060 (12 GB)
سهلة الإيجاد مستعملة—الخيار الكلاسيكي للبداية. تعمل نماذج 7B–14B بأريحية. إن كانت التكلفة هي الأولوية، فابدأ من هنا.
RTX 4090 (24 GB)
حتى فئة 32B على بطاقة واحدة. يمكن لنموذج 7B تجاوز 100 توكن/ثانية. الخيار الشخصي الراقي المفضّل. أما 70B فيحتاج إلى إزاحة جزء إلى الـ CPU ويبطؤ كثيرًا.
RTX 5090 (32 GB)
يتيح لك VRAM الأكبر تشغيل 32B عند Q8، أو نموذج 70B بتكميم قوي على بطاقة واحدة. والسرعة أيضًا من الطراز الأعلى.
Apple Mac (M4/M5 Max)
مع ذاكرة موحّدة 64 GB، حتى فئة 70B ممكنة (السرعة متواضعة—نحو 20–30 توكن/ثانية على نموذج 70B). هادئ وموفّر للطاقة.
CPU فقط (بدون GPU)
النماذج الصغيرة تعمل بالفعل، لكن ببطء. مناسب لـ "مجرد التجربة". أما الاستخدام اليومي فيتطلّب حقًا GPU/Mac.
6. ما تحتاجه إلى جانب VRAM
VRAM هو البطل، لكن العناصر المساندة تهمّ أيضًا. ثلاثة أمور يجب تغطيتها كحدّ أدنى.
RAM النظام
المستوعِب لما لا يتّسع في VRAM. 16 GB أو أكثر، ويُفضّل 32 GB. على Mac، تُحتسب الذاكرة الموحّدة مباشرةً.
التخزين (SSD)
النموذج الواحد يتراوح بين عدة وعشرات الـ GB. إن كنت ستجرّب عدة نماذج، فاحتفظ بـ مساحة حرّة وفيرة على SSD. يُنصح بـ NVMe.
الطاقة والتبريد
بطاقات GPU الراقية تسحب طاقة كبيرة وترتفع حرارتها. اترك هامشًا في وحدة التغذية والتبريد.
7. تركيبات موصى بها حسب الميزانية (3 فئات)
ثلاثة أنماط تجيب عن "إذًا ماذا أشتري فعلًا؟" اختر حسب حالة الاستخدام والميزانية.
مجرد التجربة: VRAM 8–12 GB
بطاقة من فئة RTX 3060 (12 GB)، أو جهاز Mac بذاكرة موحّدة 16–24 GB. تعمل فئة 7B–14B، وهي وفيرة للاستخدام اليومي. بطاقة GPU مستعملة هي أرخص طريقة للبدء.
الاستخدام الجدّي: VRAM 24 GB
بطاقة RTX 4090 (24 GB)، أو جهاز Mac بذاكرة موحّدة 32–48 GB. تعمل فئة 32B بأريحية، بأفضل توازن بين الجودة والسرعة. الخيار "المناسب تمامًا".
السعي نحو الأكبر: 40–64 GB+
بطاقة RTX 5090 أو عدّة بطاقات GPU، أو جهاز Mac راقٍ بذاكرة موحّدة 64 GB+. تقترب فئة 70B من السحابة متوسطة المستوى. كن مستعدًا للتكلفة وسحب الطاقة.
8. كيف تعرف أي نموذج يمكنك تشغيله
لا تعرف أي نموذج تختار؟ راجع مقارنة أفضل نماذج LLM المحلية للاختيار حسب الاستخدام والحجم والمنشأ.
تحقّق في ثلاث خطوات قبل الشراء أو التنزيل، ولن تخطئ.
- تحقّق من VRAM لديك (أو الذاكرة الموحّدة لجهاز Mac). هذا هو سقفك.
- قدّر الحاجة التقريبية بـ حجم النموذج (B) × ~0.6 (Q4). أضِف +10–20% للسياق.
- تأكّد من أن المجموع يتّسع ضمن VRAM لديك. وإن لم يتّسع، فاختر "حجمًا أصغر بمستوى" أو "تكميمًا أقوى (Q4 ← عدد بتات أقل)".
💡 عند الحيرة، ابدأ صغيرًا: مع Ollama أو LM Studio، تختار نموذجًا فقط وتنزّله. جرّب فئة 7B أولًا، وارتقِ خطوة إن شعرت بالنقص—هذا الترتيب آمن وموثوق.
الخلاصة
المواصفات التي تحتاجها لنموذج LLM محلي تتلخّص في ثلاث نقاط.
- VRAM هو البطل: ما إذا كان النموذج يتّسع في الذاكرة هو كل شيء. ويمكن لجهاز Mac استهداف ذاكرة كبيرة عبر الذاكرة الموحّدة.
- التكميم والسياق يحرّكان الرقم: عند Q4، فإن "الحجم (B) × ~0.6" زائدًا السياق (+10–20%) هو الدليل. 7B ≈ 6–8 GB، 32B ≈ 24 GB، 70B ≈ 40 GB+.
- ثلاث فئات حسب الميزانية: مبتدئ (8–12 GB) / قياسي (24 GB) / احترافي (40–64 GB+). عند الحيرة، ابدأ صغيرًا وارتقِ تدريجيًا.
بمجرد معرفة المواصفات، يصبح نموذج LLM المحلي أقرب منالًا بكثير. بعد ذلك، وبينما توازن الفروق عن السحابة، شغّل نموذجًا على جهازك الخاص. وخطوات الإعداد مشروحة في كيفية تشغيل نموذج LLM محلي.
الأسئلة الشائعة
س. هل يمكن لحاسوب محمول عادي (بدون GPU) تشغيل نموذج LLM محلي؟
ج. النماذج الصغيرة (1–3B، أو نموذج 7B خفيف) ستعمل، لكن ببطء. لا بأس بذلك لـ "تجربتها"، لكن للاستخدام اليومي المريح فإن بطاقة GPU بسعة VRAM 8 GB+ أو جهاز Mac بذاكرة موحّدة وفيرة هو الخيار الواقعي.
س. VRAM لديّ ناقص قليلًا. كيف أشغّله رغم ذلك؟
ج. ثلاثة خيارات: ① اختر تكميمًا أقوى (نسخة بعدد بتات أقل)، ② انتقل إلى نموذج أصغر بمستوى، ③ اضبط طول سياق أقصر. عادةً ما يكفي ذلك ليتّسع. يمكنك أيضًا إزاحة جزء إلى الـ CPU، لكن السرعة تنخفض.
س. GeForce أم Mac—أيهما أفضل؟
ج. للسرعة وقابلية التوسّع، GeForce (NVIDIA GPU). أما للتشغيل الهادئ الموفّر للطاقة الذي يستفيد من الذاكرة الكبيرة لتشغيل نماذج ضخمة، فجهاز Mac (الذاكرة الموحّدة). إن أردت التعامل مع فئة 70B على جهاز واحد، فجهاز Mac بسعة 64 GB+ خيار قوي.
س. كم أحتاج من RAM النظام؟
ج. 16 GB أو أكثر لـ RAM النظام، ويُفضّل 32 GB. لاحظ أنه على Mac تعمل الذاكرة الموحّدة كـ VRAM أيضًا، لذا فإن سعة الذاكرة تحدّد مباشرةً حجم النموذج الذي يمكنك تشغيله.
س. إذًا ما الجهاز الأول الجيد؟
ج. من حيث القيمة، بطاقة RTX 3060 (12 GB) مستعملة لنماذج 7B–14B. وإن سمحت الميزانية، فبطاقة RTX 4090 (24 GB) تتعامل مع فئة 32B على بطاقة واحدة وتدوم طويلًا. ولمحبّي Apple، جهاز Mac بذاكرة موحّدة وفيرة هو الطريق السهل. ابدأ صغيرًا وارتقِ حسب الحاجة—هكذا تتجنّب الأخطاء.