ما هو embedding (التضمين / المتجه)؟ كيف يصير المعنى أرقامًا، واستخداماته، واختيار النموذج
يعتمد RAG والبحث الدلالي والتوصيات جميعًا على بطل خفي: embedding (التضمين / المتجه). embedding هو معنى النص (أو الصورة) مُحوَّلًا إلى سلسلة من الأرقام — أي متجه. تصبح كلمة «كلب» قائمة من مئات إلى آلاف الأرقام تعمل بوصفها «إحداثيات للمعنى»، فتقع الكلمات المتقاربة في المعنى قرب بعضها (كلب وجرو متقاربان؛ كلب وسيارة متباعدان)، ويُقاس القرب بمقاييس مثل cosine similarity. مثال شهير: «ملك − رجل + امرأة ≈ ملكة». ولذلك يمكن للآلة أن تحكم على قرب المعنى حتى عندما لا تتطابق الحروف. يغطي هذا الدليل للمبتدئين ما هو embedding («خريطة للمعنى»)، ولماذا يقيس القرب المعنى (الأبعاد وcosine similarity)، وفيمَ يُستخدم (RAG والبحث الدلالي والتصنيف وإزالة التكرار والتوصيات والوسائط المتعددة)، وكيف تختار نموذج embedding (نوع API مثل OpenAI text-embedding-3 وCohere وGemini وVoyage؛ ونوع مفتوح المصدر مثل BGE-M3 وNomic وQwen3؛ إضافةً إلى Matryoshka التي يمكنها تقليص 3,072 بُعدًا إلى 1,024 مع الحفاظ على نحو 95% من الجودة بثلث التكلفة تقريبًا)، وقواعد بيانات المتجهات (Pinecone وWeaviate وQdrant وChroma وpgvector) مع بداية من ثلاث خطوات (اختر نموذجًا، حوّل الوثائق إلى متجهات وخزّنها، حوّل السؤال إلى متجه وابحث). التضمينات هي أساس تنفيذ RAG.