"اكتب بعض النص، فيولد فيديو مصحوب بالصوت في ثوانٍ" — ما كان قبل وقت ليس بالبعيد ضربًا من الخيال العلمي صار واقعًا في 2026. والوضع يتغير بوتيرة مذهلة. فقد أوقفت Sora من OpenAI، التي كانت تتصدر الحديث، تطبيقها وموقعها في أبريل 2026 (على أن تتبعها واجهة برمجة التطبيقات API في سبتمبر). وفي مكانها، تصدّرت Google Veo وKling وRunway المشهد — أُعيد رسم الخريطة في غضون أشهر قليلة.

هذا دليل محدّث (حتى يونيو 2026) ومستقل عن الأدوات حول "البدء في توليد الفيديو بالذكاء الاصطناعي." ما الذي يستطيع فعله، ومشهد 2026، وكيف يعمل، والخطوات الخمس المشتركة، ونصائح مطالبات الفيديو، وما يصعب عليه، والحقوق والعلامات المائية والأخلاقيات — كلها منظّمة للمبتدئين. وللاطلاع على أساسيات جانب الصور، راجع البدء في توليد الصور بالذكاء الاصطناعي؛ وللعملية العكسية — إنشاء الترجمات والنصوص من الفيديو — راجع إنشاء الترجمات من الفيديو والصوت بالذكاء الاصطناعي.

توليد الفيديو بالذكاء الاصطناعي · النص يصبح لقطات

الكلمات ← لقطات متحركة (مع الصوت أيضًا)

— سطر واحد من المطالبة يصبح مقطعًا مدته عشرات الثواني

"كلب يركض على شاطئ عند الغسق، حركة بطيئة، طابع سينمائي"
🐕
🐕
🐕
🐕
🔊 صوت أصلي ⏱ عشرات الثواني 🎞 1080p–4K

*يعكس هذا المقال المعلومات حتى يونيو 2026. يتغير توليد الفيديو بالذكاء الاصطناعي بسرعة كبيرة بشكل خاص؛ فتوافر الأدوات وأسعارها وميزاتها تتبدّل كثيرًا (إيقاف Sora مثال حيّ على ذلك). الأرقام والمواصفات المحددة هي اقتباسات من المعلومات العامة الصادرة عن كل شخص/شركة؛ تحقق دائمًا من أحدث المعلومات الرسمية ومن قوانين بلدك قبل الاستخدام.

1. ما هو توليد الفيديو بالذكاء الاصطناعي؟ وماذا يستطيع أن يفعل؟

توليد الفيديو بالذكاء الاصطناعي تقنية ينشئ فيها الذكاء الاصطناعي لقطات متحركة جديدة تمامًا انطلاقًا من نص (مطالبة) أو من صورة واحدة. إنه "النسخة الفيديوية" من توليد الصور، وفي 2026 صارت النماذج التي تولّد صوتًا مطابقًا (حوارًا، مؤثرات صوتية، موسيقى) في الوقت نفسه هي السائدة.

توليد الفيديو بالذكاء الاصطناعي = "تقنية يولّد فيها الذكاء الاصطناعي فيديو مدته من ثوانٍ قليلة إلى عشرات الثواني انطلاقًا من كلمات أو صورة." في 2026 صار تزامن الصوت، ودقة 1080p–4K، وتحويل الصور إلى فيديو أمورًا معيارية. يمكنك إنشاء "مسودة أولى للقطات" دون أي تصوير أو مونتاج.

الاستخدامات واسعة: مقاطع اجتماعية قصيرة ومقاطع إعلانية، تعريفات بالمنتجات أو الخدمات، لوحات قصصية / فحص للمفاهيم، مقاطع إدراجية للعروض التقديمية، بل وحتى نسخ متحركة من أيقونة اجتماعية. يمكنه أن يضغط بشدة تكلفة ووقت التصوير الحي والرسوم المتحركة. وفي المقابل، ما زال إنتاج عمل طويل ومكتمل بنقرة واحدة بعيد المنال (المزيد أدناه). والطريقة الواقعية للتفكير فيه في 2026 هي اعتباره "أداة لإنشاء لقطات قصيرة بجودة عالية."

2. [أحدث 2026] إلى أي مدى تغيّر المشهد

في هذا المجال، تتبدّل الصدارة في غضون أشهر. وأكبر تحول هو انسحاب Sora من OpenAI، التي كانت تتصدر الحديث. قبل أن تبدأ، رتّب الخريطة الحالية في ذهنك.

⚠ مهم: OpenAI Sora في طور الإيقاف

أعلنت OpenAI عن إيقاف Sora في March 24 2026. وتم إيقاف التطبيق والموقع في April 26 2026، ومن المقرر إيقاف واجهة برمجة التطبيقات API في September 24 2026 (وفقًا للإشعار الرسمي في مركز المساعدة لدى OpenAI). تشير التقارير إلى ضغوط على الحوسبة والتكلفة، وتراجع في عدد المستخدمين، والتركيز على المنتجات المؤسسية الأساسية كخلفية لذلك. بعبارة أخرى، "ابدأ بـ Sora فحسب" لم يعد خيارًا متاحًا اعتبارًا من يونيو 2026.

إذن ماذا ينبغي أن تستخدم الآن؟ اعتبارًا من يونيو 2026، هذه هي الأسماء التي تُعدّ في الصف الأول (اقتباسات من المعلومات العامة لكل شركة ومن مقاييس أداء متنوعة؛ التصنيفات والأرقام تتغير بمرور الوقت).

الأداةنقاط القوة (كما نوقشت في 2026)الوصول الرئيسي
Google Veo 3.1متعدد المواهب من الطراز الأول. الالتزام بالمطالبة، حوار متزامن بدقة 48 kHz، إخراج 4K في الوضعين الأفقي والعموديتطبيق Gemini / Google Flow / Gemini API
Kling 3.0يُوصف بأنه الأفضل قيمةً مقابل السعر. دقة 4K أصلية، وضع لوحة قصصية متعدد اللقطات، تزامن صوتيخدمة ويب (قائمة على الأرصدة)
Runway Gen-4.5تحكم بمستوى احترافي. حركات الكاميرا، فرشاة الحركة، اتساق الشخصياتخدمة ويب (قائمة على الأرصدة)
OpenAI Sora 2حظي بتقييم عالٍ من حيث الواقعية الفوتوغرافية، لكن —في طور الإيقاف (انتهى التطبيق / واجهة API في سبتمبر)

*التسعير بالثانية هو المعتاد (مثلًا، نحو 0.1–0.7 دولار للثانية تبعًا للصيغة والجودة، مع اختلافات بين الشركات؛ يُقال إن الوضع السريع لدى Veo أرخص). الخطط والأسعار تتغير كثيرًا، لذا تحقق دائمًا من المصدر الرسمي.

الخبر السار للمبتدئين هو أنه يمكنك البدء من نقطة دخول تعرفها بالفعل. على سبيل المثال، يمكن استخدام Google Veo من تطبيق Gemini أو من أداة الفيديو "Google Flow" (يلزم وجود خطة مؤهِّلة)، فتستطيع أن تخطو خطوتك الأولى دون تعلّم موقع مخصص. والمبدأ الأساسي ليس "أيها الإجابة الصحيحة" بل "اختر بحسب الاستخدام والميزانية."

3. كيف يعمل، بأبسط صورة

يعمل معظم توليد الفيديو بالذكاء الاصطناعي على آلية تستند إلى الفكرة نفسها لـ "نموذج الانتشار" الموجودة في توليد الصور، ممتدةً لتتعامل أيضًا مع البُعد الزمني (تسلسل من الإطارات).

بصورة تقريبية —

  1. يتدرب على أعداد هائلة من أزواج "فيديو + وصف نصي"، فيتعلم كيف تترابط الكلمات والمظاهر والحركة.
  2. عند التوليد، يبدأ من ضوضاء، ومستخدمًا مطالبتك كدليل، ينظّم كل إطار شيئًا فشيئًا.
  3. وأثناء ذلك، يُجري تعديلات للحفاظ على الترابط بين الإطارات (الاتساق الزمني).
  4. كما تولّد أحدث النماذج صوتًا مطابقًا للقطات في الوقت نفسه.

هناك طريقتان رئيسيتان للإدخال: "تحويل النص إلى فيديو" (يُصنع من نص) و"تحويل الصورة إلى فيديو" (تحريك صورة واحدة). والأخيرة حركة مركّبة — أنشئ أولًا الصورة الثابتة المثالية في توليد الصور، ثم حرّكها — مما يجعل الوصول إلى الصورة التي تقصدها أسهل. وإذا بدا الفيديو مخيفًا، فإن البدء من تحويل الصورة إلى فيديو مدخل جيد.

4. البداية — الخطوات الخمس المشتركة

أيًّا كانت الأداة التي تستخدمها، فإن التدفق الأساسي واحد. استوعب هذه الخطوات الخمس، وستنتقل المهارة معك حتى عند تغيير الأداة.

1

اختر أداة / نقطة دخول

بحسب الاستخدام والميزانية. سهل من تطبيق Gemini وغيره.

2

مطالبة أو صورة

جهّز نصًا أو صورة مصدرية (القسم 5).

3

اضبط المدة والنسبة والصوت

الثواني، الاتجاه، تشغيل/إيقاف الصوت، الكاميرا.

4

ولّد واختر

ولّد عدة نسخ، اختر الأفضل، أعد الضبط.

5

اربط وأنهِ

اربط اللقطات في محرر وصدّر.

المفتاح هو الخطوة 5. فيديو الذكاء الاصطناعي اليوم مدته من ثوانٍ قليلة إلى عشرات الثواني لكل عملية توليد، لذا فإن الطريقة الأساسية لإنتاج فيديو طويل هي "إنشاء عدة لقطات قصيرة وربطها في برنامج مونتاج." فبدلًا من السعي إلى عمل واحد قائم بذاته، رتّبه لقطةً لقطة وحوّله إلى فيلم في المونتاج — هذه العقلية وحدها تجعل النتيجة أكثر استقرارًا بكثير. لدى كثير من الأدوات طبقات مجانية أو أرصدة تجريبية، فابدأ بإنشاء لقطة واحدة أولًا.

5. [الأساس] نصائح لمطالبات الفيديو

أكبر فرق عن الصور هو "الحركة" و"الزمن" و"الصوت." فكّر في الأمر على أنه إضافة عناصر خاصة بالفيديو إلى الأجزاء الستة لمطالبة الصورة.

العنصرالدورمثال على الصياغة
الموضوع / المشهدماذا وأين (مثل الصور)"كلب على شاطئ عند الغسق"
الحركة / الفعلما الذي يتحرك (جوهر الفيديو)"يركض على حافة الموج، من اليسار إلى اليمين"
عمل الكاميراحركة وجهة النظر"متابعة بطيئة"، "تصوير علوي بطائرة مسيّرة"
الأسلوب / المزاجالمظهر العام"سينمائي"، "حركة بطيئة"
المدة / النسبةالمدة والاتجاه"8 ثوانٍ"، "9:16 عمودي"
الصوتحوار، مؤثرات صوتية، موسيقى خلفية"صوت الأمواج، نباح كلب"

اجمعها فتحصل، مثلًا، على ما يلي. إن تضمين الأفعال (يركض، يدور، يقترب) وحركة الكاميرا هو الفرق الحاسم عن الصورة الثابتة.

[الموضوع] شاطئ عند الغسق، كلب غولدن ريتريفر وحيد،
[الحركة] يركض على حافة الموج، من اليسار إلى اليمين، [الكاميرا] متابعة مع حركة جانبية،
[الأسلوب] سينمائي، حركة بطيئة، [المدة/النسبة] 8 ثوانٍ، 16:9،
[الصوت] صوت الأمواج وموسيقى خلفية مفعمة بالحيوية

ثلاث نصائح عملية. ① لا تبالغ — لقطة واحدة، فعل واحد (حشر عدة حركات يميل إلى الفشل). ② استخدم تحويل الصورة إلى فيديو (ثبّت التركيب المثالي في صورة ثابتة أولًا، ثم حرّكه). ③ ولّد بكثرة واختر (الفيديو فيه الكثير من "التذبذب"، لذا اجنِ الأفضل من عدة عمليات توليد). والموقف الأساسي هو نفسه في هندسة المطالباتكن محددًا، أضِف شيئًا فشيئًا، كرّر.

6. ما يستطيع وما لا يستطيع فعله بعد

التقدم في 2026 لافت، لكنه ليس قادرًا على كل شيء. ولضبط التوقعات الصحيحة، إليك ما يبرع فيه وما لا يبرع فيه الآن.

✓ يستطيع فعله بالفعل

  • مقاطع عالية الجودة مدتها من ثوانٍ إلى عشرات الثواني
  • حوار ومؤثرات صوتية وموسيقى خلفية تطابق اللقطات
  • دقة 1080p–4K
  • تحريك صورة (تحويل الصورة إلى فيديو)
  • تحديد عمل الكاميرا والمزاج

⚠ لا يزال يكافح مع

  • إنتاج عمل طويل لعدة دقائق دفعة واحدة
  • الاتساق الكامل عبر مشهد طويل
  • الفيزياء المعقدة، والأصابع الدقيقة والنصوص
  • إعادة إنتاج قصدك بدقة (الكثير من التذبذب)
  • التكلفة (الفوترة بالثانية تتراكم بشكل مفاجئ)

باختصار، إنه بارع في "توليد لقطات قصيرة"، وضعيف في "إنهاء عمل طويل كما هو." ولهذا بالضبط، كما أُشير، يكون إنشاء اللقطات وربطها في المونتاج هو الطريق الملكي. ونظرًا للفوترة بالثانية، ثبّت التركيب أولًا بمقاطع قصيرة منخفضة الدقة، ثم ولّد بجودة عالية بعد أن يستقر القرار فقط لإبقاء التكاليف منخفضة. التصميم حول نقاط الضعف يرفع عائدك مباشرة.

7. الحقوق والعلامات المائية والأخلاقيات

لأن الفيديو ينتشر بقوة بالغة، فإن وزن الحقوق والأخلاقيات أكبر منه في الصور. إذا كنت تستخدمه للعمل أو النشر، فاحرص على ضبط هذا الأمر.

🏷 العلامات المائية

العلامات المائية التي تشير إلى التوليد بالذكاء الاصطناعي، مثل SynthID من Google، صارت معيارية. تُضمَّن علامة مرئية وأخرى غير مرئية ولا يمكن إزالتها في معظم الخطط. كما ينتشر معيار إثبات المصدر C2PA.

⚖️ حقوق النشر / الاستخدام التجاري

كما هو الحال مع الصور، يصعب حماية العمل المولّد بالذكاء الاصطناعي البحت بحقوق النشر (مع اختلافات بين الدول). ويعتمد الاستخدام التجاري على شروط الأداة. وقد تختلف الشروط بحسب الخطة.

🛡️ التزييف العميق

تحريك وجه شخص حقيقي أو صوته دون إذن أمر محظور تمامًا. فانتحال الشخصية والتضليل يحملان مخاطر قانونية وأخلاقية كبيرة. وتشتد الأنظمة في كثير من الدول.

ثلاث خلاصات. ① صار من المعتاد أن يحمل فيديو الذكاء الاصطناعي إثبات مصدر وعلامات مائية (استخدمه على أساس أنه "لا يمكنك إخفاء كونه مصنوعًا بالذكاء الاصطناعي، ولا ينبغي أن تخفيه"). ② تحقق دائمًا من الاستخدام التجاري مقابل شروط الأداة. ③ لا تستخدم أشخاصًا حقيقيين أو أصواتًا أو علامات تجارية أو أعمال الآخرين دون إذن. فالفيديو خصوصًا يميل إلى التسبب في ضرر أكبر لأنه يبدو "حقيقيًا". وعند الشك، توقف واسأل: "هل قد يؤذي نشر هذا أحدًا أو يضلّله؟" — هذا هو خط دفاعك الأفضل.

8. الخطوات التالية

بعد أن تتقن الأساسيات، يكون إنشاء لقطة واحدة فعليًا أسرع طريق إلى الأمام. وإليك بعض المقالات ذات الصلة أيضًا.

🖼 ابدأ بالصور أولًا

أساس لتحويل الصورة إلى فيديو. تعلّم تشريح المطالبة في البدء في توليد الصور بالذكاء الاصطناعي.

📝 أنشئ ترجمات من الفيديو

للاستخدام العكسي، راجع إنشاء الترجمات من الفيديو والصوت بالذكاء الاصطناعي.

🎨 ادمجه في عمل التصميم

لإنشاء العروض التقديمية والأصول، يُعدّ مقارنة أدوات التصميم بالذكاء الاصطناعي مرجعًا مفيدًا.

🔎 تحقق من الأحدث

مجال سريع التغير. اجعل من عادتك التحقق من الأسعار والتوافر على الصفحة الرسمية لكل أداة.

الخلاصة

إليك كيفية البدء في توليد الفيديو بالذكاء الاصطناعي، بشكل مكثّف.

  • الجوهر: تقنية تصنع لقطات متحركة من كلمات أو صور. في 2026 صار تزامن الصوت ودقة 1080p–4K وتحويل الصورة إلى فيديو أمورًا معيارية.
  • المشهد (يونيو 2026): أُوقف تطبيق Sora (واجهة API ستنتهي في سبتمبر). الصدارة لـ Google Veo 3.1 وKling 3.0 وRunway Gen-4.5. ويتغير المشهد بسرعة.
  • الآلية: نماذج انتشار ممتدة إلى البُعد الزمني. مدخلان: تحويل النص إلى فيديو وتحويل الصورة إلى فيديو.
  • الخطوات الخمس: اختر أداة ← مطالبة/صورة ← اضبط المدة والنسبة والصوت ← ولّد واختر ← اربط في المونتاج.
  • المطالبات: موضوع + حركة + كاميرا + أسلوب + مدة + صوت. الأفعال وعمل الكاميرا هما المفتاح.
  • الحقوق: العلامات المائية (SynthID/C2PA) في طريقها إلى أن تصبح معيارية / الناتج المولّد بالذكاء الاصطناعي البحت ضعيف الحماية / التزييف العميق محظور.

في النهاية، توليد الفيديو بالذكاء الاصطناعي عملي تمامًا الآن باعتباره "أداة لإنشاء لقطات قصيرة بجودة عالية." لا تستهدف عملًا طويلًا دفعة واحدة؛ بل أنشئ لقطات واربطها في المونتاج. استوعب هذه المسافة، فتستطيع الدخول إلى عصر صناعة "اللقطات" دون أي معدات تصوير، بدءًا من اليوم. أولًا، من نقطة دخول في متناول يدك مثل تطبيق Gemini، جرّب فيديو من لقطة واحدة مدته 8 ثوانٍ. وتذكّر — هذا المجال يتغير بسرعة حقًا؛ لا تنسَ أن هذا المقال خريطة حتى يونيو 2026، وتحقق دائمًا من الأحدث رسميًا.

الأسئلة الشائعة

س. ما هو توليد الفيديو بالذكاء الاصطناعي؟ اشرح للمبتدئين من فضلك.
ج. إنها تقنية ينشئ فيها الذكاء الاصطناعي، انطلاقًا من نص (مطالبة) أو صورة واحدة، لقطات متحركة جديدة تمامًا مدتها من ثوانٍ قليلة إلى عشرات الثواني. إنها النسخة الفيديوية من توليد الصور، وفي 2026 صارت النماذج التي تولّد أيضًا صوتًا مطابقًا (حوارًا، مؤثرات صوتية، موسيقى خلفية) في الوقت نفسه هي السائدة. ودون أي معدات تصوير، يمكنك بسهولة إنشاء "مسودات أولى" للمقاطع الاجتماعية والتعريفات واللوحات القصصية وغيرها.

س. هل لم تعد Sora قابلة للاستخدام؟ ماذا ينبغي أن أستخدم الآن؟
ج. أعلنت OpenAI عن إيقاف Sora في March 24 2026؛ وتم إيقاف التطبيق والموقع في April 26 2026، ومن المقرر أن تنتهي واجهة برمجة التطبيقات API في September 24 2026 (وفقًا للإشعار الرسمي في مركز المساعدة لدى OpenAI). لذا فإن "ابدأ بـ Sora فحسب" ليس خيارًا متاحًا اعتبارًا من يونيو 2026. والأسماء في الصف الأول حاليًا هي Google Veo 3.1 المتعدد المواهب، وKling 3.0 خيار القيمة، وRunway Gen-4.5 المركّز على التحكم. ولأنه يتغير بسرعة، تحقق دائمًا من كل مصدر رسمي قبل الاستخدام.

س. كيف أبدأ؟ هل يمكنني تجربته مجانًا؟
ج. لدى كثير من الأدوات طبقات مجانية أو أرصدة تجريبية. على سبيل المثال، يمكن استخدام Google Veo من تطبيق Gemini أو من أداة الفيديو "Google Flow" (يلزم وجود خطة مؤهِّلة)، فتستطيع البدء دون تعلّم موقع مخصص. والتدفق خمس خطوات: "اختر أداة ← مطالبة أو صورة مصدرية ← اضبط المدة والنسبة والصوت ← ولّد واختر ← اربط في المونتاج." ويُوصى بتجربة لقطة واحدة مدتها نحو 8 ثوانٍ أولًا.

س. ما نصائح مطالبات الفيديو؟ وكيف يختلف عن الصور؟
ج. أكبر فرق هو "الحركة والزمن والصوت." فبالإضافة إلى الموضوع والمشهد، حدّد الحركة المعبَّر عنها بالأفعال (يركض، يدور، يقترب)، وعمل الكاميرا (متابعة، تصوير علوي)، والمدة ونسبة العرض إلى الارتفاع، والصوت إن لزم (حوار، مؤثرات صوتية، موسيقى خلفية). والنصائح: لا تحشر الكثير من الحركة في لقطة واحدة، وثبّت التركيب المثالي في صورة ثابتة أولًا ثم حرّكه (تحويل الصورة إلى فيديو)، وولّد عدة نسخ واختر الأفضل.

س. هل يمكنني استخدام مقاطع الفيديو المصنوعة بالذكاء الاصطناعي تجاريًا؟ وماذا عن حقوق النشر؟
ج. يعتمد ما إذا كان الاستخدام التجاري مسموحًا على شروط الأداة التي تستخدمها (قد تختلف الشروط بحسب الخطة). وكما هو الحال مع الصور، فإن العمل المولّد بالذكاء الاصطناعي البحت دون مشاركة إبداعية بشرية يصعب حاليًا حمايته بحقوق النشر، ويختلف التعامل معه من دولة إلى أخرى. كما أن العلامات المائية التي تشير إلى التوليد بالذكاء الاصطناعي — مثل SynthID من Google — تُضمَّن افتراضيًا ولا يمكن إزالتها في معظم الخطط. تحقق دائمًا من أحدث الشروط ومن قوانين بلدك قبل الاستخدام.

س. هل يمكنني إنتاج فيديو طويل (عدة دقائق)؟
ج. اعتبارًا من 2026، تكون كل عملية توليد بشكل رئيسي من ثوانٍ قليلة إلى عشرات الثواني، ولا يزال إنهاء عمل طويل لعدة دقائق دفعة واحدة صعبًا. والطريقة الواقعية لإنتاج فيديو طويل هي توليد عدة لقطات قصيرة وربطها في برنامج مونتاج الفيديو. ولأن كثيرًا من الأدوات تفوتر بالثانية، فإن تثبيت التركيب أولًا بمقاطع قصيرة منخفضة الدقة ثم التوليد بجودة عالية بعد اتخاذ القرار يتيح لك إبقاء التكاليف منخفضة مع رفع الجودة.