Veo 3 من جوجل: ثورة توليد الفيديو التي قد تغير يوتيوب إلى الأبد

في سباق الابتكار المحموم في مجال الذكاء الاصطناعي، تواصل جوجل (Google) دفع حدود ما هو ممكن، وخاصة في مجال توليد الوسائط. بعد أن أذهلت العالم بقدرتها على توليد النصوص والصور، تُركز جوجل الآن بقوة على توليد الفيديو، وفي مؤتمرها الأخير Google I/O، كشفت عن نموذجها الأحدث والأكثر تطوراً: Veo 3.

ما يميز Veo 3 عن النماذج السابقة ليس فقط قدرته على توليد مقاطع فيديو عالية الجودة من وصف نصي بسيط، بل ميزة جديدة ومثيرة للغاية: القدرة على توليد الصوت المرافق للفيديو بشكل تلقائي ومقنع!

Veo 3: الفيديو يولد صوته… حتى بدون طلب!

قدمت جوجل نموذج Veo 3 في مؤتمر Google I/O، مسلطة الضوء على قدرته الجديدة في توليد الصوت المصاحب للفيديو. وصفه نائب الرئيس في Google Gemini، السيد جوش وودوارد، بأنه “واقعي بشكل لا يُصدق” وأننا “ندخل عصراً جديداً من صناعة الفيديوهات”.

هذا الوصف لم يكن مبالغاً فيه على الإطلاق، وفقاً لتجربة أحد المراسلين الذي اختبر النموذج. يُشير المراسل إلى قدرة Veo 3 على توليد عشرات المقاطع بسرعة، ولكن ما أثار دهشته وقلقه هو أن النموذج يستطيع أحياناً إضافة حوار (Dialogue) أو أصوات (Audio) بشكل تلقائي، حتى لو لم يتضمن موجه النص الأصلي أي طلب لإضافة صوت أو حوار!

ففي أحد الأمثلة، قام بتوليد مقطع فيديو يصور “جثة في الشارع”، ولاحظ أن حركات الضباط في المقطع كانت “خالية تماماً من الغرض”، وأن هناك عبارة يقولها أحدهم بإيماءة “نحن بحاجة إلى إزالة الشارع”، رغم أن موجه النص الذي قدمه لتوليد الفيديو لم يتضمن أي طلب لإضافة حوار! النموذج اخترع هذا الخط من تلقاء نفسه وأضافه إلى المقطع.

دقة “مرعبة” ومخاوف تتصاعد

تجربة المراسل مع Veo 3 كانت “أكثر من زاحفة بقليل وأكثر تطوراً مما تخيلت”. حتى بموجه نص أساسي، تمكن النموذج من توليد مقطع فيديو لمذيع أخبار يعلن عن حريق، ووجده “واقعياً مثل الجحيم”.

هذه الدقة العالية في توليد الفيديو والصوت والحوار تثير قلقاً حقيقياً ومخاوف جدية، خاصة عندما نرى ما تمكن آخرون من إنتاجه. فقد تم تداول مقاطع عبر الإنترنت تُظهر مذيعي أخبار يتحدثون عن أحداث لم تحدث، أو شخصيات تم إنشاؤها بالذكاء الاصطناعي في سيناريوهات صادمة (كوارث، شخصيات مهددة بالسلاح) مع حوار منطوق وأصوات خلفية واقعية جداً. هذه القدرة على توليد محتوى مرئي ومسموع مقنع للغاية من وصف بسيط تفتح الباب لإمكانيات خطيرة في نشر المعلومات المضللة (DeepFake) وتوليد محتوى ضار.

قيود موجودة… ولكن هل هي كافية؟

رغم المخاوف، يُشير المراسل إلى أن هناك “درابزين واضحة” (Clear Guardrails) وضعتها جوجل في النموذج. لا يمكنك طلب Veo 3 لتوليد محتوى يُظهر شخصيات سياسية في مواقف معينة (مثل سقوط رئيس أو اغتيال)، أو محتوى يحمل طابعاً ضاراً بشكل مباشر. هذا يُظهر أن جوجل تضع بعض الحدود الأخلاقية في النموذج.

ومع ذلك، يُمكن مع بعض الحيل “توليد بعض الهراء المقلق”. يذكر المراسل أنه تمكن بسهولة من توليد فيديو لـ “إبرة فضاء تحترق”، أو جبل يندلع منه الدخان والحمم البركانية من صورة ثابتة، بالإضافة إلى مذيعة أخبار تعلن عن الكارثة. هذه الأمثلة تُظهر كيف يمكن استخدام هذه الأداة لتوليد محتوى يُمكن استخدامه لنشر الذعر أو المعلومات الخاطئة، حتى لو لم تكن الأداة مصممة لذلك مباشرة.

Veo 3 والمحتوى غير المرغوب فيه للأطفال؟

أكثر ما أثار قلق المراسل هو قدرة Veo 3 على توليد نوع من محتوى يوتيوب “الأقل شأناً” والذي يستهدف الأطفال، على غرار الفيديوهات التي تملأ يوتيوب كيدز والتي تُصمم غالباً لزيادة المشاهدات بأبسط الطرق الممكنة (مثل شاحنات وحوش تسقط في ألوان). يُمكن للنموذج توليد مقاطع تُشبه هذه الفيديوهات بسهولة جداً وبسرعة (حتى مع إضافة موسيقى خلفية).

المثال الأكثر قلقاً بالنسبة له كان قدرة النموذج على توليد مقطع لشخصيات قطط كرتونية على رصيف، مع حوار تلقائي لم يكتبه هو، يتحدثن فيه عن أن الأسماك لا “تعض”. إذا كان من السهل توليد مقطع مدته 10 ثوانٍ بهذه الطريقة، فإن تمديده إلى فيديو أطول لرفعه على يوتيوب سيكون “تافهاً”.

في حين أن النماذج الحالية (في هذا الوقت من 2025) قد لا تستطيع توليد فيديو كامل الطول مع صوت وحوار تلقائي بجودة عالية في لقطة واحدة (تراجع إلى إصدارات أقدم بدون صوت عند محاولة التمديد)، فإن الوتيرة التي تدفع بها جوجل هذه الأدوات تُشير إلى أن هذه القدرة ليست ببعيدة.

في الختام: قوة هائلة تُصاحبها مسؤولية أكبر

نموذج Google Veo 3 هو إنجاز تقني مذهل يفتح آفاقاً جديدة في عالم توليد الفيديو، خاصة مع قدرته على إضافة الصوت والحوار تلقائياً. يُظهر النموذج مدى التقدم الهائل في مجال الذكاء الاصطناعي التوليدي.

ولكن هذه القوة الهائلة تُصاحبها مسؤولية أكبر. المخاوف المتعلقة بإساءة استخدام هذه التكنولوجيا لتوليد محتوى مضلل، أو ضار بالأطفال، أو غير مرغوب فيه، حقيقية جداً وتتطلب يقظة مستمرة من المطورين، المنصات التي تُتاح عليها هذه الأدوات (مثل يوتيوب)، والمستخدمين أنفسهم.

بينما يرى البعض أن الفيديو المولّد بالذكاء الاصطناعي يمكن أن يكون أداة إبداعية قوية في الأيدي الصحيحة، إلا أن طبيعة النموذج وتكلفة إنتاجه المنخفضة تُشير إلى أننا قد نشهد انتشاراً كبيراً للمحتوى الأقل جودة أو المقلق الذي يتميز بـ “الواقعية الكابوسية” التي يُجيد AI توليدها. المستقبل سيُظهر كيف ستتعامل الصناعة والمجتمع مع هذه “الآلة المطلقة من الذكاء الاصطناعي”.

Tqn news

يوسف البكري

متابع دائم لتسريبات الهواتف والابتكارات الجديدة، يقدم تغطية فورية لأحدث الشائعات والتقارير المسربة من كبرى شركات التقنية.
زر الذهاب إلى الأعلى