كشفت الباحثون في غوغل عن نظام ذكاء اصطناعي جديد يتيح تحويل الصور الثابتة إلى مقاطع فيديو متحركة، ويُطلق على ذلك النموذج اسم "فلوجر (VLOGGER)".
ووفقاً لما ذكره باحثو غوغل فإن ذلك النموذج يمكنه توليد مقاطع فيديو واقعية لأشخاص يتحدثون ويتحركون ويظهرون التعبيرات الجسدية والإيماءات من صورة ثابتة واحدة.
وتعتمد تلك التقنية على نماذج تعلم الآلة المتقدمة لإنتاج كثير من اللقطات الواقعية وتجميعها معاً في مقطع فيديو.
وتفتح تلك التقنية الباب لعدد كبير من التطبيقات المحتملة لها، لكنها في الوقت نفسه تثير المخاوف بشأن إساءة استخدامها للتضليل وإنتاج مقاطع فيديو على نحو يشبه آليات التزييف العميق.
— pritam (@Pritam_Roy1) March 19, 2024
— Alejandro | Copywriting Liberador (@CopyRebeldia) March 19, 2024
— Kanika (@KanikaBK) March 19, 2024
ووفقاً للورقة البحثية التي نشرها الباحثون في قطاع غوغل للأبحاث، يمكن لنموذج الذكاء الاصطناعي الجديد الاعتماد على مدخلات تتضمن صورة لشخص ما مع مقطع صوتي لإنتاج مقطع فيديو يُظهر الشخص وهو يتحدث بالصوت نفسه مع تعبيرات الوجه وإيماءات الرأس واليد الملائمة.
"VLOGGER".. طفرة كبيرة في تحريك الصور الثابتة
ومع أن مقاطع الفيديو التي نشرها باحثو غوغل ليست مثالية وبها بعض الأخطاء، وقصيرة نسبياً ولها خلفية ثابتة، ولا يتحرك الأفراد فيها في بيئة ثلاثية الأبعاد، لكنها تمثل طفرة كبيرة في تحريك الصور الثابتة.
واعتمد الباحثون على نوع جديد من نماذج الذكاء الاصطناعي تُسمى نماذج الانتشار "Diffusion Models"، التي أظهرت أداءً مميزاً في توليد الصور من النصوص، وقد وسع فريق الباحثين استخدامها ليشمل توليد مقاطع الفيديو مع التدريب على مجموعة ضخمة من البيانات، شملت ما يزيد على 800 ألف هوية مختلفة و 2200 ساعة من مقاطع الفيديو، مما أتاح لنموذج "VLOGGER" تعلم إنشاء مقاطع فيديو لأشخاص من أعراق وأعمار وملابس وأوضاع وبيئات متنوعة من دون تحيز.
ويمكن استخدام نموذج "VLOGGER" في العديد من الاستخدامات، ومنها دبلجة مقاطع الفيديو تلقائياً عبر تبديل المسار الصوتي، وملء الإطارات المفقودة في مقاطع الفيديو، وإنشاء صور رمزية واقعية للألعاب والواقع الافتراضي، وإنشاء ربوتوتات دردشة يمكنها التفاعل مع المستخدمين على نحو أفضل. ومع ذلك، فإن احتمالية إساءة استخدام النموذج ما تزال قائمة.
المصدر: البوابة العربية للأخبار التقنية