شش نفر از محققان گوگل دست به دست هم دادن و VLOGGER رو ساختند، یه ابزار هوش مصنوعیِ جدید که میتونه تصاویر متحرک و واقعگرایی از افراد بسازه که دارن حرف میزنن.
هدف VLOGGER اینه که ویدیوهای باکیفیت و واقعی، با طول متغیر تولید کنه که نشون بده یه شخص خاص چطوری با حرکات و حالتهای طبیعی حرف میزنه و حرکت میکنه.
داخل مکمل پروژه در GitHub توضیح دادهشده که: «فریمورک ما که اسمش VLOGGER هست یه سیستم دو مرحلهای بر پایه «stochastic diffusion models» برای مدل کردن «one-to-many» از گفتار به ویدیو.
شبکه اولیه، اطلاعاتی مثل موج صدا رو میگیره که از اونها «کنترل کنندههای حرکات بدن» رو تولید میکنه، که مسئول جهت نگاه، حالت صورت، و فرم قرارگیری بدن هستن.
شبکه دوم شبکهای هست به اسم «مدل ترجمه تصویر به تصویر زمانی» «temporal image-to-image translation» که مدلهای بزرگ انتشار تصویر رو گسترش میده، کنترلکنندههای حرکات بدن رو میگیره و فریمهای متناسب رو میسازه.
قراره که این مدل هوش مصنوعی، یه «عامل مکالمه» «embodied conversational agent» بشه که هم صدا داره، هم تصویر متحرک و واقعی که حالات چهره و حرکات پیشرفتهٔ بدن رو به تصویر میکشه.
هدف VLOGGER اینه که از مکالمات طبیعی با یک کاربر انسانی پشتیبانی کنه. از این تکنولوژی میشه تو پرزنت کردن، آموزش، ارائه محتوا و زمینههای دیگه و در عین حال ویدیوها رو ویرایش کرد.
داخل سند پروژه نوشته شده: «یکی از کاربردهای اصلی این مدل در ویرایش کردن ویدیوهای موجود هست، در این موارد VLOGGER میتونه ویدیو رو بگیره و حالات صورت فردی که تو ویدیو هست رو تغییر بده، مثلا دهان رو ببنده یا چشمها رو بیشتر باز کنه و …
یکی دیگه از کاربردهای VLOGGER توی ترجمه ویدئو هست که ویدیو به یک زبان خاص رو میگیره و حرکات لب و صورت رو برای تطابق با صدا و زبان جدید تغییر میده، مثلا فیلمهای سینمایی که دوبله میشن و …