هوش‌مصنوعی Vlogger گوگل: ابزاری برای تبدیل عکس و صدا به ویدیو

شش نفر از محققان گوگل دست به دست هم دادن و VLOGGER رو ساختند، یه ابزار هوش مصنوعیِ جدید که میتونه تصاویر متحرک و واقع‌گرایی از افراد بسازه که دارن حرف میزنن.

هدف VLOGGER اینه که ویدیوهای باکیفیت و واقعی، با طول متغیر تولید کنه که نشون بده یه شخص خاص چطوری با حرکات و حالت‌های طبیعی حرف میزنه و حرکت می‌کنه.

داخل مکمل پروژه در GitHub توضیح داده‌شده که: «فریم‌ورک ما که اسمش VLOGGER هست یه سیستم دو مرحله‌ای بر پایه «stochastic diffusion models» برای مدل کردن «one-to-many» از گفتار به ویدیو.

شبکه اولیه، اطلاعاتی مثل موج صدا رو میگیره که از اونها «کنترل کننده‌های حرکات بدن» رو تولید میکنه، که مسئول جهت نگاه، حالت صورت، و فرم قرارگیری بدن هستن.

شبکه دوم شبکه‌ای هست به اسم «مدل ترجمه تصویر به تصویر زمانی» «temporal image-to-image translation» که مدل‌های بزرگ انتشار تصویر رو گسترش می‌ده، کنترل‌کننده‌های حرکات بدن رو می‌گیره و فریم‌های متناسب رو می‌سازه.

قراره که این مدل هوش مصنوعی، یه «عامل مکالمه» «embodied conversational agent» بشه که هم صدا داره، هم تصویر متحرک و واقعی که حالات چهره و حرکات پیشرفتهٔ بدن رو به تصویر می‌کشه.

هدف VLOGGER اینه که از مکالمات طبیعی با یک کاربر انسانی پشتیبانی کنه. از این تکنولوژی میشه تو پرزنت کردن، آموزش، ارائه محتوا و زمینه‌های دیگه و در عین حال ویدیوها رو ویرایش کرد.

داخل سند پروژه نوشته شده: «یکی از کاربردهای اصلی این مدل در ویرایش کردن ویدیوهای موجود هست، در این موارد VLOGGER میتونه ویدیو رو بگیره و حالات صورت فردی که تو ویدیو هست رو تغییر بده، مثلا دهان رو ببنده یا چشم‌ها رو بیشتر باز کنه و …

یکی دیگه از کاربردهای VLOGGER توی ترجمه ویدئو هست که ویدیو به یک زبان خاص رو می‌گیره و حرکات لب و صورت رو برای تطابق با صدا و زبان جدید تغییر می‌ده، مثلا فیلم‌های سینمایی که دوبله میشن و …

منبع

دیدگاهتان را بنویسید لغو پاسخ