مدل تبدیل متن به ویدیو Sora توسط OpenAI معرفی شد

ما در حال آموزش هوش مصنوعی برای درک و شبیه سازی دنیای فیزیکی در حرکت هستیم، با هدف آموزش مدل هایی که به مردم در حل مشکلاتی که نیاز به تعامل با دنیای واقعی دارند کمک کند.

معرفی Sora

مدل متن به ویدیوی سورا می‌تواند ویدیوهایی با حداکثر یک دقیقه زمان تولید کند و در عین حال کیفیت بصری و پایبندی به درخواست کاربر را حفظ کند.

بخش دوم: موارد استفاده و محدودیت های فعلی

امروز، سورا در دسترس تیم‌های قرمز قرار می‌گیرد تا زمینه‌های مهم آسیب یا ریسک‌ را ارزیابی کنند. ما همچنین به تعدادی از هنرمندان بصری، طراحان و فیلمسازان دسترسی اعطا می کنیم تا در مورد چگونگی پیشرفت مدل برای کمک بیشتر به متخصصان خلاق، بازخورد دریافت کنیم.

ما پیشرفت تحقیقات خود را زودتر به اشتراک می گذاریم تا کار با افراد خارج از OpenAI و دریافت بازخورد از آن‌ها را شروع کنیم و به مردم نشان دهیم که قابلیت های هوش مصنوعی در چه افقی قرار دارند.

Sora قادر است صحنه های پیچیده با چندین کاراکتر، انواع حرکات خاص و جزئیات دقیق سوژه و پس زمینه ایجاد کند. این مدل نه‌تنها آنچه کاربر در دستورالعمل خود خواسته است را درک می کند، بلکه نحوه وجود آن چیزها در دنیای فیزیکی را نیز تجسم می‌دهد.

این مدل درک عمیقی از زبان دارد و می‌تواند دستورات را به دقت تفسیر کرده و شخصیت های جذابی ایجاد کند که احساسات داشته بشند. سورا همچنین می‌تواند چندین نما را در یک ویدیوی ایجاد شده تولید کند که دقیقاً شخصیت‌ها و سبک بصری را حفظ کند.

مدل فعلی نقاط ضعفی دارد. ممکن است در شبیه‌سازی دقیق فیزیک یک صحنه پیچیده مشکل داشته باشد و ممکن است نمونه‌های خاصی از علت و معلول را درک نکند. به عنوان مثال، یک فرد ممکن است یک گاز از یک شیرینی بزند، اما پس از آن، ممکن است شیرینی جای گاز نداشته باشد.

این مدل همچنین ممکن است جزئیات مکانی یک دستورالعمل را اشتباه کند، برای مثال چپ و راست را با هم جابه‌جا کند، و ممکن است با توصیف دقیق رویدادهایی که در طول زمان اتفاق می‌افتند، مانند دنبال کردن یک مسیر این مشکل بیشتر خودش را نشان دهد.

بخش سوم: اقدامات ایمنی و مشارکتی

قبل از در دسترس قرار دادن سورا در محصولات OpenAI، چندین گام مهم ایمنی را برخواهیم داشت. ما با تیم‌های قرمز، کارشناسان حوزه در زمینه‌هایی مانند اطلاعات نادرست، محتوای نفرت‌انگیز و سوگیری‌دار کار می‌کنیم که این مدل را آزمایش می‌کنند.

ما همچنین در حال ساخت ابزارهایی هستیم که به شناسایی محتوای گمراه‌کننده کمک می‌کنند و می‌تواند تشخیص دهد که چه زمانی یک ویدیو توسط Sora تولید شده است. ما قصد داریم در صورتی این مدل را در یک محصول OpenAI به کار بگیریم که در آینده متادیتای C2PA را نیز شامل شود.

بخش چهارم: جزئیات فنی

سورا یک مدل انتشار است که برای شروع با تصویری که شبیه به نویز استاتیک به نظر می‌رسد ویدیو تولید می‌کند و به تدریج با حذف نویز در بسیاری از مراحل، آن را تغییر می‌دهد.

Sora قادر به تولید کل ویدیوها تنها به صورت یک‌باره یا با گسترش ویدیوهای تولید شده برای طولانی‌تر کردن آن‌ها می‌تواند دستیار شما باشد. Sora که مشابه با مدل‌های GPT است، از معماری transformer بهره می‌برد.

ما ویدیوها و تصاویر را به‌عنوان مجموعه‌ای از واحدهای کوچک‌تر داده به نام تکه‌ها نمایش می‌دهیم که هر کدام شبیه به یک توکن در GPT هستند. با یکسان‌سازی نحوه نمایش داده‌ها می‌توانیم diffusion transformer را در طیف وسیع‌تری از داده‌های بصری، در بازه‌های زمانی، کیفیت‌ها و نسبت‌های تصویر مختلف نسبت به آنچه قبلاً امکان‌پذیر بود آموزش دهیم.

Sora بر اساس تحقیقات گذشته در مدل‌های DALL·E و GPT ساخته شده است. این مدل از تکنیک کپشن‌ سازی مجدد DALL·E 3 استفاده می‌کند که شامل تولید کپشن‌های توصیفی برای داده‌های آموزشی بصری است. در نتیجه این مدل می‌تواند دستورالعمل‌های متنی کاربر را در ویدیوی تولید شده با دقت بیشتری دنبال کند.

این مدل علاوه بر قابلیت تولید یک ویدیو صرفاً از روی دستورالعمل‌های متنی، می‌تواند یک تصویر ثابت موجود را گرفته و از آن یک ویدیو بسازد و محتوای تصویر را با دقت و توجه به جزئیات کوچک متحرک‌سازی کند. این مدل همچنین می‌تواند یک ویدیوی موجود را گرفته و آن را گسترش دهد یا فریم‌های از دست رفته را پر کند.

Sora به عنوان پایه‌ای برای مدل‌هایی عمل می‌کند که می توانند دنیای واقعی را درک و شبیه‌سازی کنند، قابلیتی که ما معتقدیم نقطه عطف مهمی برای دستیابی به AGI خواهد بود.

منبع

دیدگاهتان را بنویسید