ما در حال آموزش هوش مصنوعی برای درک و شبیه سازی دنیای فیزیکی در حرکت هستیم، با هدف آموزش مدل هایی که به مردم در حل مشکلاتی که نیاز به تعامل با دنیای واقعی دارند کمک کند.
معرفی Sora
مدل متن به ویدیوی سورا میتواند ویدیوهایی با حداکثر یک دقیقه زمان تولید کند و در عین حال کیفیت بصری و پایبندی به درخواست کاربر را حفظ کند.
بخش دوم: موارد استفاده و محدودیت های فعلی
امروز، سورا در دسترس تیمهای قرمز قرار میگیرد تا زمینههای مهم آسیب یا ریسک را ارزیابی کنند. ما همچنین به تعدادی از هنرمندان بصری، طراحان و فیلمسازان دسترسی اعطا می کنیم تا در مورد چگونگی پیشرفت مدل برای کمک بیشتر به متخصصان خلاق، بازخورد دریافت کنیم.
ما پیشرفت تحقیقات خود را زودتر به اشتراک می گذاریم تا کار با افراد خارج از OpenAI و دریافت بازخورد از آنها را شروع کنیم و به مردم نشان دهیم که قابلیت های هوش مصنوعی در چه افقی قرار دارند.
Sora قادر است صحنه های پیچیده با چندین کاراکتر، انواع حرکات خاص و جزئیات دقیق سوژه و پس زمینه ایجاد کند. این مدل نهتنها آنچه کاربر در دستورالعمل خود خواسته است را درک می کند، بلکه نحوه وجود آن چیزها در دنیای فیزیکی را نیز تجسم میدهد.
این مدل درک عمیقی از زبان دارد و میتواند دستورات را به دقت تفسیر کرده و شخصیت های جذابی ایجاد کند که احساسات داشته بشند. سورا همچنین میتواند چندین نما را در یک ویدیوی ایجاد شده تولید کند که دقیقاً شخصیتها و سبک بصری را حفظ کند.
مدل فعلی نقاط ضعفی دارد. ممکن است در شبیهسازی دقیق فیزیک یک صحنه پیچیده مشکل داشته باشد و ممکن است نمونههای خاصی از علت و معلول را درک نکند. به عنوان مثال، یک فرد ممکن است یک گاز از یک شیرینی بزند، اما پس از آن، ممکن است شیرینی جای گاز نداشته باشد.
این مدل همچنین ممکن است جزئیات مکانی یک دستورالعمل را اشتباه کند، برای مثال چپ و راست را با هم جابهجا کند، و ممکن است با توصیف دقیق رویدادهایی که در طول زمان اتفاق میافتند، مانند دنبال کردن یک مسیر این مشکل بیشتر خودش را نشان دهد.
بخش سوم: اقدامات ایمنی و مشارکتی
قبل از در دسترس قرار دادن سورا در محصولات OpenAI، چندین گام مهم ایمنی را برخواهیم داشت. ما با تیمهای قرمز، کارشناسان حوزه در زمینههایی مانند اطلاعات نادرست، محتوای نفرتانگیز و سوگیریدار کار میکنیم که این مدل را آزمایش میکنند.
ما همچنین در حال ساخت ابزارهایی هستیم که به شناسایی محتوای گمراهکننده کمک میکنند و میتواند تشخیص دهد که چه زمانی یک ویدیو توسط Sora تولید شده است. ما قصد داریم در صورتی این مدل را در یک محصول OpenAI به کار بگیریم که در آینده متادیتای C2PA را نیز شامل شود.
بخش چهارم: جزئیات فنی
سورا یک مدل انتشار است که برای شروع با تصویری که شبیه به نویز استاتیک به نظر میرسد ویدیو تولید میکند و به تدریج با حذف نویز در بسیاری از مراحل، آن را تغییر میدهد.
Sora قادر به تولید کل ویدیوها تنها به صورت یکباره یا با گسترش ویدیوهای تولید شده برای طولانیتر کردن آنها میتواند دستیار شما باشد. Sora که مشابه با مدلهای GPT است، از معماری transformer بهره میبرد.
ما ویدیوها و تصاویر را بهعنوان مجموعهای از واحدهای کوچکتر داده به نام تکهها نمایش میدهیم که هر کدام شبیه به یک توکن در GPT هستند. با یکسانسازی نحوه نمایش دادهها میتوانیم diffusion transformer را در طیف وسیعتری از دادههای بصری، در بازههای زمانی، کیفیتها و نسبتهای تصویر مختلف نسبت به آنچه قبلاً امکانپذیر بود آموزش دهیم.
Sora بر اساس تحقیقات گذشته در مدلهای DALL·E و GPT ساخته شده است. این مدل از تکنیک کپشن سازی مجدد DALL·E 3 استفاده میکند که شامل تولید کپشنهای توصیفی برای دادههای آموزشی بصری است. در نتیجه این مدل میتواند دستورالعملهای متنی کاربر را در ویدیوی تولید شده با دقت بیشتری دنبال کند.
این مدل علاوه بر قابلیت تولید یک ویدیو صرفاً از روی دستورالعملهای متنی، میتواند یک تصویر ثابت موجود را گرفته و از آن یک ویدیو بسازد و محتوای تصویر را با دقت و توجه به جزئیات کوچک متحرکسازی کند. این مدل همچنین میتواند یک ویدیوی موجود را گرفته و آن را گسترش دهد یا فریمهای از دست رفته را پر کند.
Sora به عنوان پایهای برای مدلهایی عمل میکند که می توانند دنیای واقعی را درک و شبیهسازی کنند، قابلیتی که ما معتقدیم نقطه عطف مهمی برای دستیابی به AGI خواهد بود.