گوگل کمی قبلتر قویترین مدل خود یعنی Gemini 1.0 Ultra را معرفی کرد، مدلی که از امروز امکان کار با API های آن از طریق Gemini API در AI Studio و Vertex AI وجود دارد.
مدل Gemini 1.5 وارد میشود
در همین حال گوگل به دنبال Gemini 1.5 است، نسخهای پیشرفته که کیفیتی مشابه و حتی بالاتر از Gemini 1.0 Ultra دارد اما منابع محسابتی کمتری مصرف خواهد کرد.
این نسل جدید همچنین یک نوآوری در درک زمینههای با متن طولانی ارائه میدهد. توانسته است مقدار اطلاعاتی که مدلهای دیگر میتوانند پردازش کنند را بهطور چشمگیری افزایش دهد، اجرای مداوم تا ۱ میلیون توکن به طولانیترین توکن متنی از هر مدل بنیادی در مقیاس بزرگ دست یافته است. توکنهای متنی گستردهتر به ما نوید امکانات بسیاری میدهند.
در واقع مدل Gemini 1.5 از معماری جدید و ترکیبی (MoE) استفاده میکند.
اولین مدل Gemini 1.5 Pro خواهد بود
اولین مدل Gemini 1.5 که برای تست های اولیه منتشر میشود Gemini 1.5 Pro است. یک مدل چندوجهی با مقیاس متوسط که برای تطبیق پذیری در یک گسترهی وسیعی از وظایف، بهینهسازیشده و در سطحی مشابه با 1.0 Ultra، بزرگترین مدل گوگل تا به امروز عمل میکند.
Gemini 1.5 Pro میتواند تا ۱۲۸.۰۰۰ توکن را پردازش کند و گوگل در حال توسعه نسخهای است که توانایی پردازش تا ۱ میلیون توکن را دارد، این نسخه آزمایشی قرار است از طریق AI Studio و Vertex AI در دسترس قرار بگیرید.
Gemini 1.5 Pro در ۸۷ درصد از معیارهای مورد استفاده که شامل طیف گسترده ای از ارزیابیهای متنی، تصویری، صوتی و ویدیویی میشود، از Gemini 1.0 Pro بسیار بهتر عمل میکند. در مقایسه با 1.0 Ultra، در همان معیارها، عملکرد مشابهی از خود نشان می دهد.
مدل Gemini 1.5 Pro حتی با پردازش ۱ میلیون توکن عملکرد بالایی دارد
Gemini 1.5 Pro حتی با افزایش طول متون ورودی به آن، سطح عملکرد بالایی را حفظ می کند. به عنوان مثال، در شرایطی که یک داده کلان تا یک میلیون توکن (واحد معنادار در پردازش زبان) حاوی داده متنی خاصی است، در ۹۹ درصد موارد مدل 1.5 Pro داده هدف را با موفقیت پیدا کرده است.
این مدل قابلیت قابل توجهی به نام «یادگیری درون متنی» از خود نشان میدهد. به این معنی که میتواند یک مهارت جدید را تنها از اطلاعات موجود در متن بدون نیاز به آموزش های اضافه، فرا بگیرد. این مهارت را میتوان به روشنی در ترجمه زبان های کمتر رایج با منابع یادگیری اندک مشاهده کرد.
به عنوان مثال، هنگام ارائه یک کتاب دستور زبان برای Kalamang (زبانی با کمتر از 200 گویشور در سراسر جهان) این مدل با مطالعه همان دستور توانایی ترجمه از انگلیسی به Kalamang را در سطحی به خوبی یک زبان آموز انسانی پیدا میکند.
تیم قرمز مراقب همهچیز است
تیم قرمز (Red Teaming) یک تیم با استراتژی امنیتی است که در آن یک گروه مستقل تلاش میکند تا آسیبپذیریها و خطرات را در یک سیستم با شبیهسازی روشهای یک مهاجم شناسایی کند. گوگل میگوید قبل از انتشار 1.5 Pro، ما همان رویکردی را برای استقرار مسئولانه در پیش گرفتهایم که برای مدلهای Gemini 1.0 خود انجام دادیم، ارزیابیهای گستردهای را در حوزههایی از جمله ایمنی محتوا و آسیبهای بازنمایی انجام دادیم و به گسترش این آزمایشها ادامه خواهیم داد. فراتر از این، ما در حال توسعه آزمایشهای بیشتری هستیم که قابلیتهای جدید متن طولانی 1.5 Pro را در نظر میگیرند.
نکته: توکن چیست؟
در پردازش زبان طبیعی، توکن ها قطعات اساسی متن مانند کلمات یا کاراکترها هستند. پنجره متنی به میزان داده ورودی که یک مدل هوش مصنوعی می تواند در یک زمان تحلیل کند اشاره دارد.
تستکنندگان اولیه میتوانند پنجره متن 1 میلیون توکن را در طول دوره آزمایش بدون هیچ هزینهای امتحان کنند، اگرچه باید انتظار زمانهای تأخیر بیشتری را با این ویژگی آزمایشی داشته باشند. بهبود قابل توجهی در سرعت نیز در حال انجام است.