گوگل Gemini 1.5 را معرفی کرد

گوگل Gemini 1.5 را معرفی کرد

گوگل کمی قبل‌تر قوی‌ترین مدل خود یعنی Gemini 1.0 Ultra را معرفی کرد، مدلی که از امروز امکان کار با API های آن از طریق Gemini API در AI Studio و Vertex AI وجود دارد.

مدل Gemini 1.5 وارد می‌شود

در همین حال گوگل به دنبال Gemini 1.5 است، نسخه‌ای پیشرفته که کیفیتی مشابه و حتی بالاتر از Gemini 1.0 Ultra دارد اما منابع محسابتی کمتری مصرف خواهد کرد.

این نسل جدید همچنین یک نوآوری در درک زمینه‌های با متن طولانی ارائه می‌دهد. توانسته است مقدار اطلاعاتی که مدل‌های دیگر می‌توانند پردازش کنند را به‌طور چشمگیری افزایش دهد، اجرای مداوم تا ۱ میلیون توکن به طولانی‌ترین توکن متنی از هر مدل بنیادی در مقیاس بزرگ دست یافته است. توکن‌های متنی گسترده‌تر به ما نوید امکانات بسیاری می‌دهند.

در واقع مدل Gemini 1.5 از معماری جدید و ترکیبی (MoE) استفاده میکند.

اولین مدل Gemini 1.5 Pro خواهد بود

اولین مدل Gemini 1.5 که برای تست های اولیه منتشر می‌شود Gemini 1.5 Pro است. یک مدل چندوجهی با مقیاس متوسط که برای تطبیق پذیری در یک‌ گستره‌ی وسیعی از وظایف، بهینه‌سازی‌شده و در سطحی مشابه با 1.0 Ultra، بزرگترین مدل گوگل تا به امروز عمل‌ می‌کند.

Gemini 1.5 Pro می‌تواند تا ۱۲۸.۰۰۰ توکن را پردازش کند و گوگل در حال توسعه نسخه‌ای است که توانایی پردازش تا ۱ میلیون توکن را دارد، این نسخه آزمایشی قرار است از طریق AI Studio و Vertex AI در دسترس قرار بگیرید.

Gemini 1.5 Pro در ۸۷ درصد از معیارهای مورد استفاده که شامل طیف گسترده ای از ارزیابی‌های متنی، تصویری، صوتی و ویدیویی می‌شود، از Gemini 1.0 Pro بسیار بهتر عمل می‌کند. در مقایسه با 1.0 Ultra، در همان معیارها، عملکرد مشابهی از خود نشان می دهد.

مدل Gemini 1.5 Pro حتی با پردازش ۱ میلیون توکن عملکرد بالایی دارد

Gemini 1.5 Pro حتی با افزایش طول متون ورودی به آن، سطح عملکرد بالایی را حفظ می کند. به عنوان مثال، در شرایطی که یک داده کلان تا یک میلیون توکن (واحد معنادار در پردازش زبان) حاوی داده متنی خاصی است، در ۹۹ درصد موارد مدل 1.5 Pro داده هدف را با موفقیت پیدا کرده است.

این مدل قابلیت قابل توجهی به نام «یادگیری درون متنی» از خود نشان می‌دهد. به این معنی که می‌تواند یک مهارت جدید را تنها از اطلاعات موجود در متن بدون نیاز به آموزش های اضافه، فرا بگیرد. این مهارت را می‌توان به روشنی در ترجمه زبان های کمتر رایج با منابع یادگیری اندک مشاهده کرد.

به عنوان مثال، هنگام ارائه یک کتاب دستور زبان برای Kalamang (زبانی با کمتر از 200 گویش‌ور در سراسر جهان) این مدل با مطالعه همان دستور توانایی ترجمه از انگلیسی به Kalamang را در سطحی به خوبی یک زبان آموز انسانی پیدا می‌کند.

تیم قرمز مراقب همه‌چیز است

تیم قرمز (Red Teaming) یک تیم با استراتژی امنیتی است که در آن یک گروه مستقل تلاش می‌کند تا آسیب‌پذیری‌ها و خطرات را در یک سیستم با شبیه‌سازی روش‌های یک مهاجم شناسایی کند. گوگل می‌گوید قبل از انتشار 1.5 Pro، ما همان رویکردی را برای استقرار مسئولانه در پیش گرفته‌ایم که برای مدل‌های Gemini 1.0 خود انجام دادیم، ارزیابی‌های گسترده‌ای را در حوزه‌هایی از جمله ایمنی محتوا و آسیب‌های بازنمایی انجام دادیم و به گسترش این آزمایش‌ها ادامه خواهیم داد. فراتر از این، ما در حال توسعه آزمایش‌های بیشتری هستیم که قابلیت‌های جدید متن طولانی 1.5 Pro را در نظر می‌گیرند.

نکته: توکن چیست؟

در پردازش زبان طبیعی، توکن ها قطعات اساسی متن مانند کلمات یا کاراکترها هستند. پنجره متنی به میزان داده ورودی که یک مدل هوش مصنوعی می تواند در یک زمان تحلیل کند اشاره دارد.

تست‌کنندگان اولیه می‌توانند پنجره متن 1 میلیون توکن را در طول دوره آزمایش بدون هیچ هزینه‌ای امتحان کنند، اگرچه باید انتظار زمان‌های تأخیر بیشتری را با این ویژگی آزمایشی داشته باشند. بهبود قابل توجهی در سرعت نیز در حال انجام است.

منبع

دیدگاهتان را بنویسید