مدل grok-1 به صورت متن‌باز در گیت‌هاب منتشر شد

مدل grok-1 به صورت متن‌باز در گیت‌هاب منتشر شد

کمپانی xAI امروز اعلام کرد که مدل زبانی بزرگ Grok ۱ (LLM) به طور رسمی تحت مجوز متن‌باز آپاچی ۲.۰ در دسترس هست، این مجوز استفاده آزادانه از کد منبع برای کاربردهای تجاری و شخصی رو بدون نیاز به پرداخت هیچ‌گونه حق امتیازی، فراهم می‌کنه. طبق گفته شرکت X.ai

“این مدل پایه و خام هست و مربوط به مرحله پیش‌آموزش Grok-1 میشه که توی اکتبر ۲۰۲۳ به پایان رسیده. یعنی هیچگونه تنظیم ظریفی روی مدل برای کاربردهای خاص، مثل گفتگو و … انجام نشده.

این شرکت در GitHub repository خودش نوشته:

کدی که اینجا منتشر شده به همراه weights مدل Grok-1 تحت مجوز آپاچی ۲٫۰ عرضه میشه. این مجوز فقط روی فایل‌های کد سورس و weights این مدل میشه.

این شفاف‌سازی به این معناست که کاربرها اجازه ندارن به بقیه مدل‌های xAI که ممکنه همین اسم یا یه اسم مشابهی داشته باشن دسترسی پیدا کنن.

این دستیار هوش مصنوعی Grok نیست

این اطلاعیه محدود میشه به انتشار مدل پیش‌آموزش Grok-1 و به این معناست که حالتی از مدل رو منتشر کردن که قبل از طی کردن مرحله دستورالعمل بوده، در اون فاز مدل برای گفتمان بهبود پیدا میکنه. همچنین این یعنی اگه کسی بخواد رقیب Grok بسازه نمی‌تونه مدل رو دانلود کنه و اسم خودشو روش بذاره. برای رسیدن به هدف نهایی، مدل به آموزش بیشتری نیاز داره و به این ترتیب، ممکنه شرکت‌هایی که می‌خوان یه ربات گفتگو درست کنن بهتر باشه از یکی از مدل‌های Llama ۲ Instruct یا Mistral Instruct متعلق به متا استفاده کنن.

جزئیات فنی مدل grok-1

xAI بعضی جزئیات جدید از مدل رو هم منتشر کرد. به همراه در دسترس قرار دادن weights مدل (که همیشه از مدل‌های تجاری پنهان می‌شه و توی بقیه مدل‌های متن‌باز هم اغلب withheld میشه)، xAI این رو هم افشا کرد که Grok-1 یه مدل با ۳۱۴ میلیارد پارامتره. وقتی برای اولین بار توی نوامبر ۲۰۲۳ این مدل معرفی شد، شرکت تعداد پارامترها رو اعلام نکرد ولی به جای اون گفت Grok-0 مدلی با ۳۳ میلیارد پارامتره.

این تایید می‌کنه که Grok-1 یه مدل خیلی بزرگه که از GPT-3/3.5 بزرگتره ولی احتمالا از GPT-4 کوچکتره. همچنین بیشتر از ۴ برابر بزرگتر از مدل متعلق به متا یعنی Llama ۲ ۷۰B هست. تعداد پارامتر با عملکرد مدل رابطه مستقیم نداره ولی اغلب وقتی با مجموعه داده بزرگ و باکیفیت، و با معماری‌های خوب همراه بشه نتایج بهتری به ارمغان میاد. بنچمارک‌هایی که توی نوامبر توسط xAI منتشر شد نشون می‌داد که Grok-1 نسبت به GPT-3.5 و Llama ۲ قویتر عمل کرده.

معماری Grok بر اساس طراحی MoE ساخته شده است

xAI همچنین به این نکته اشاره کرد که معماری Grok-1 بر اساس طراحی Mixture-of-experts، یا همون MoE هست. این می‌تونه نقطه مهمی باشه. شایعاتی هست که مدتهاست داره درمورد GPT-4 میگن که معماریش از همین نوعه، و مدل Mistral Mixtral ۸x۷B هم از همین روش بهره برده.
دسته‌ای از پژوهشگران هستن که اعتقاد دارن مدل‌های MoE برای Scale Up شدن و رسیدن به عملکرد بهتر، کارآمدتر از صرفا افزایش تعداد پارامتره. به جای استفاده از یه مدل عظیم که همه کوئری‌ها پردازش میکنه، توی MoE ما با چندین مدل «expert» سروکار داریم که بر اساس نوع وظیفه مشخص میشه، مثلا میشه زیرمدل‌های expert در حوزه استدلال، ترجمه زبان، تولید زبان، خلاصه‌سازی، یا ریاضی درست کرد.

برخلاف مدل‌های یکپارچه مثل GPT-3، مدل‌های MoE امکان میانجیگری هم دارن. میانجیگری، وظایف رو بر اساس درخواست به مدل‌های فرعی می‌سپره و قبل از اینکه پاسخ رو تحویل بده، اون رو ارزیابی می‌کنه. با اینکه کل این مدل LLM برای هر کوئری فعال نمیشه، این مسئله می‌تونه هزینه پردازش و میزان تاخیر رو به میزان قابل توجهی کم کنه.

چه کسی واقعا طرفدار متن‌باز است؟

این موضوعی هست که همه می‌دونن، ایلان ماسک از همون اول با سم آلتمن، مدیرعامل OpenAI همکاری کرد که هدفشون ساختن مدل‌های هوش مصنوعی با سورس باز بود. این داستان اصلی تاسیس این شرکت به حساب میاد.
در نهایت OpenAI تصمیم گرفت از مسیرش برگرده و روش کار رو عوض کنه، چون فهمید برای ساخت تکنولوژی‌ای شبیه به GPT-4، یا با هدف دستیابی به اون آرمان هوش مصنوعی جامع (AGI)، به منابع مالی‌ای نیاز داره که خیلی بیشتر از سطحی هست که می‌شه توی یه شرکت غیرانتفاعی به دست آورد. البته این دلیل به تنهایی نمی‌تونه به طور کامل توضیح بده چرا OpenAI تصمیم گرفت اون حالت open-source رو نگه نداره یا یه مجوز خیلی آزادانه‌تری رو تولید نکنه، مثلا مثل متا! ولی در هر صورت این تصمیم‌ها به صورت همزمان اتخاذ شدن.

ماسک می‌گه به همین دلیل از OpenAI خارج شده، البته بعدها مشخص شد که جدایی او بعد از این بود که تسلا (که مالکیتش با ماسک بود) پیشنهاد خرید شرکت OpenAI رو داد و اونا رد کردن. ماسک توی مارس ۲۰۲۴ دادخواست حقوقی علیه شرکت ارائه داد، بر اساس این ادعا که OpenAI اون توافقات اولیه و شرایط تاسیس رو نقض کرده و در اصل با این کار باعث نقض قرارداد با سرمایه‌گذارهای اولیه شده. چند روز بعدش، OpenAI پاسخی رو به صورت یه پست توی بلاگش منتشر کرد.

شخصیت‌های برجسته دنیای فناوری مثل جف بزوس کمی قبل از همه این جریان‌ها توی توییتر اعلام کرده بود که از نظرش هیچ تفاوتی بین xAI و Grok و OpenAI نیست، چون هردوی این شرکت‌ها مدل‌های هوش مصنوعی انحصاری دارن و نمیذارن بقیه استفاده کنن. خب حالا این وضعیت تا حدودی تغییر کرده… Grok-1 متن‌باز هست و این تفاوت بارزی هست با OpenAI که فقط مدل‌های اختصاصی عرضه می‌کنه. البته Grok-1 دقیقا همون مدلی نیست که توی دستیار هوش مصنوعی Grok استفاده می‌شه. از یه لحاظ می‌شه گفت xAI هر دو نوع مدل رو در حال حاضر داره، هم open-source و هم مدل‌های انحصاری.

جالبه که Mistral به عنوان یه مدل زبانی بزرگ متن‌باز وارد بازار شد و بعد از اون یه مدل متن‌باز دیگه هم معرفی کرد. به تازگی هم این شرکت دو LLM انحصاری دیگه منتشر کرده. گوگل که در گذشته فقط مدل‌های انحصاری ارائه می‌داد، الان یه مدل زبانی کوچک open داره که به همراه محصولات دیگه‌اش عرضه می‌کنه. اینجا نکته مهمی هست، من برای گوگل و متا از کلمه مدل «open» استفاده کردم نه «open – source». مدل‌های open برای استفاده در دسترس قرار می‌گیرن ولی محدودیت‌هایی دارن که بیشتر از اون چیزی هست که توی مجوزهای open-source می‌بینیم.

منبع

دیدگاهتان را بنویسید