کمپانی xAI امروز اعلام کرد که مدل زبانی بزرگ Grok ۱ (LLM) به طور رسمی تحت مجوز متنباز آپاچی ۲.۰ در دسترس هست، این مجوز استفاده آزادانه از کد منبع برای کاربردهای تجاری و شخصی رو بدون نیاز به پرداخت هیچگونه حق امتیازی، فراهم میکنه. طبق گفته شرکت X.ai
“این مدل پایه و خام هست و مربوط به مرحله پیشآموزش Grok-1 میشه که توی اکتبر ۲۰۲۳ به پایان رسیده. یعنی هیچگونه تنظیم ظریفی روی مدل برای کاربردهای خاص، مثل گفتگو و … انجام نشده.
این شرکت در GitHub repository خودش نوشته:
کدی که اینجا منتشر شده به همراه weights مدل Grok-1 تحت مجوز آپاچی ۲٫۰ عرضه میشه. این مجوز فقط روی فایلهای کد سورس و weights این مدل میشه.
این شفافسازی به این معناست که کاربرها اجازه ندارن به بقیه مدلهای xAI که ممکنه همین اسم یا یه اسم مشابهی داشته باشن دسترسی پیدا کنن.
این دستیار هوش مصنوعی Grok نیست
این اطلاعیه محدود میشه به انتشار مدل پیشآموزش Grok-1 و به این معناست که حالتی از مدل رو منتشر کردن که قبل از طی کردن مرحله دستورالعمل بوده، در اون فاز مدل برای گفتمان بهبود پیدا میکنه. همچنین این یعنی اگه کسی بخواد رقیب Grok بسازه نمیتونه مدل رو دانلود کنه و اسم خودشو روش بذاره. برای رسیدن به هدف نهایی، مدل به آموزش بیشتری نیاز داره و به این ترتیب، ممکنه شرکتهایی که میخوان یه ربات گفتگو درست کنن بهتر باشه از یکی از مدلهای Llama ۲ Instruct یا Mistral Instruct متعلق به متا استفاده کنن.
جزئیات فنی مدل grok-1
xAI بعضی جزئیات جدید از مدل رو هم منتشر کرد. به همراه در دسترس قرار دادن weights مدل (که همیشه از مدلهای تجاری پنهان میشه و توی بقیه مدلهای متنباز هم اغلب withheld میشه)، xAI این رو هم افشا کرد که Grok-1 یه مدل با ۳۱۴ میلیارد پارامتره. وقتی برای اولین بار توی نوامبر ۲۰۲۳ این مدل معرفی شد، شرکت تعداد پارامترها رو اعلام نکرد ولی به جای اون گفت Grok-0 مدلی با ۳۳ میلیارد پارامتره.
این تایید میکنه که Grok-1 یه مدل خیلی بزرگه که از GPT-3/3.5 بزرگتره ولی احتمالا از GPT-4 کوچکتره. همچنین بیشتر از ۴ برابر بزرگتر از مدل متعلق به متا یعنی Llama ۲ ۷۰B هست. تعداد پارامتر با عملکرد مدل رابطه مستقیم نداره ولی اغلب وقتی با مجموعه داده بزرگ و باکیفیت، و با معماریهای خوب همراه بشه نتایج بهتری به ارمغان میاد. بنچمارکهایی که توی نوامبر توسط xAI منتشر شد نشون میداد که Grok-1 نسبت به GPT-3.5 و Llama ۲ قویتر عمل کرده.
معماری Grok بر اساس طراحی MoE ساخته شده است
xAI همچنین به این نکته اشاره کرد که معماری Grok-1 بر اساس طراحی Mixture-of-experts، یا همون MoE هست. این میتونه نقطه مهمی باشه. شایعاتی هست که مدتهاست داره درمورد GPT-4 میگن که معماریش از همین نوعه، و مدل Mistral Mixtral ۸x۷B هم از همین روش بهره برده.
دستهای از پژوهشگران هستن که اعتقاد دارن مدلهای MoE برای Scale Up شدن و رسیدن به عملکرد بهتر، کارآمدتر از صرفا افزایش تعداد پارامتره. به جای استفاده از یه مدل عظیم که همه کوئریها پردازش میکنه، توی MoE ما با چندین مدل «expert» سروکار داریم که بر اساس نوع وظیفه مشخص میشه، مثلا میشه زیرمدلهای expert در حوزه استدلال، ترجمه زبان، تولید زبان، خلاصهسازی، یا ریاضی درست کرد.
برخلاف مدلهای یکپارچه مثل GPT-3، مدلهای MoE امکان میانجیگری هم دارن. میانجیگری، وظایف رو بر اساس درخواست به مدلهای فرعی میسپره و قبل از اینکه پاسخ رو تحویل بده، اون رو ارزیابی میکنه. با اینکه کل این مدل LLM برای هر کوئری فعال نمیشه، این مسئله میتونه هزینه پردازش و میزان تاخیر رو به میزان قابل توجهی کم کنه.
چه کسی واقعا طرفدار متنباز است؟
این موضوعی هست که همه میدونن، ایلان ماسک از همون اول با سم آلتمن، مدیرعامل OpenAI همکاری کرد که هدفشون ساختن مدلهای هوش مصنوعی با سورس باز بود. این داستان اصلی تاسیس این شرکت به حساب میاد.
در نهایت OpenAI تصمیم گرفت از مسیرش برگرده و روش کار رو عوض کنه، چون فهمید برای ساخت تکنولوژیای شبیه به GPT-4، یا با هدف دستیابی به اون آرمان هوش مصنوعی جامع (AGI)، به منابع مالیای نیاز داره که خیلی بیشتر از سطحی هست که میشه توی یه شرکت غیرانتفاعی به دست آورد. البته این دلیل به تنهایی نمیتونه به طور کامل توضیح بده چرا OpenAI تصمیم گرفت اون حالت open-source رو نگه نداره یا یه مجوز خیلی آزادانهتری رو تولید نکنه، مثلا مثل متا! ولی در هر صورت این تصمیمها به صورت همزمان اتخاذ شدن.
ماسک میگه به همین دلیل از OpenAI خارج شده، البته بعدها مشخص شد که جدایی او بعد از این بود که تسلا (که مالکیتش با ماسک بود) پیشنهاد خرید شرکت OpenAI رو داد و اونا رد کردن. ماسک توی مارس ۲۰۲۴ دادخواست حقوقی علیه شرکت ارائه داد، بر اساس این ادعا که OpenAI اون توافقات اولیه و شرایط تاسیس رو نقض کرده و در اصل با این کار باعث نقض قرارداد با سرمایهگذارهای اولیه شده. چند روز بعدش، OpenAI پاسخی رو به صورت یه پست توی بلاگش منتشر کرد.
شخصیتهای برجسته دنیای فناوری مثل جف بزوس کمی قبل از همه این جریانها توی توییتر اعلام کرده بود که از نظرش هیچ تفاوتی بین xAI و Grok و OpenAI نیست، چون هردوی این شرکتها مدلهای هوش مصنوعی انحصاری دارن و نمیذارن بقیه استفاده کنن. خب حالا این وضعیت تا حدودی تغییر کرده… Grok-1 متنباز هست و این تفاوت بارزی هست با OpenAI که فقط مدلهای اختصاصی عرضه میکنه. البته Grok-1 دقیقا همون مدلی نیست که توی دستیار هوش مصنوعی Grok استفاده میشه. از یه لحاظ میشه گفت xAI هر دو نوع مدل رو در حال حاضر داره، هم open-source و هم مدلهای انحصاری.
جالبه که Mistral به عنوان یه مدل زبانی بزرگ متنباز وارد بازار شد و بعد از اون یه مدل متنباز دیگه هم معرفی کرد. به تازگی هم این شرکت دو LLM انحصاری دیگه منتشر کرده. گوگل که در گذشته فقط مدلهای انحصاری ارائه میداد، الان یه مدل زبانی کوچک open داره که به همراه محصولات دیگهاش عرضه میکنه. اینجا نکته مهمی هست، من برای گوگل و متا از کلمه مدل «open» استفاده کردم نه «open – source». مدلهای open برای استفاده در دسترس قرار میگیرن ولی محدودیتهایی دارن که بیشتر از اون چیزی هست که توی مجوزهای open-source میبینیم.