بزرگ‌ترین تراشه هوش مصنوعی دنیا با ۴ تریلیون ترانزیستور

شرکت «Cerebras Systems» که تو کالیفرنیاست از جدیدترین تراشه هوش مصنوعیش به اسم Wafer Scale Engine WSE-3 پرده برداشته که دارای تعداد چشمگیر ۴ تریلیون ترانزیستوره. عملکرد این تراشه دو برابر بیشتر از مدل قبلی، Cerebras WSE-2، هست که خودش قبلاً رکورد سریع‌ترین تراشه رو شکسته بود. سیستمی که از WSE-3 استفاده کنه می‌تونه در عرض یک روز مدلی با ۷۰ میلیارد پارامتر رو تنظیم کنه (این کار رو اصطلاحاً fine-tune کردن مدل می‌گن)

مدل‌های هوش مصنوعی مثل GPT که دنیا رو حسابی تکون دادن و قابلیت‌های خیلی بالایی دارن. بااین‌حال، شرکت‌های فناوری می‌دونن که این مدل‌های هوش مصنوعی هنوز خیلی ابتدایی هستن و برای تأثیرگذاری اساسی تو بازار به تکامل بیشتری احتیاج دارن. برای این کار لازمه که این مدل‌ها با مجموعه داده‌های خیلی بزرگ‌تری آموزش داده بشن. این باعث می‌شه که زیرساخت‌های خیلی قوی‌تری هم نیاز باشه.

شرکت تولیدکننده قطعات کامپیوتری، انویدیا «Nvidia»، به‌خاطر تقاضایی که برای چیپ‌های جدید، بزرگ‌تر، و قوی‌تر وجود داره، کلی پیشرفت کرده. H۲۰۰، که مهم‌ترین محصول این شرکته و به‌صورت تجاری هم در دسترسه، برای آموزش مدل‌های هوش مصنوعی استفاده میشه و ۸۰ میلیارد ترانزیستور داره. اما باز هم Cerebras هدف داره با WSE-3 عملکرد رو ۵۷ برابر بیشتر کنه!

مشخصات فنی CS-3

WSE-3 از معماری ۵ نانومتری استفاده می‌کنه و طوری طراحی شده که ۹۰۰٬۰۰۰ هسته (core) بهینه شده برای پردازش داده‌های هوش مصنوعی رو توی سیستم CS-3 تأمین میکنه که ابرکامپیوتر هوش مصنوعی ساخته‌شده توسط همین شرکته. این ابرکامپیوتر ۴۴ گیگابایت SRAM روی بُرد داره. می‌تونه ۲۴ تریلیون پارامتر رو توی یه فضای حافظه منطقی واحد ذخیره کنه بدون اینکه لازم باشه پارتیشن‌بندی یا شکسته بشن. (این کار رو اصطلاحاً re-factoring می‌گن). هدف از این کار اینه که مراحل توسعه و آموزش مدل «به طرز چشمگیری ساده‌تر» بشه و بهره‌وری کسی که داره باهاش کار می‌کنه افزایش پیدا کنه.

ظرفیت حافظه خارجی CS-3 رو بسته به نیاز مدل هوش مصنوعی که داره آموزش داده میشه میشه از ۱٫۵ ترابایت تا ۱٫۲ پتابایت تغییر داد. این کار برای آموزش مدل‌هایی انجام میشه که تا ۱۰ برابر بزرگ‌تر از GPT-4 یا Gemini هستن. این شرکت ادعا می‌کنه که آموزش دادن یه مدل هوش مصنوعی با یک تریلیون پارامتر (هزار میلیارد) روی CS-3 به آسونی آموزش یه مدل با یک میلیارد پارامتر روی پردازنده گرافیکی معمولیه.

هرجا که لازم باشه می‌شه CS-3 رو طوری تولید کرد که با نیازهای شرکت‌ها یا مراکزی که با داده‌های خیلی حجیم سروکار دارن سازگار باشه. اگه ۴ تا سیستم به این صورت وجود داشته باشه، CS-3 می‌تونه مدل‌های هوش مصنوعی متشکل از ۷۰ میلیارد پارامتر رو در طول یک روز fine-tune کنه. تازه اگه این سیستم رو به ۲۰۰۰ عدد برسونین، می‌تونه یه مدل هوش مصنوعی به اسم Llama رو با ۷۰ میلیارد پارامتر از پایه طراحی کنه اون‌هم فقط در عرض یک روز!

WSE-3 کجا استفاده میشه؟

تو دورانی که مصرف انرژی پردازنده‌های گرافیکی توی هر نسل دوبرابر می‌شه، شرکت Cerebras داره کاری می‌کنه که جدیدترین تراشه اون‌ها ضمن اینکه اندازه یا مصرف انرژیش بیشتر نمیشه، عملکردش دو برابر بشه.

تراشه مخصوص هوش‌مصنوعی اون‌ها برای آموزش‌دادن مدل‌های زبانی بزرگ (LLM) به ۹۷ درصد کد کمتر در مقایسه با پردازنده‌های گرافیکی نیاز داره. مثلاً یه مدل استاندارد به بزرگی GPT-3 رو فقط با ۵۶۵ خط کد می‌شه درست کرد.

Cerebras برنامه داره تا WSE-3 رو در تأسیسات زیرمجموعه‌های دو تا از همکارای قدیمی‌ش یعنی آزمایشگاه ملی آرگون (Argonne National Laboratory) و کلینیک مایو (Mayo Clinic) پیاده کنه تا بتونه تحقیقات و پژوهش رو با امکانات بهتری توی این مراکز گسترش بده.

Cerebras همین‌طور اعلام کرده که داره با شرکتی به اسم G۴۲ که شریکشون بوده تو ساخت ابرکامپیوترهای هوش‌مصنوعی سری Condor Galaxy به اسم CG-1 و CG-2 در کالیفرنیا، حالا روی ساخت CG-3 کار می‌کنن که یکی از بزرگ‌ترین ابرکامپیوترها در دنیاست. وقتی CG-3 آماده بشه، از ۶۴ تا واحد CS-3 تشکیل شده و ۸ اگزافلاپس «exaFLOPS» قدرت محاسباتی خواهد داشت.

کیریل او تیموف، مدیر ارشد فناوری G۴۲، توی یه اطلاعیه مطبوعاتی گفت: «همکاری استراتژیک ما با Cerebras توی پیشرفت و نوآوری توی G۴۲ نقش مهمی داشته و باعث می‌شه به پیشرفت انقلاب هوش مصنوعی توی مقیاس جهانی سرعت ببخشیم».

منبع

مشخصات فنی CS-3

WSE-3 کجا استفاده میشه؟

دیدگاهتان را بنویسید لغو پاسخ

ورود