معرفی Gemini – بزرگ‌ترین و توانمندترین مدل هوش مصنوعی گوگل

تاریخ : 1402/9/19 نویسنده: مسعود بهرامی شرق
برچسب‌ها :	هوش مصنوعی Artificial Intelligence ، جمنای Gemini ، گوگل Google

واحد خبر mobile.ir : گوگل روز چهارشنبه 6 دسامبر 2023 (15 آذر 1402) از «بزرگ‌ترین و توانمندترین» مدل هوش مصنوعی خود با عنوان Gemini (جمِنای) رونمایی کرد. این مدل جدید از پایه به شکل چندحالتی یا multimodal طراحی شده و به همین دلیل می‌تواند انواع مختلف اطلاعات – اعم از متن، تصویر، صدا، ویدئو و کد – را در آن واحد درک کرده و تعمیم دهد. این قابلیت به جمِنای اجازه می‌دهد که بتواند تفاوت‌های جزئی را بهتر از یکدیگر تفکیک کرده و در نتیجه در پاسخ‌دهی به سؤالات مرتبط با موضوعات پیچیده بهتر عمل کند. از این رو، انتظار می‌رود جمِنای در بیان استدلال در مباحثی مثل ریاضی و فیزیک، عملکرد بهتری داشته باشد. در ادامه بیشتر با امکانات جمِنای آشنا می‌شویم.

سوندار پیچای (Sundar Pichai)، مدیرعامل گوگل، برای اولین بار در ماه ژوئن در جریان کنفرانس سالانه توسعه‌دهندگان گوگل – موسوم به Google I/O – از عرضه قریب‌الوقوع جمِنای خبر داده بود. به گفته پیچای، جمِنای سرآغاز عصر جدیدی از هوش مصنوعی در گوگل بوده و در عرصه مدل‌های هوش مصنوعی، یک گام بزرگ رو به جلو محسوب می‌شود که در نهایت تمامی محصولات گوگل را تحت تأثیر قرار خواهد داد.

جمِنای در سه ورژن مختلف طراحی شده است؛ نسخه سبک‌تر این مدل که Gemini Nano نام گرفته، به شکل آفلاین روی دیوایس‌های اندرویدی اجرا می‌شود. نسخه پیشرفته‌تر این مدل تحت عنوان Gemini Pro به‌زودی مدیریت بسیاری از سرویس‌های هوش مصنوعی گوگل را در دست گرفته و از این پس شاکله اصلی Bard (یکی دیگر از مدل‌های هوش مصنوعی گوگل) را تشکیل خواهد داد. در نهایت می‌رسیم به پیشرفته‌ترین نسخه از این مدل که Gemini Ultra نام گرفته است. Gemini Ultra قدرتمندترین LLM (مدل زبانی بزرگ) گوگل تا به امروز بوده و به نظر می‌رسد برای مراکز داده و کارکردهای سازمانی طراحی شده باشد.

بنا بر آنچه در وبلاگ گوگل آمده، Gemini Ultra نخستین مدل هوش مصنوعی است که در آزمون MMLU با کسب نمره 90 درصد از متخصصین انسانی نیز بهتر عمل کرده است. گفتنی‌ست، آزمون MMLU (کوتاه‌شده massive multitask language understanding به معنای درک زبان چندوظیفه‌ای بزرگ) آزمونی‌ست که با ترکیب مجموعه‌ای از 57 مبحث درسی مختلف – اعم از ریاضی، فیزیک، تاریخ، حقوق، پزشکی و اخلاق – علاوه بر سنجش دانش عمومی، به ارزشیابی توانایی‌های افراد در حل مسأله نیز می‌پردازد.

نسخه Gemini Ultra می‌تواند علاوه‌بر ایجاد کدهای با کیفیت بالا در زبان‌های برنامه‌نویسی Python، جاوا، ++C و Go، این کدها را درک کرده و توضیح دهد. Gemini Ultra توانایی کار کردن با زبان‌های مختلف را دارا بوده و می‌تواند درباره اطلاعات پیچیده به استدلال بپردازد. طبق ادعای گوگل، Gemini Ultra در بسیاری از بنچمارک‌های برنامه‌نویسی – از جمله HumanEval و Natural2Code – رتبه بالاتری را نسبت به مدل‌های دیگر کسب کرده است.

در حال حاضر، مدل هوش مصنوعی Bard با ورژنی از Gemini Pro به کار خود ادامه می‌دهد. به این ترتیب، انتظار می‌رود از این پس شاهد استدلال، برنامه‌ریزی و درک پیشرفته‌تری از Bard باشیم. حال سؤال اینجاست که با این اوصاف، جمِنای از ChatGPT بهتر خواهد بود؟ پاسخ قطعی به این سؤال هنوز کمی زود به نظر می‌رسد، اما گوگل دوست دارد برتری مدل هوش مصنوعی خود را به مخاطبین القا کند.

به عنوان مثال، گوگل مدعی‌ست که از 8 بنچمارکی که هر دو مدل Gemini Pro و GPT-3.5 را بررسی کردند، عملکرد Gemini Pro در 6 بنچمارک بهتر از GPT-3.5 گزارش شده است. همچنین، در برخی ارزیابی‌های نادیده یک طرفه که توسط ارزیاب‌های طرف سوم انجام شده، گوگل به این نتیجه رسید که در حال حاضر Bard ایده‌آل‌ترین بات مکالمه در مقایسه با دیگر گزینه‌های مشابه است. البته مشخص نیست منظور گوگل از دیگر گزینه‌های مشابه دقیقا کدام چت‌بات‌هاست، زیرا این شرکت از هیچ‌کدام از آنها اسمی نبرده است.

همان طور که گفته شد، در حال حاضر Bard با Gemini Pro کار می‌کند؛ به عبارت دقیق‌تر به لطف Gemini Pro، می‌توان درخواست‌های مبتنی بر متن را به زبان انگلیسی با Bard در میان گذاشت. این ویژگی در 170 کشور جهان به جز اروپا در دسترس است. (اروپا نیز به‌زودی این سرویس را دریافت می‌کند) همچنین، Pixel 8 Pro نخستین اسمارت‌فونی‌ست که به‌زودی با تجهیز به Gemini Nano از امکانات جدیدی بهره‌مند خواهند شد. اما Gemini Ultra از سال 2024 در دسترس قرار می‌گیرد. به گفته گوگل، توسعه‌دهندگان و مشتریان سازمانی می‌توانند از 13 دسامبر (22 آذر) از طریق Google Generative AI Studio یا Vertex AI در پلتفرم ابری گوگل به Gemini Pro دسترسی پیدا کنند.

در حال حاضر، جمِنای فقط به زبان انگلیسی سرویس‌دهی می‌کند، اما به‌زودی پشتیبانی از سایر زبان‌ها به آن افزوده خواهد شد. به گفته سوندار پیچای، در نهایت جمِنای با موتور جست‌وجوی گوگل، محصولات تبلیغاتی‌ آن، مرورگر کروم و ... در سرتاسر دنیا یکپارچه خواهد شد.

در رویداد رونمایی از جمِنای، گوگل با ارائه سناریوهای متنوع سعی در به رخ کشیدن توانایی‌های این مدل هوش مصنوعی جدید داشت. در یک نمونه، جمِنای پس از گرفتن تنها یک اسکرین‌شات از یک چارت، با تحلیل صدها صفحه پژوهش، چارت را به‌روزرسانی کرد. مورد جالب دیگر آن بود که جمِنای با تحلیل عکسی از تکلیف ریاضی یک دانش‌آموز، پاسخ‌های درست را شناسایی و موارد نادرست را مشخص کرد. البته گوگل در نمایش توانایی‌های جمِنای کمی زیاده‌روی کرد و در اصطلاح گاف داد.

در یکی از ویدئوهای پخش شده از سوی گوگل درباره توانایی‌های جمِنای، شاهد آن هستیم که شخصی یک قلم و کاغذ برداشته و روی آن خطوطی را ترسیم می‌کند که نهایتا به شکل یک اردک درمی‌آید. در حین کشیدن این اردک، شخص از جمِنای درخواست می‌کند که هر چه را می‌بیند بازگو کند. در کمال تعجب، جمِنای با دقت و سرعت بسیار بالا تمام مراحل را توصیف کرده و حتی می‌تواند رنگ غیرعادی اردک (آبی) را گوشزد کند. در ادامه، جمِنای با نقشه جهانی که آن شخص در اختیار دارد یک بازی را طراحی کرده و خیلی راحت با آن شخص درباره اطلاعات کشورها بازی می‌کند. پس از آن، بازی در قالب پیدا کردن کاغذ مچاله شده زیر یکی از سه لیوان ادامه پیدا می‌کند. جالب است که جمِنای تک‌تک حرکات دست آن شخص – از جمله سنگ، کاغذ، قیچی، حرکت بال‌های پروانه و پارس کردن یک سگ – را به درستی شناسایی می‌کند.

مطمئنا با دیدن این ویدئو – که در ادامه بسیار جالب‌تر می‌شود – از سرعت بالای جمِنای در تعامل با این شخص شگفت‌زده می‌شوید. اما طبق خبری که از سوی بلومبرگ منتشر شده، این ویدئو ساختگی و ویرایش‌شده است. به اعتقاد کارشناس بلومبرگ، گوگل برای گمراه کردن مخاطب و فرار از این واقعیت که جمِنای هنوز در حد و اندازه‌های GPT نیست، دست به این کار زده است. البته خود گوگل این امر را رد کرده و مدعی شده که تمام تعاملات بین شخص و جمِنای واقعی‌ست، منتهی جهت رعایت اختصار، صرفا تقطیع و کوتاه شده و هر بار یک عکس از ویدئوی مذکور در اختیار جمِنای قرار گرفته، با متن از وی سوال شده و پاسخ آن دریافت شده است.

منبع : Google