معرفی نسل جدید مدل هوش مصنوعی Gemini 2.0 با قابلیت تبدیل متن به گفتار و تصویر

تاریخ : 1403/9/24 نویسنده: مریم رشنو
برچسب‌ها :	هوش مصنوعی Artificial Intelligence ، جمنای Gemini ، هوش مصنوعی عاملی Agentic AI ، گوگل Google

واحد خبر mobile.ir : کمپانی گوگل مانند دیگر رقبا در حال توسعه قابلیت‌های هوش مصنوعی در همه محصولات خود است و می‌کوشد ابزارهای لازم و زیرساخت‌های به‌صرفه را برای توسعه‌دهندگان فراهم آورد. در همین راستا، غول جست‌وجوی آمریکایی که سال گذشته در همین حوالی زمانی مدل هوش مصنوعی Gemini را به عنوان بزرگ‌ترین و توانمندترین مدل AI خود به نمایش گذاشته بود، به‌تازگی نسل جدید این مدل را با نام‌ خانواده مدل‌های Gemini 2.0 ارائه کرده است. Gemini 2.0 تازه‌ترین تلاش‌ گوگل در رقابت فزاینده و رویارویی با شرکت‌هایی همچون مایکروسافت، متا و استارتاپ‌هایی مانند OpenAI سازنده ChatGPT و Perplexity و Anthropic خالق Claude محسوب می‌شود.

گوگل Gemini 2.0 را یک مدل هوش مصنوعی جدید با پشتیبانی از خروجی تصویر و صدا و یکپارچه‌سازی ابزارها برای دوران عاملیت (agentic era) معرفی می‌کند. Experimental Gemini 2.0 Flash اولین مدل از خانواده مدل‌های Gemini 2.0 محسوب می‌شود و پس از 1.5Flash و 1.5Pro رونمایی شده است. این مدل نه تنها در نسخه چت برای کاربران سراسر جهان در دسترس قرار گرفته، بلکه یک نمونه چندحالتی (multimodal) از آن هم با قابلیت‌های تبدیل متن به گفتار و تولید تصویر برای توسعه‌دهندگان ارائه شده است. به گفته ساندار پیچای (Sundar Pichai) مدیرعامل گوگل، اگر Gemini 1.0 را مدلی متمرکز بر سازماندهی و درک اطلاعات به‌حساب بیاوریم، Gemini 2.0 گامی در جهت ارتقای سودمندی آن به‌شمار می‌رود.

به گفته گوگل، نسخه آزمایشی Gemini 2.0 Flash در حال حاضر نسبت به نسخه‌های پیشین تأخیر کمتر، عملکرد بهتر، توانایی ارائه پاسخ‌های واقعی بر اساس درخواست‌های کاربری و قدرت استدلال و درک بالاتری را در ریاضی و کدنویسی ارائه می‌کند. این مدل همچنین می‌تواند تصاویری را تولید کند که توسط مدل تبدیل متن به تصویر Imagen 3 پشتیبانی می‌شوند؛ اما در زمینه ارزیابی متن‌های (contexts) طولانی‌تر، هنوز به اندازه نسخه قبلی یعنی 1.5Pro توسعه نیافته است.

غول جست‌وجوی آمریکایی در کنار معرفی Experimental Gemini 2.0 Flash، نمونه‌های اولیه تحقیقاتی دیگری را نیز با هدف توسعه مدل‌ها و تجربیات هوش مصنوعی موسوم به «مدل‌های هوش مصنوعی با عاملیت بیشتر» (more agentic AI models) ارائه کرده است. به گفته گوگل در این نوع از مدل‌ها، هوش مصنوعی«می‌تواند اطلاعات بیشتری درباره دنیای اطراف داشته باشد، به چند گام پیش‌تر بیندیشد و تحت نظارت کاربر از جانب او دست به اقدام بزند.»

بر اساس اعلام گوگل، Gemini 2.0 به چندین عامل یا agent مجهز شده است که می‌توانند در همه زمینه‌ها، از ارائه پیشنهادهای آنی در بازی‌های استراتژیک مانند Clash of Clans تا انتخاب هدیه و افزودن آن به کارت خرید بر اساس فرمان کاربر مفید باشند. عامل‌های حاضر در Gemini 2.0 مانند سایر عامل‌های AI رفتاری هدف‌گرا دارند و می‌توانند پس از تهیه فهرستی از مراحل مبتنی بر وظیفه، آن‌ها را به طور مستقل به انجام برسانند.

از میان این عامل‌ها می‌توان به Project Astra اشاره کرد که سیستمی بصری برای شناسایی اشیاء به‌شمار می‌رود و به طور مثال می‌تواند برای پیدا کردن عینک به کاربر کمک کند. این عامل به عنوان دستیار هوش مصنوعی برای گوشی‌های اندرویدی از چندحالتی و یکپارچه ساختن اپلیکیشن‌های Search، Lens و Maps پشتیبانی می‌کند. Project Mariner نیز یکی دیگر از عامل‌های هوش مصنوعی گوگل به‌شمار می‌رود که در حال حاضر به صورت آزمایشی در قالب افزونه‌ای در مرورگر کروم برای «آزمایش‌کنندگان مورد اعتماد» فعال شده است. این عامل می‌تواند پس از فهم اطلاعات صفحه مرورگر کاربر مانند پیکسل‌ها، متن، تصاویر و فرم‌ها، از آن‌ها برای انجام وظایف مشخصی استفاده کند. Jules عامل دیگری است که به طور اختصاصی با هدف کمک به توسعه‌دهندگان برای یافتن و رفع کدهای بد طراحی شده است.

کاربران Gemini به منظور دسترسی به نسخه آزمایشی 2.0 Flash این مدل که برای چت بهینه شده است، می‌توانند آن را در منوی کشویی برنامه در دسک‌تاپ و نسخه وب موبایل بیابند و به زودی در اپلیکیشن موبایل Gemini نیز به طور رسمی عرضه خواهد شد. نسخه چندحالتی Gemini 2.0 Flash نیز حدود یک ماه دیگر و در ژانویه 2025 به همراه مدل‌های توسعه‌یافته‌تری از Gemini 2.0 از طریق پلتفرم‌های توسعه‌دهندگان در AI Studio و Vertex AI در دسترس قرار خواهد گرفت. غول آمریکایی همچنین از برنامه خود برای افزودن Gemini 2.0 به شمار بیشتری از محصولات گوگل در اوایل سال میلادی آینده خبر داده است.

منبع : Google