معرفی نسل جدید مدل هوش مصنوعی Gemini 2.0 با قابلیت تبدیل متن به گفتار و تصویر
نمایش خبر
تاریخ : 1403/9/24 نویسنده: مریم رشنو | ||
برچسبها : | هوش مصنوعی Artificial Intelligence ، جمنای Gemini ، گوگل Google |
گوگل Gemini 2.0 را یک مدل هوش مصنوعی جدید با پشتیبانی از خروجی تصویر و صدا و یکپارچهسازی ابزارها برای دوران عاملیت (agentic era) معرفی میکند. Experimental Gemini 2.0 Flash اولین مدل از خانواده مدلهای Gemini 2.0 محسوب میشود و پس از 1.5Flash و 1.5Pro رونمایی شده است. این مدل نه تنها در نسخه چت برای کاربران سراسر جهان در دسترس قرار گرفته، بلکه یک نمونه چندحالتی (multimodal) از آن هم با قابلیتهای تبدیل متن به گفتار و تولید تصویر برای توسعهدهندگان ارائه شده است. به گفته ساندار پیچای (Sundar Pichai) مدیرعامل گوگل، اگر Gemini 1.0 را مدلی متمرکز بر سازماندهی و درک اطلاعات بهحساب بیاوریم، Gemini 2.0 گامی در جهت ارتقای سودمندی آن بهشمار میرود.
به گفته گوگل، نسخه آزمایشی Gemini 2.0 Flash در حال حاضر نسبت به نسخههای پیشین تأخیر کمتر، عملکرد بهتر، توانایی ارائه پاسخهای واقعی بر اساس درخواستهای کاربری و قدرت استدلال و درک بالاتری را در ریاضی و کدنویسی ارائه میکند. این مدل همچنین میتواند تصاویری را تولید کند که توسط مدل تبدیل متن به تصویر Imagen 3 پشتیبانی میشوند؛ اما در زمینه ارزیابی متنهای (contexts) طولانیتر، هنوز به اندازه نسخه قبلی یعنی 1.5Pro توسعه نیافته است.
غول جستوجوی آمریکایی در کنار معرفی Experimental Gemini 2.0 Flash، نمونههای اولیه تحقیقاتی دیگری را نیز با هدف توسعه مدلها و تجربیات هوش مصنوعی موسوم به «مدلهای هوش مصنوعی با عاملیت بیشتر» (more agentic AI models) ارائه کرده است. به گفته گوگل در این نوع از مدلها، هوش مصنوعی«میتواند اطلاعات بیشتری درباره دنیای اطراف داشته باشد، به چند گام پیشتر بیندیشد و تحت نظارت کاربر از جانب او دست به اقدام بزند.»
بر اساس اعلام گوگل، Gemini 2.0 به چندین عامل یا agent مجهز شده است که میتوانند در همه زمینهها، از ارائه پیشنهادهای آنی در بازیهای استراتژیک مانند Clash of Clans تا انتخاب هدیه و افزودن آن به کارت خرید بر اساس فرمان کاربر مفید باشند. عاملهای حاضر در Gemini 2.0 مانند سایر عاملهای AI رفتاری هدفگرا دارند و میتوانند پس از تهیه فهرستی از مراحل مبتنی بر وظیفه، آنها را به طور مستقل به انجام برسانند.
از میان این عاملها میتوان به Project Astra اشاره کرد که سیستمی بصری برای شناسایی اشیاء بهشمار میرود و به طور مثال میتواند برای پیدا کردن عینک به کاربر کمک کند. این عامل به عنوان دستیار هوش مصنوعی برای گوشیهای اندرویدی از چندحالتی و یکپارچه ساختن اپلیکیشنهای Search، Lens و Maps پشتیبانی میکند. Project Mariner نیز یکی دیگر از عاملهای هوش مصنوعی گوگل بهشمار میرود که در حال حاضر به صورت آزمایشی در قالب افزونهای در مرورگر کروم برای «آزمایشکنندگان مورد اعتماد» فعال شده است. این عامل میتواند پس از فهم اطلاعات صفحه مرورگر کاربر مانند پیکسلها، متن، تصاویر و فرمها، از آنها برای انجام وظایف مشخصی استفاده کند. Jules عامل دیگری است که به طور اختصاصی با هدف کمک به توسعهدهندگان برای یافتن و رفع کدهای بد طراحی شده است.
کاربران Gemini به منظور دسترسی به نسخه آزمایشی 2.0 Flash این مدل که برای چت بهینه شده است، میتوانند آن را در منوی کشویی برنامه در دسکتاپ و نسخه وب موبایل بیابند و به زودی در اپلیکیشن موبایل Gemini نیز به طور رسمی عرضه خواهد شد. نسخه چندحالتی Gemini 2.0 Flash نیز حدود یک ماه دیگر و در ژانویه 2025 به همراه مدلهای توسعهیافتهتری از Gemini 2.0 از طریق پلتفرمهای توسعهدهندگان در AI Studio و Vertex AI در دسترس قرار خواهد گرفت. غول آمریکایی همچنین از برنامه خود برای افزودن Gemini 2.0 به شمار بیشتری از محصولات گوگل در اوایل سال میلادی آینده خبر داده است.
- معرفی Lava Blaze Duo 5G با طراحی زیبا، Dimensity 7025 و نمایشگر ثانویه 1.58 اینچی
- معرفی نسل جدید مدل هوش مصنوعی Gemini 2.0 با قابلیت تبدیل متن به گفتار و تصویر
- آشنایی با Android XR – سیستمعامل جدید گوگل برای هدستها و عینکهای هوشمند
- رونمایی از Realme Neo7 – قاتل پرچمدار با +Dimensity 9300 و باتری 7,000 میلیآمپر ساعتی
- رونمایی گوگل از تراشه کوانتومی Willow – اصلاح خطاهای کوانتومی به شکل تصاعدی
- معرفی Realme Note 60x – پایینرده ریلمی با السیدی +HD و بدنهای مستحکم
- نسخه بینالمللی Redmi Note 14 5G – تکرار تراشه، ارتقاء سلفی به 20MP، اضافه شدن دوربین اولتراواید 8MP