معرفی GPT-4o دستاورد هوش مصنوعی جدید OpenAI با توانایی‌های متنی، صوتی و تصویری

نمایش خبر

تاریخ : 1403/2/25        نویسنده: آرش افراسیابی
برچسب‌ها : هوش مصنوعی Artificial Intelligence ، اوپن ا آی OpenAI ، چت جی پی تی ChatGPT
واحد خبر mobile.ir : مجموعه OpenAI در روز دوشنبه 13 می 2024 (24 اردیبهشت 1403) از نسخه جدید مدل زبانی بزرگ (LLM) این شرکت با نام GPT-4o رونمایی کرده (o مخفف Omnimodel) که به‌گفته شرکت سازنده در مقایسه با GPT4‌ عادی تجربه سریع‌تری را با بهبود توانایی‌های متن، صدا و تصویر ارائه می‌کند. OpenAI در جریان این رویداد به شکل‌گیری آینده تعامل بین انسان‌ها و ماشین اشاره کرده و از GPT-4o به‌عنوان راه‌کاری برای تغییر پارادایم و سرمشق این همکاری یاد می‌کند؛ جایی‌که این همکاری هر لحظه به سمت طبیعی‌تر شدن و سهولت بیش‌تر پیش خواهد رفت. مدل‌های زبانی در این مسیر با مشکلات متعددی در جهت فهم انسانی روبرو هستند که GPT-4o با راه‌کارهای تازه در پی برطرف ساختن آن‌هاست.

راهکار جدید GPT-4o بر شیوه‌های تعامل غیر متنی و به‌طور مشخص بر صدا و تصویر متمرکز است و برخلاف نمونه‌های پیشین که تبدیل کلام به متن و بالعکس به تأخیر قابل ملاحظه‌ای در آن‌ها می‌انجامید در GPT-4o تمامی این موارد به‌صورت درونی و اصطلاحاً native صورت پذیرفته و امکان استدلال براساس صدا، ‌متن و تصویر به‌صورت آنی و در لحظه فراهم شده است. در GPT-4o با چهار عنصر مختلف شامل Vision (امکان آپلود تصاویر و اسناد و صحبت مستقیم در مورد آن‌ها)، Memory (امکان به‌خاطر سپردن صحبت‌ها و بحث‌های پیشین)، Browse (امکان جست‌وجوی آنی وب در حین صحبت) و Advanced Data Analysis (تحلیل داده و ساخت چارت از روی اطلاعات) روبرو می‌شویم که نه‌تنها در اختیار کاربران مشترک این سرویس قرار می‌گیرد بلکه به‌صورت رایگان در دسترس همگان خواهند بود. تفاوت مابین این کاربران را در باید در میزان دسترسی به اطلاعات جست‌وجو کرد؛ جایی‌که دسترسی کاربران غیر رایگان 5 برابر کاربران عادی خواهد بود.

در این مدل جدید به‌گفته OpenAI کیفیت و سرعت پردازش اطلاعات در 50 زبان مختلف (از جمله زبان فارسی) بهبود یافته که در مجموع 97 درصد از کل جمعیت جهان را تشکیل می‌دهند. GPT-4o نه‌تنها به‌صورت یک برنامه و اپلیکیشن مستقل در گوشی‌ها و کامپیوترها در دسترس قرار می‌گیرد بلکه دولوپرها و توسعه‌دهندگان نرم‌افزار امکان استفاده از API آن را برای ساخت برنامه‌های متنوع خواهند داشت. API جی‌پی‌تی جدید تا 2 برابر سریع‌تر تا 50 درصد ارزان‌تر و تا 5 برابر سقف محدودیت بالاتری در مقایسه با GPT-4 Turbo خواهد داشت.

از جمله برجسته‌ترین قابلیت‌های GPT-4o باید به مکالمه ریل‌تایم و آنی اشاره کرد که در مقایسه با حالت صدا یا Voice mode‌ مدل‌های پیشین علاوه بر ارائه یک صدای انسانی و غیر ماشینی از سه جهت با تفاوت روبرو شده است: اولین تفاوت مابین این دو مورد به امکان قطع کردن مکالمه و وارد شدن به گفت‌وگو در هر زمان دلخواه است و بدین‌ترتیب نیازی به انتظار برای پایان صحبت‌های GPT-4o نیست و می‌توان هر لحظه مسیر گفت‌وگو را تغییرداد یا از مدل توضیح بیش‌تری درخواست کرد. تفاوت بعدی به آنی و در لحظه بودن گفت‌وگو تعلق دارد و دیگر مثل گذشته خبری از تأخیر 2 تا 3 ثانیه‌ای برای دریافت جواب از این مدل نیست. به‌عنوان سومین تفاوت نیز باید به درک احساسات از روی صدا اشاره کرد که منجر به واکنش متناسب خواهد شد و خود مدل زبانی نیز می‌توان صداها و حس‌های مختلفی را با استایل‌های متفاوت بروز دهد.

یکی دیگر از امکانات قابل اشاره GPT-4o به بخش تصویری یا Vision آن تعلق دارد که در طی آن می‌توان از طریق دوربین (در کاربری‌های مبتنی بر گوشی موبایل) یا نمایش تصویر در صفحه‌نمایش (در نسخه دسک‌تاپ) از کمک‌ها و راه‌کارهای این مدل زبانی بهره‌مند شد. دایره تداخل GPT-4o در این حالت از حل مسائل ساده ریاضی گرفته تا حل مشکلات کد نویسی و تحلیل نمودارها و حتی تشخیص احساسات فرد از روی چهره وی گسترده شده است.

از جمله جذابیت‌های مهم GPT-4o باید به امکان ترجمه همزمان و آنی اشاره کرد که آن‌گونه که در پیش‌نمایش آن می‌توان مشاهده کرد به یک ترجمه روان و بدون اشکال بسنده نکرده و با به‌کارگیری یک لحن دوستانه و کاملاً غیر ماشینی صحبت‌های هریک از طرفین را به‌صورت نقل قول برای طرف مقابل بازگو می‌کند.

قابلیت‌های متنی و تصویری GPT-4o در حال حاضر در اپلیکیشن ChatGPT و از طریق وب‌سایت OpenAI در دسترس قرار دارد اما حالت صدای جدید آن در طی هفته‌های آینده در حالت آلفا برای کاربران پلاس ارائه خواهد شد. شرکت سازنده از ارائه نسخه دسک‌تاپ ChatGPT برای سیستم‌عامل macOS‌ خبر داده و ارائه ورژن ویندوزی آن را نیز به ادامه سال جاری میلادی موکول کرده است. دیگر خبر ارائه شده در این نوبت به فروشگاه ChatGPT Store‌ تعلق دارد که میزبان چت‌بات‌های شخصی‌سازی‌شده مبتنی بر این مدل زبانی خواهد بود و کاربران به‌صورت رایگان به آن‌ها دسترسی خواهند داشت.

منبع : OpenAI


ایسام