معرفی GPT-4o دستاورد هوش مصنوعی جدید OpenAI با تواناییهای متنی، صوتی و تصویری
نمایش خبر
تاریخ : 1403/2/25 نویسنده: آرش افراسیابی | ||
برچسبها : | هوش مصنوعی Artificial Intelligence ، اوپن ا آی OpenAI ، چت جی پی تی ChatGPT |
راهکار جدید GPT-4o بر شیوههای تعامل غیر متنی و بهطور مشخص بر صدا و تصویر متمرکز است و برخلاف نمونههای پیشین که تبدیل کلام به متن و بالعکس به تأخیر قابل ملاحظهای در آنها میانجامید در GPT-4o تمامی این موارد بهصورت درونی و اصطلاحاً native صورت پذیرفته و امکان استدلال براساس صدا، متن و تصویر بهصورت آنی و در لحظه فراهم شده است. در GPT-4o با چهار عنصر مختلف شامل Vision (امکان آپلود تصاویر و اسناد و صحبت مستقیم در مورد آنها)، Memory (امکان بهخاطر سپردن صحبتها و بحثهای پیشین)، Browse (امکان جستوجوی آنی وب در حین صحبت) و Advanced Data Analysis (تحلیل داده و ساخت چارت از روی اطلاعات) روبرو میشویم که نهتنها در اختیار کاربران مشترک این سرویس قرار میگیرد بلکه بهصورت رایگان در دسترس همگان خواهند بود. تفاوت مابین این کاربران را در باید در میزان دسترسی به اطلاعات جستوجو کرد؛ جاییکه دسترسی کاربران غیر رایگان 5 برابر کاربران عادی خواهد بود.
در این مدل جدید بهگفته OpenAI کیفیت و سرعت پردازش اطلاعات در 50 زبان مختلف (از جمله زبان فارسی) بهبود یافته که در مجموع 97 درصد از کل جمعیت جهان را تشکیل میدهند. GPT-4o نهتنها بهصورت یک برنامه و اپلیکیشن مستقل در گوشیها و کامپیوترها در دسترس قرار میگیرد بلکه دولوپرها و توسعهدهندگان نرمافزار امکان استفاده از API آن را برای ساخت برنامههای متنوع خواهند داشت. API جیپیتی جدید تا 2 برابر سریعتر تا 50 درصد ارزانتر و تا 5 برابر سقف محدودیت بالاتری در مقایسه با GPT-4 Turbo خواهد داشت.
از جمله برجستهترین قابلیتهای GPT-4o باید به مکالمه ریلتایم و آنی اشاره کرد که در مقایسه با حالت صدا یا Voice mode مدلهای پیشین علاوه بر ارائه یک صدای انسانی و غیر ماشینی از سه جهت با تفاوت روبرو شده است: اولین تفاوت مابین این دو مورد به امکان قطع کردن مکالمه و وارد شدن به گفتوگو در هر زمان دلخواه است و بدینترتیب نیازی به انتظار برای پایان صحبتهای GPT-4o نیست و میتوان هر لحظه مسیر گفتوگو را تغییرداد یا از مدل توضیح بیشتری درخواست کرد. تفاوت بعدی به آنی و در لحظه بودن گفتوگو تعلق دارد و دیگر مثل گذشته خبری از تأخیر 2 تا 3 ثانیهای برای دریافت جواب از این مدل نیست. بهعنوان سومین تفاوت نیز باید به درک احساسات از روی صدا اشاره کرد که منجر به واکنش متناسب خواهد شد و خود مدل زبانی نیز میتوان صداها و حسهای مختلفی را با استایلهای متفاوت بروز دهد.
یکی دیگر از امکانات قابل اشاره GPT-4o به بخش تصویری یا Vision آن تعلق دارد که در طی آن میتوان از طریق دوربین (در کاربریهای مبتنی بر گوشی موبایل) یا نمایش تصویر در صفحهنمایش (در نسخه دسکتاپ) از کمکها و راهکارهای این مدل زبانی بهرهمند شد. دایره تداخل GPT-4o در این حالت از حل مسائل ساده ریاضی گرفته تا حل مشکلات کد نویسی و تحلیل نمودارها و حتی تشخیص احساسات فرد از روی چهره وی گسترده شده است.
از جمله جذابیتهای مهم GPT-4o باید به امکان ترجمه همزمان و آنی اشاره کرد که آنگونه که در پیشنمایش آن میتوان مشاهده کرد به یک ترجمه روان و بدون اشکال بسنده نکرده و با بهکارگیری یک لحن دوستانه و کاملاً غیر ماشینی صحبتهای هریک از طرفین را بهصورت نقل قول برای طرف مقابل بازگو میکند.
قابلیتهای متنی و تصویری GPT-4o در حال حاضر در اپلیکیشن ChatGPT و از طریق وبسایت OpenAI در دسترس قرار دارد اما حالت صدای جدید آن در طی هفتههای آینده در حالت آلفا برای کاربران پلاس ارائه خواهد شد. شرکت سازنده از ارائه نسخه دسکتاپ ChatGPT برای سیستمعامل macOS خبر داده و ارائه ورژن ویندوزی آن را نیز به ادامه سال جاری میلادی موکول کرده است. دیگر خبر ارائه شده در این نوبت به فروشگاه ChatGPT Store تعلق دارد که میزبان چتباتهای شخصیسازیشده مبتنی بر این مدل زبانی خواهد بود و کاربران بهصورت رایگان به آنها دسترسی خواهند داشت.
- معرفی خانواده ROG Phone 9 – گیمینگ فونهای ایسوس با اسنپدراگون 8 الیت و نمایشگر 185 هرتزی
- نگاهی به فناوری ISOCELL ALoP – راهکار سامسونگ برای کاهش برآمدگی دوربینهای بخش پشتی گوشی
- شیائومی 14T Pro در نگاه رسانهها – نقاط ضعف و قوت از دید حرفهایها
- گزارش Canalys از بازار اسمارتفون خاور میانه در سهماهه سوم 2024 – رشد اندک در سایه تنشهای سیاسی
- IDC: جایگاه نخست سامسونگ در بازار گوشیهای تاشو با تکیه بر Z Fold6 و Z Flip6
- اپل iPhone 16 Pro Max در نگاه رسانهها – نقاط ضعف و قوت از دید حرفهایها
- معرفی گوشیهای مخصوص بازی Red Magic 10 Pro و +10Pro با تراشه SD 8 Elite و باتریهای حجیم