آشنایی با مدل گفتار جهانی (USM) - مدل جدید هوش مصنوعی گوگل با امکان درک هزار زبان متفاوت
نمایش خبر
تاریخ : 1401/12/19 نویسنده: مریم رشنو | ||
برچسبها : | هوش مصنوعی Artificial Intelligence ، گوگل Google |
مدل گفتار جهانی چیست؟
مدل گفتار جهانی که پیش از این و در نوامبر 2022 از سوی گوگل معرفی شده بود، الگویی مبتنی بر یادگیری ماشینی است و هدف آن تسهیل ارتباط میان میلیاردها نفر، از طریق توسعه قابلیتهای مرتبط با هزار زبان پراستفاده در جهان عنوان شده است.
مطابق جزئیات منتشرشده در بلاگ گوگل، مدل گفتار جهانی یا USM کوتاهشده Universal Speech Model خانوادهای از مدلهای گفتاری پیشرفته شامل دو میلیارد پارامتر است که بر اساس 12 میلیون ساعت گفتار و 28 میلیارد جمله متنی آموزش داده شده است. در حال حاضر، این مدل حدود 300 زبان را پوشش میدهد و در برخی محصولات گوگل همچون YouTube به کار گرفته میشود. در واقع، اگر کاربر هنگام تماشای ویدئوهای YouTube با زبان آن آشنا نباشد، میتواند از فناوری تشخیص خودکار گفتار (ASR) برای تولید و نمایش زیرنویس استفاده کند و این مدل USM است که درک محتوا را آسانتر میسازد.
یو ژانگ (Yu Zhang) و جیمز کین (James Qin)، دو تن از پژوهشگران گوگل، در توضیح نحوه آموزش این مدل یادگیری ماشینی از مشکل اساسی در یاد دادن چنین الگوهایی یاد کردهاند که همان دسترسی به میزان کافی از داده است. در شیوه مرسوم یادگیری تحت نظارت، دادههای صوتی باید به صورت دستی برچسب گذاری شوند یا از مجموعه مکتوب از پیش موجودی گردآوری شوند و این فرایند بر اساس زبان و شیوه بازنمایی آن، بسیار پرهزینه، وقتگیر و دشوار به نظر میرسد.
اما گوگل بر خلاف این شیوه مرسوم، از روش یادگیری «خودنظارتی» استفاده کرده است. در گام نخست این روش تنها از دادههای صوتی استفاده شده که حجم عظیمی از آنها در همه زبانها موجود بوده و باعث آسانتر شدن روند آموزش سیستم شده است. در گام بعدی، با استفاده از دادههای متنی، سطح دومی برای ارتقای کیفیت و پوشش زبانی افزوده شده و محصول این فرآیند در اختیار دیگر ماژولهای گوگل، همچون ASR قرار گرفته است.
پژوهشگران گوگل دریافتهاند که با استفاده از این رویکرد نرخ خطا در تشخیص کلمه (Word Error Rate یا WER) در 73 زبان کمتر از 30 درصد بوده که دستاورد قابل توجهی به شمار میرود. به علاوه برای زبانهای رایج همچون گویش انگلیسی آمریکایی، نرخ نسبی خطا شش درصد کمتر از مدل داخلی دیگری بوده است که شرکت به کار میگیرد. در واقع مقایسه عملکرد این روش با سایر مجموعه دادههای در دسترس عموم نیز از عملکرد بهتر USM در مقایسه با ASR و دیگر مترجمان گفتاری حکایت دارد.
اینک ابرشرکت آمریکایی پس از طی شدن مراحل اولیه، در پی استفاده از الگوی پایه معماری USM و ساخت مدلی برای بیش از هزار زبان است. آن هم در میانه این رقابت داغ که در آن مارک زاکربرگ در شرکت متا نیز برای عقب نماندن از قافله، اواخر ماه گذشته میلادی از یک مدل زبانی مشابه با ChatGPT به نام LLaMA رونمایی کرده است.
البته در مرحله فعلی به درستی نمیتوان حدس زد که گوگل با USM چه خواهد کرد. اما مسلم است که امکانات این سیستم بیپایان خواهد بود. چرا که اگر مدل جدید بتواند گفتار را، در قالب متن یا گفتار مصنوعی، به طور همزمان دریافت و ترجمه کند، برتری قابل توجهی به گوگل خواهد بخشید. البته در صورتی که سرعت و کیفیت خدمات آن نیز مناسب باشد.
کارشناسان معرفی مدل هوش مصنوعی گوگل را نوعی واکنش به پیشرفت قابل توجه مایکروسافت در این بازار با ارائه ChatGPT ارزیابی کردهاند. اگر چه گوگل اوایل فوریه سال جاری میلادی از هوش مصنوعی Bard به عنوان پاسخی برای مایکروسافت و ChatGPT رونمایی کرده بود. با این حال، نباید منتظر تحقق هدف هزار زبانی گوگل در آینده نزدیک بود، زیرا این روند زمان و آموزش زیادی را میطلبد. با این حال ممکن است در ماههای آینده و با برگزاری رویداد Google I/O 2023 اخبار جدید و غافلگیرکنندهتری درباره USM منتشر شود.
- بررسی ویدئویی و نگاهی از نزدیک به ردمی +Note 14 Pro
- معرفی Moto G05 ،Moto G15 Power ،Moto G15 و Moto E15 – پایینردههای اقتصادی موتورولا
- رونمایی از Poco M7 Pro 5G – میانردهای با Dimensity 7025 Ultra و دوربین 50 مگاپیکسلی
- معرفی Honor GT با SD 8 Gen 3، دوربین اصلی 50 مگاپیکسلی و شارژر سیمی 100 واتی
- معرفی نسخه چینی vivo Y300 5G – میانردهای با تراشه Dimensity 6300 و اسپیکرهای قدرتمند
- معرفی Lava Blaze Duo 5G با طراحی زیبا، Dimensity 7025 و نمایشگر ثانویه 1.58 اینچی
- معرفی نسل جدید مدل هوش مصنوعی Gemini 2.0 با قابلیت تبدیل متن به گفتار و تصویر