آشنایی با مدل گفتار جهانی (USM) - مدل جدید هوش مصنوعی گوگل با امکان درک هزار زبان متفاوت
نمایش خبر
تاریخ : 1401/12/19 نویسنده: مریم رشنو | ||
برچسبها : | هوش مصنوعی Artificial Intelligence ، گوگل Google |
مدل گفتار جهانی چیست؟
مدل گفتار جهانی که پیش از این و در نوامبر 2022 از سوی گوگل معرفی شده بود، الگویی مبتنی بر یادگیری ماشینی است و هدف آن تسهیل ارتباط میان میلیاردها نفر، از طریق توسعه قابلیتهای مرتبط با هزار زبان پراستفاده در جهان عنوان شده است.
مطابق جزئیات منتشرشده در بلاگ گوگل، مدل گفتار جهانی یا USM کوتاهشده Universal Speech Model خانوادهای از مدلهای گفتاری پیشرفته شامل دو میلیارد پارامتر است که بر اساس 12 میلیون ساعت گفتار و 28 میلیارد جمله متنی آموزش داده شده است. در حال حاضر، این مدل حدود 300 زبان را پوشش میدهد و در برخی محصولات گوگل همچون YouTube به کار گرفته میشود. در واقع، اگر کاربر هنگام تماشای ویدئوهای YouTube با زبان آن آشنا نباشد، میتواند از فناوری تشخیص خودکار گفتار (ASR) برای تولید و نمایش زیرنویس استفاده کند و این مدل USM است که درک محتوا را آسانتر میسازد.
یو ژانگ (Yu Zhang) و جیمز کین (James Qin)، دو تن از پژوهشگران گوگل، در توضیح نحوه آموزش این مدل یادگیری ماشینی از مشکل اساسی در یاد دادن چنین الگوهایی یاد کردهاند که همان دسترسی به میزان کافی از داده است. در شیوه مرسوم یادگیری تحت نظارت، دادههای صوتی باید به صورت دستی برچسب گذاری شوند یا از مجموعه مکتوب از پیش موجودی گردآوری شوند و این فرایند بر اساس زبان و شیوه بازنمایی آن، بسیار پرهزینه، وقتگیر و دشوار به نظر میرسد.
اما گوگل بر خلاف این شیوه مرسوم، از روش یادگیری «خودنظارتی» استفاده کرده است. در گام نخست این روش تنها از دادههای صوتی استفاده شده که حجم عظیمی از آنها در همه زبانها موجود بوده و باعث آسانتر شدن روند آموزش سیستم شده است. در گام بعدی، با استفاده از دادههای متنی، سطح دومی برای ارتقای کیفیت و پوشش زبانی افزوده شده و محصول این فرآیند در اختیار دیگر ماژولهای گوگل، همچون ASR قرار گرفته است.
پژوهشگران گوگل دریافتهاند که با استفاده از این رویکرد نرخ خطا در تشخیص کلمه (Word Error Rate یا WER) در 73 زبان کمتر از 30 درصد بوده که دستاورد قابل توجهی به شمار میرود. به علاوه برای زبانهای رایج همچون گویش انگلیسی آمریکایی، نرخ نسبی خطا شش درصد کمتر از مدل داخلی دیگری بوده است که شرکت به کار میگیرد. در واقع مقایسه عملکرد این روش با سایر مجموعه دادههای در دسترس عموم نیز از عملکرد بهتر USM در مقایسه با ASR و دیگر مترجمان گفتاری حکایت دارد.
اینک ابرشرکت آمریکایی پس از طی شدن مراحل اولیه، در پی استفاده از الگوی پایه معماری USM و ساخت مدلی برای بیش از هزار زبان است. آن هم در میانه این رقابت داغ که در آن مارک زاکربرگ در شرکت متا نیز برای عقب نماندن از قافله، اواخر ماه گذشته میلادی از یک مدل زبانی مشابه با ChatGPT به نام LLaMA رونمایی کرده است.
البته در مرحله فعلی به درستی نمیتوان حدس زد که گوگل با USM چه خواهد کرد. اما مسلم است که امکانات این سیستم بیپایان خواهد بود. چرا که اگر مدل جدید بتواند گفتار را، در قالب متن یا گفتار مصنوعی، به طور همزمان دریافت و ترجمه کند، برتری قابل توجهی به گوگل خواهد بخشید. البته در صورتی که سرعت و کیفیت خدمات آن نیز مناسب باشد.
کارشناسان معرفی مدل هوش مصنوعی گوگل را نوعی واکنش به پیشرفت قابل توجه مایکروسافت در این بازار با ارائه ChatGPT ارزیابی کردهاند. اگر چه گوگل اوایل فوریه سال جاری میلادی از هوش مصنوعی Bard به عنوان پاسخی برای مایکروسافت و ChatGPT رونمایی کرده بود. با این حال، نباید منتظر تحقق هدف هزار زبانی گوگل در آینده نزدیک بود، زیرا این روند زمان و آموزش زیادی را میطلبد. با این حال ممکن است در ماههای آینده و با برگزاری رویداد Google I/O 2023 اخبار جدید و غافلگیرکنندهتری درباره USM منتشر شود.
- آغاز به کار کارخانه TSMC در آریزونا و ارائه نخستین تراشههای ساخت آمریکا از سوی اپل
- گزارش Canalys از بازار اسمارتفون چین در سال 2024 – ویوو و هواوی اپل را کنار زدند
- واکاوی استراتژی احتمالی Arm برای افزایش قیمتها و تولید مستقیم تراشه – چالشها و فرصتها
- معرفی تاشوی عمودی Nubia Flip2 – نخستین گوشی تاشوی سال 2025 با نمایشگر خارجی بزرگتر
- معرفی moto g (2025) و moto g power (2025) – میانردههای موتورولا با Dimensity 6300 و دوربین 50MP
- گزارش کانترپوینت از رشد 4 درصدی بازار اسمارتفون در سهماهه چهارم 2024 پس از دو سال افت متوالی
- بررسی سامسونگ Galaxy Ring - پیشنمایشی از یک جادو، انتظار برای آینده