معرفی Tacotron 2- سیستم جدید گوگل برای تبدیل مستقیم متن به گفتار
نمایش خبر
تاریخ : 1396/10/11 نویسنده: مریم رشنو | ||
برچسبها : | گوگل Google ، هوش مصنوعی Artificial Intelligence |
واحد خبر mobile.ir : در حال حاضر هوش مصنوعی یکی از موضوعات جذاب در پژوهشهای علمی محسوب میشود. این زمینه علمی آن چنان در حال پیشرفت است که متخصصان فناوری اطلاعات درباره زمانی گمانهزنی میکنند که هوش ماشینها از انسان هم فراتر خواهد رفت تا جایی که برخی شرکتها به دنبال راههایی برای جلوگیری از شورش رباتها در آینده هستند. یکی از جالبترین حوزههای کاربرد هوش مصنوعی، دستیاران شخصی هوشمند و ابزارهای ارتباط با انسان است. به تازگی جمعی از پژوهشگران گوگل به همراه محققی از دانشگاه کالیفرنیا تحقیقی انجام دادهاند که در تاریخ 16 دسامبر سال جاری میلادی (25 آذر 1396) در سایت arxive.org منتشر شده است. در این پژوهش معماری شبکه عصبی با نام Tacotron 2 معرفی شده که هدف آن تبدیل مستقیم متن به گفتار است.
مهمترین ویژگی این سیستم تولید صدایی بسیار مشابه انسان است تا جایی که در برخی موارد قابل تشخیص از صدای انسان نیست. در واقع Tacotron 2 نسل دوم فناوری گوگل است که دو شبکه عصبی عمیق (deep neural network) را در بر میگیرد. شبکه نخست متن را به یک طیفنگاشت (spectrogram) خاص تبدیل میکند که روشی بصری برای نشان دادن بسامد صوتی است. سپس خروجی طیفنگاشت (در قالب نمودار) به WaveNet میرود و بر اساس نمودار مذکور، عناصر صوتی مربوط تولید میشود. به بیان سادهتر، نمودار توسط WaveNet خوانده و به صدای واقعی تفسیر میشود. WaveNet تکنیکی مبتنی بر شبکه عصبی عمیق برای تولید صدای خام است که در سال 2016 توسط پژوهشگران شرکت هوش مصنوعی DeepMind (از زیرمجموعههای آلفابت) ابداع شده است. به کمک این تکنیک میتوان با الگوگیری از گفتار واقعی انسان و مدلسازی مستقیم شکل موجها، صدای واقعیتر و با شباهت بیشتر با صدای انسان تولید نمود.
گوگل برای مقایسه صدای تولیدشده توسط این سیستم با صدای انسان وبسایتی را طراحی کرده و نمونههایی از هر دو صدا را در کنار یکدیگر قرار داده است. با گوش دادن به هر دو صدا متوجه خواهید شد که کیفیت این صداها به قدری مشابه است که به راحتی نمیتوان تشخیص داد که کدام صدا توسط هوش مصنوعی تولید شده است. به علاوه، برای نشان دادن قدرت این سیستم، جملاتی را طراحی کرده که بیانگر عملکرد مناسب آن است.
مطابق اعلام گوگل، سیستم Tacotron 2 تلفظ را بر اساس معناشناسی عبارات یاد میگیرد و با میزان اندکی از خطا قادر به خواندن متن است. این سیستم نسبت به نشانههای سجاوندی (punctuation) حساس است و شیوه تلفظ خود را بر اساس علایم نقطهگذاری تغییر میدهد. به طور مثال، نحوه خواندن جمله «.This is your personal assistant, Google Home» که در آن نشانه ", “ پیش از Google Home به کار رفته با جمله «.This is your personal assistant Google Home» کاملا متفاوت خواهد بود. یا اگر واژهای در جمله با حروف بزرگ نوشته شده باشد، توسط این سیستم با تأکید تلفظ خواهد شد، چرا که به طور معمول در زبان انگلیسی کلمات مهم در جمله با حروف بزرگ نگاشته میشوند.
این سیستم در مورد واژگان پیچیده و نامهای دشوار عملکرد خوبی دارد. جالب آنکه از پسِ تلفظ جملات اصطلاحاً زبانپیچان (tongue-twisters) مانند Peter Piper picked a peck of pickled peppers نیز به راحتی بر میآید. نکته قابل توجه دیگر در خصوص Tacotron 2 آن است که اگر متن از نظر نوشتاری غلط باشد، سیستم به طور نسبی توانایی تلفظ صحیح آن را خواهد داشت.
البته این سیستم در حال حاضر تنها به زبان انگلیسی و برای تقلید صدای یک زن آموزش دیده است و برای صحبت کردن همانند مردان یا با صدای متفاوت دیگری از زنان و همچنین زبانهای دیگر، گوگل نیاز به آموزش مجدد سیستم خواهد داشت.
گوگل در حال حاضر از WaveNet برای تولید صداهای واقعی در دستیار صوتی هوشمند Google Assistant استفاده میکند و به نظر میرسد Tacotron 2 نیز به سرعت عملیاتی شود و در حد آزمایشگاهی باقی نماند.
- IDC و Canalys: جایگاه نخست اپل در بازار جهانی اسمارتفون برای دومین سال پیاپی
- آغاز به کار کارخانه TSMC در آریزونا و ارائه نخستین تراشههای ساخت آمریکا از سوی اپل
- گزارش Canalys از بازار اسمارتفون چین در سال 2024 – ویوو و هواوی اپل را کنار زدند
- واکاوی استراتژی احتمالی Arm برای افزایش قیمتها و تولید مستقیم تراشه – چالشها و فرصتها
- معرفی تاشوی عمودی Nubia Flip2 – نخستین گوشی تاشوی سال 2025 با نمایشگر خارجی بزرگتر
- معرفی moto g (2025) و moto g power (2025) – میانردههای موتورولا با Dimensity 6300 و دوربین 50MP
- گزارش کانترپوینت از رشد 4 درصدی بازار اسمارتفون در سهماهه چهارم 2024 پس از دو سال افت متوالی