معرفی Tacotron 2- سیستم جدید گوگل برای تبدیل مستقیم متن به گفتار
نمایش خبر
تاریخ : 1396/10/11 نویسنده: مریم رشنو | ||
برچسبها : | گوگل Google ، هوش مصنوعی Artificial Intelligence |
واحد خبر mobile.ir : در حال حاضر هوش مصنوعی یکی از موضوعات جذاب در پژوهشهای علمی محسوب میشود. این زمینه علمی آن چنان در حال پیشرفت است که متخصصان فناوری اطلاعات درباره زمانی گمانهزنی میکنند که هوش ماشینها از انسان هم فراتر خواهد رفت تا جایی که برخی شرکتها به دنبال راههایی برای جلوگیری از شورش رباتها در آینده هستند. یکی از جالبترین حوزههای کاربرد هوش مصنوعی، دستیاران شخصی هوشمند و ابزارهای ارتباط با انسان است. به تازگی جمعی از پژوهشگران گوگل به همراه محققی از دانشگاه کالیفرنیا تحقیقی انجام دادهاند که در تاریخ 16 دسامبر سال جاری میلادی (25 آذر 1396) در سایت arxive.org منتشر شده است. در این پژوهش معماری شبکه عصبی با نام Tacotron 2 معرفی شده که هدف آن تبدیل مستقیم متن به گفتار است.
مهمترین ویژگی این سیستم تولید صدایی بسیار مشابه انسان است تا جایی که در برخی موارد قابل تشخیص از صدای انسان نیست. در واقع Tacotron 2 نسل دوم فناوری گوگل است که دو شبکه عصبی عمیق (deep neural network) را در بر میگیرد. شبکه نخست متن را به یک طیفنگاشت (spectrogram) خاص تبدیل میکند که روشی بصری برای نشان دادن بسامد صوتی است. سپس خروجی طیفنگاشت (در قالب نمودار) به WaveNet میرود و بر اساس نمودار مذکور، عناصر صوتی مربوط تولید میشود. به بیان سادهتر، نمودار توسط WaveNet خوانده و به صدای واقعی تفسیر میشود. WaveNet تکنیکی مبتنی بر شبکه عصبی عمیق برای تولید صدای خام است که در سال 2016 توسط پژوهشگران شرکت هوش مصنوعی DeepMind (از زیرمجموعههای آلفابت) ابداع شده است. به کمک این تکنیک میتوان با الگوگیری از گفتار واقعی انسان و مدلسازی مستقیم شکل موجها، صدای واقعیتر و با شباهت بیشتر با صدای انسان تولید نمود.
گوگل برای مقایسه صدای تولیدشده توسط این سیستم با صدای انسان وبسایتی را طراحی کرده و نمونههایی از هر دو صدا را در کنار یکدیگر قرار داده است. با گوش دادن به هر دو صدا متوجه خواهید شد که کیفیت این صداها به قدری مشابه است که به راحتی نمیتوان تشخیص داد که کدام صدا توسط هوش مصنوعی تولید شده است. به علاوه، برای نشان دادن قدرت این سیستم، جملاتی را طراحی کرده که بیانگر عملکرد مناسب آن است.
مطابق اعلام گوگل، سیستم Tacotron 2 تلفظ را بر اساس معناشناسی عبارات یاد میگیرد و با میزان اندکی از خطا قادر به خواندن متن است. این سیستم نسبت به نشانههای سجاوندی (punctuation) حساس است و شیوه تلفظ خود را بر اساس علایم نقطهگذاری تغییر میدهد. به طور مثال، نحوه خواندن جمله «.This is your personal assistant, Google Home» که در آن نشانه ", “ پیش از Google Home به کار رفته با جمله «.This is your personal assistant Google Home» کاملا متفاوت خواهد بود. یا اگر واژهای در جمله با حروف بزرگ نوشته شده باشد، توسط این سیستم با تأکید تلفظ خواهد شد، چرا که به طور معمول در زبان انگلیسی کلمات مهم در جمله با حروف بزرگ نگاشته میشوند.
این سیستم در مورد واژگان پیچیده و نامهای دشوار عملکرد خوبی دارد. جالب آنکه از پسِ تلفظ جملات اصطلاحاً زبانپیچان (tongue-twisters) مانند Peter Piper picked a peck of pickled peppers نیز به راحتی بر میآید. نکته قابل توجه دیگر در خصوص Tacotron 2 آن است که اگر متن از نظر نوشتاری غلط باشد، سیستم به طور نسبی توانایی تلفظ صحیح آن را خواهد داشت.
البته این سیستم در حال حاضر تنها به زبان انگلیسی و برای تقلید صدای یک زن آموزش دیده است و برای صحبت کردن همانند مردان یا با صدای متفاوت دیگری از زنان و همچنین زبانهای دیگر، گوگل نیاز به آموزش مجدد سیستم خواهد داشت.
گوگل در حال حاضر از WaveNet برای تولید صداهای واقعی در دستیار صوتی هوشمند Google Assistant استفاده میکند و به نظر میرسد Tacotron 2 نیز به سرعت عملیاتی شود و در حد آزمایشگاهی باقی نماند.
- بررسی ویدئویی و نگاهی از نزدیک به ردمی +Note 14 Pro
- معرفی Moto G05 ،Moto G15 Power ،Moto G15 و Moto E15 – پایینردههای اقتصادی موتورولا
- معرفی میانرده اقتصادی Realme 14x 5G با Dimensity 6300، باتری 6,000mAh و درجه حفاظت IP69
- آشنایی با Honor Pad V9 – تبلت جدید آنر با Dimensity 8350 و السیدی 2.8K
- رونمایی از Poco M7 Pro 5G – میانردهای با Dimensity 7025 Ultra و دوربین 50 مگاپیکسلی
- معرفی Honor GT با SD 8 Gen 3، دوربین اصلی 50 مگاپیکسلی و شارژر سیمی 100 واتی
- معرفی نسخه چینی vivo Y300 5G – میانردهای با تراشه Dimensity 6300 و اسپیکرهای قدرتمند