معرفی Tacotron 2- سیستم جدید گوگل برای تبدیل مستقیم متن به گفتار
نمایش خبر
تاریخ : 1396/10/11 نویسنده: مریم رشنو | ||
برچسبها : | گوگل Google ، هوش مصنوعی Artificial Intelligence |
واحد خبر mobile.ir : در حال حاضر هوش مصنوعی یکی از موضوعات جذاب در پژوهشهای علمی محسوب میشود. این زمینه علمی آن چنان در حال پیشرفت است که متخصصان فناوری اطلاعات درباره زمانی گمانهزنی میکنند که هوش ماشینها از انسان هم فراتر خواهد رفت تا جایی که برخی شرکتها به دنبال راههایی برای جلوگیری از شورش رباتها در آینده هستند. یکی از جالبترین حوزههای کاربرد هوش مصنوعی، دستیاران شخصی هوشمند و ابزارهای ارتباط با انسان است. به تازگی جمعی از پژوهشگران گوگل به همراه محققی از دانشگاه کالیفرنیا تحقیقی انجام دادهاند که در تاریخ 16 دسامبر سال جاری میلادی (25 آذر 1396) در سایت arxive.org منتشر شده است. در این پژوهش معماری شبکه عصبی با نام Tacotron 2 معرفی شده که هدف آن تبدیل مستقیم متن به گفتار است.
مهمترین ویژگی این سیستم تولید صدایی بسیار مشابه انسان است تا جایی که در برخی موارد قابل تشخیص از صدای انسان نیست. در واقع Tacotron 2 نسل دوم فناوری گوگل است که دو شبکه عصبی عمیق (deep neural network) را در بر میگیرد. شبکه نخست متن را به یک طیفنگاشت (spectrogram) خاص تبدیل میکند که روشی بصری برای نشان دادن بسامد صوتی است. سپس خروجی طیفنگاشت (در قالب نمودار) به WaveNet میرود و بر اساس نمودار مذکور، عناصر صوتی مربوط تولید میشود. به بیان سادهتر، نمودار توسط WaveNet خوانده و به صدای واقعی تفسیر میشود. WaveNet تکنیکی مبتنی بر شبکه عصبی عمیق برای تولید صدای خام است که در سال 2016 توسط پژوهشگران شرکت هوش مصنوعی DeepMind (از زیرمجموعههای آلفابت) ابداع شده است. به کمک این تکنیک میتوان با الگوگیری از گفتار واقعی انسان و مدلسازی مستقیم شکل موجها، صدای واقعیتر و با شباهت بیشتر با صدای انسان تولید نمود.
گوگل برای مقایسه صدای تولیدشده توسط این سیستم با صدای انسان وبسایتی را طراحی کرده و نمونههایی از هر دو صدا را در کنار یکدیگر قرار داده است. با گوش دادن به هر دو صدا متوجه خواهید شد که کیفیت این صداها به قدری مشابه است که به راحتی نمیتوان تشخیص داد که کدام صدا توسط هوش مصنوعی تولید شده است. به علاوه، برای نشان دادن قدرت این سیستم، جملاتی را طراحی کرده که بیانگر عملکرد مناسب آن است.
مطابق اعلام گوگل، سیستم Tacotron 2 تلفظ را بر اساس معناشناسی عبارات یاد میگیرد و با میزان اندکی از خطا قادر به خواندن متن است. این سیستم نسبت به نشانههای سجاوندی (punctuation) حساس است و شیوه تلفظ خود را بر اساس علایم نقطهگذاری تغییر میدهد. به طور مثال، نحوه خواندن جمله «.This is your personal assistant, Google Home» که در آن نشانه ", “ پیش از Google Home به کار رفته با جمله «.This is your personal assistant Google Home» کاملا متفاوت خواهد بود. یا اگر واژهای در جمله با حروف بزرگ نوشته شده باشد، توسط این سیستم با تأکید تلفظ خواهد شد، چرا که به طور معمول در زبان انگلیسی کلمات مهم در جمله با حروف بزرگ نگاشته میشوند.
این سیستم در مورد واژگان پیچیده و نامهای دشوار عملکرد خوبی دارد. جالب آنکه از پسِ تلفظ جملات اصطلاحاً زبانپیچان (tongue-twisters) مانند Peter Piper picked a peck of pickled peppers نیز به راحتی بر میآید. نکته قابل توجه دیگر در خصوص Tacotron 2 آن است که اگر متن از نظر نوشتاری غلط باشد، سیستم به طور نسبی توانایی تلفظ صحیح آن را خواهد داشت.
البته این سیستم در حال حاضر تنها به زبان انگلیسی و برای تقلید صدای یک زن آموزش دیده است و برای صحبت کردن همانند مردان یا با صدای متفاوت دیگری از زنان و همچنین زبانهای دیگر، گوگل نیاز به آموزش مجدد سیستم خواهد داشت.
گوگل در حال حاضر از WaveNet برای تولید صداهای واقعی در دستیار صوتی هوشمند Google Assistant استفاده میکند و به نظر میرسد Tacotron 2 نیز به سرعت عملیاتی شود و در حد آزمایشگاهی باقی نماند.
- نگاه ویدئویی به پنج ویژگی مشترک در نسل جدید گوشیهای پرچمدار
- معرفی Redmi A4 5G – پایینرده 100 دلاری با نمایشگر 6.88 اینچی، SD 4s Gen 2 و باتری 5,160mAh
- معرفی ZTE Blade V70 – میانردهای با السیدی +HD و دوربین 108 مگاپیکسلی
- معرفی خانواده ROG Phone 9 – گیمینگ فونهای ایسوس با اسنپدراگون 8 الیت و نمایشگر 185 هرتزی
- نگاهی به HyperOS 2 به همراه جدول زمانی و فهرست دیوایسهای قابل ارتقاء به این پوسته
- نگاهی به فناوری ISOCELL ALoP – راهکار سامسونگ برای کاهش برآمدگی دوربینهای بخش پشتی گوشی
- شیائومی 14T Pro در نگاه رسانهها – نقاط ضعف و قوت از دید حرفهایها