معرفی Tacotron 2- سیستم جدید گوگل برای تبدیل مستقیم متن به گفتار
نمایش خبر
تاریخ : 1396/10/11 نویسنده: مریم رشنو | ||
برچسبها : | گوگل Google ، هوش مصنوعی Artificial Intelligence |
واحد خبر mobile.ir : در حال حاضر هوش مصنوعی یکی از موضوعات جذاب در پژوهشهای علمی محسوب میشود. این زمینه علمی آن چنان در حال پیشرفت است که متخصصان فناوری اطلاعات درباره زمانی گمانهزنی میکنند که هوش ماشینها از انسان هم فراتر خواهد رفت تا جایی که برخی شرکتها به دنبال راههایی برای جلوگیری از شورش رباتها در آینده هستند. یکی از جالبترین حوزههای کاربرد هوش مصنوعی، دستیاران شخصی هوشمند و ابزارهای ارتباط با انسان است. به تازگی جمعی از پژوهشگران گوگل به همراه محققی از دانشگاه کالیفرنیا تحقیقی انجام دادهاند که در تاریخ 16 دسامبر سال جاری میلادی (25 آذر 1396) در سایت arxive.org منتشر شده است. در این پژوهش معماری شبکه عصبی با نام Tacotron 2 معرفی شده که هدف آن تبدیل مستقیم متن به گفتار است.
مهمترین ویژگی این سیستم تولید صدایی بسیار مشابه انسان است تا جایی که در برخی موارد قابل تشخیص از صدای انسان نیست. در واقع Tacotron 2 نسل دوم فناوری گوگل است که دو شبکه عصبی عمیق (deep neural network) را در بر میگیرد. شبکه نخست متن را به یک طیفنگاشت (spectrogram) خاص تبدیل میکند که روشی بصری برای نشان دادن بسامد صوتی است. سپس خروجی طیفنگاشت (در قالب نمودار) به WaveNet میرود و بر اساس نمودار مذکور، عناصر صوتی مربوط تولید میشود. به بیان سادهتر، نمودار توسط WaveNet خوانده و به صدای واقعی تفسیر میشود. WaveNet تکنیکی مبتنی بر شبکه عصبی عمیق برای تولید صدای خام است که در سال 2016 توسط پژوهشگران شرکت هوش مصنوعی DeepMind (از زیرمجموعههای آلفابت) ابداع شده است. به کمک این تکنیک میتوان با الگوگیری از گفتار واقعی انسان و مدلسازی مستقیم شکل موجها، صدای واقعیتر و با شباهت بیشتر با صدای انسان تولید نمود.
گوگل برای مقایسه صدای تولیدشده توسط این سیستم با صدای انسان وبسایتی را طراحی کرده و نمونههایی از هر دو صدا را در کنار یکدیگر قرار داده است. با گوش دادن به هر دو صدا متوجه خواهید شد که کیفیت این صداها به قدری مشابه است که به راحتی نمیتوان تشخیص داد که کدام صدا توسط هوش مصنوعی تولید شده است. به علاوه، برای نشان دادن قدرت این سیستم، جملاتی را طراحی کرده که بیانگر عملکرد مناسب آن است.
مطابق اعلام گوگل، سیستم Tacotron 2 تلفظ را بر اساس معناشناسی عبارات یاد میگیرد و با میزان اندکی از خطا قادر به خواندن متن است. این سیستم نسبت به نشانههای سجاوندی (punctuation) حساس است و شیوه تلفظ خود را بر اساس علایم نقطهگذاری تغییر میدهد. به طور مثال، نحوه خواندن جمله «.This is your personal assistant, Google Home» که در آن نشانه ", “ پیش از Google Home به کار رفته با جمله «.This is your personal assistant Google Home» کاملا متفاوت خواهد بود. یا اگر واژهای در جمله با حروف بزرگ نوشته شده باشد، توسط این سیستم با تأکید تلفظ خواهد شد، چرا که به طور معمول در زبان انگلیسی کلمات مهم در جمله با حروف بزرگ نگاشته میشوند.
این سیستم در مورد واژگان پیچیده و نامهای دشوار عملکرد خوبی دارد. جالب آنکه از پسِ تلفظ جملات اصطلاحاً زبانپیچان (tongue-twisters) مانند Peter Piper picked a peck of pickled peppers نیز به راحتی بر میآید. نکته قابل توجه دیگر در خصوص Tacotron 2 آن است که اگر متن از نظر نوشتاری غلط باشد، سیستم به طور نسبی توانایی تلفظ صحیح آن را خواهد داشت.
البته این سیستم در حال حاضر تنها به زبان انگلیسی و برای تقلید صدای یک زن آموزش دیده است و برای صحبت کردن همانند مردان یا با صدای متفاوت دیگری از زنان و همچنین زبانهای دیگر، گوگل نیاز به آموزش مجدد سیستم خواهد داشت.
گوگل در حال حاضر از WaveNet برای تولید صداهای واقعی در دستیار صوتی هوشمند Google Assistant استفاده میکند و به نظر میرسد Tacotron 2 نیز به سرعت عملیاتی شود و در حد آزمایشگاهی باقی نماند.
- معرفی Realme GT7 Pro با بدنه IP69، باتری 6,500mAh و پردازنده Snapdragon 8 Elite
- گزارش مالی اپل از سهماهه منتهی به سپتامبر 2024 – رکورد درآمد، کاهش اجباری سود!
- گزارش مالی سامسونگ از سهماهه سوم 2024 – افت سود 40 درصدی در بخش نیمهرسانا
- گزارش مالی مایکروسافت از سهماهه منتهی به سپتامبر 2024 – کاهش فروش Xbox، درآمدزایی سایر بخشها
- معرفی OnePlus 13 با بدنه IP69، باتری 6,000mAh و پردازنده Snapdragon 8 Elite
- معرفی iQOO 13 با پردازنده Snapdragon 8 Elite، باتری 6,150mAh و عقبگرد در دوربینها!
- گزارش مالی آلفابت از سهماهه سوم 2024 – عملکرد فوقالعاده، افزایش درآمد همه بخشها