تبدیل متن به تصویر توسط هوش مصنوعی مایکروسافت

تاریخ : 1396/11/1 نویسنده: مسعود بهرامی شرق
برچسب‌ها :	هوش مصنوعی Artificial Intelligence ، یادگیری عمیق Deep Learning ، یادگیری ماشین Machine Learning ، مایکروسافت Microsoft

واحد خبر mobile.ir : اگر به شما یادداشتی بدهند و در آن از شما خواسته باشند پرنده‌ای با بدن زرد، بال‌های مشکی و یک نوک کوتاه طراحی کنید، به احتمال زیاد در ابتدا طرحی کلی و ابتدایی از یک پرنده را ترسیم کرده، سپس به یادداشت نگاه می‌کنید و می‌بینید که رنگ بدن پرنده بایستی زرد باشد؛ به دنبال مداد زرد می‌گردید و بدن را رنگ می‌کنید؛ با نگاهی دوباره به یادداشت متوجه می‌شوید که برای رنگ کردن بال‌ها به مداد مشکی نیاز دارید؛ پس از اتمام رنگ‌آمیزی بال‌ها، مجددا نگاهی به یادداشت انداخته، نوک پرنده را کوتاه کرده و کناره آن را با افزودن لکه نوری (که گویی از روی نوک بازتاب شده) مشخص می‌کنید. سرانجام، می‌توانید شاخه‌ای بکشید که پرنده را در حال استراحت روی آن نشان می‌‌دهد.

Microsofts New Drawing AI Bot Based on Text Descriptions

مطمئنا ترسیم چنین طرحی، چندین دقیقه از وقت شما را خواهد گرفت. جالب است بدانید مایکروسافت در روز پنج‌شنبه 18 ژانویه 2018 (28 دی 1396) با انتشار مطلبی در وبلاگ رسمی خود، از توسعه یک ربات نرم‌افزاری خبر داد که می‌تواند پس از دریافت جزییات تصویر مورد نظر شما (در قالب متن) آن را در عرض چند ثانیه طراحی کند! طبق جدیدترین مقاله‌ای که از سوی تیم پژوهشگران مایکروسافت در این زمینه منتشر شده، این افراد در حال توسعه تکنولوژی پیشرفته‌ای بر مبنای هوش مصنوعی هستند که می‌تواند تصویر را بر اساس متنی که به آن داده می‌شود، با دقتی بالا ترسیم کند. بد نیست بدانید، مایکروسافت، 2018 را "سال هوش مصنوعی" دانسته و تاکنون چندین پروژه هوش مصنوعی را در دستور کار داشته است.

البته در گذشته هم شاهد تکنیک‌های مشابهی بوده‌ایم، اما تکنولوژی هوش مصنوعی مایکروسافت در این پروژه به گونه‌ای برنامه‌ریزی شده که در آن تک‌تک کلمات متن به دقت مورد بررسی قرار ‌می‌گیرند؛ به گفته تیم پژوهشگران، همین تمرکز آگاهانه، باعث شده که کیفیت تصویر تولیدشده با ربات مایکروسافت در مقایسه با تکنولوژی‌های مشابه قبلی، تا 3 برابر بیشتر باشد. مایکروسافت برای اثبات ادعای خود، به مقاله‌ منتشرشده در وب‌سایت arXiv.org استناد کرده که در آن، نتایج مربوط به آزمایشی با استانداردهای صنعتی، آورده شده است.

تیم پژوهشگران مایکروسافت این تکنولوژی را "ربات طراح" نامیده و مدعی شده‌اند که می‌تواند هر نوع تصویری را تولید کند؛ از مناظر طبیعی معمولی (مثل صحنه چرای دام‌ها در دل طبیعت) گرفته تا طرح‌های خیالی و انتزاعی (مثل یک اتوبوس دوطبقه شناور). تصویری که توسط این ربات تولید می‌شود، حاوی جزییاتی‌ست که در متن داده‌شده یافت نمی‌شود. این پدیده نشان می‌دهد هوش مصنوعی مذکور، درجاتی از تخیل مصنوعی را هم در خود دارد.

Microsofts New Drawing AI Bot Based on Text Descriptions

شیائودونگ هی (Xiaodong He)، از پژوهشگران و مدیران تحقیقاتی اصلیِ "مرکز تکنولوژی یادگیری عمیق" (واقع در لابراتوار تحقیقاتی مایکروسافت در واشنگتن)، می‌گوید: «اگر به [موتور جست‌وجوی] Bing رفته و کلمه پرنده را سرچ کنید، تصویری از یک پرنده را دریافت می‌کنید. اما در اینجا، تک‌تک پیکسل‌های تصاویر، از همان ابتدا توسط کامپیوتر خلق می‌شوند.» به گفته وی، ممکن است چنین پرندگانی اصلا در دنیای واقعی وجود نداشته باشند؛ این تصاویر فقط نمودی از تصور کامپیوتر از پرندگان هستند.

تولید تصاویر با توجه کامل

مغز متفکر ربات طراح مایکروسافت، تکنولوژی جالبی‌ست، تحت عنوان GAN (کوتاه‌شده Generative Adversarial Network، به معنی "شبکه مخالفت سازنده"). این شبکه شامل دو مدل یادگیری ماشینی است؛ مدل اول (تحت عنوان generator یا "تولیدکننده") که تصاویر را از روی توضیحات متنی خلق می‌کند و مدلی دیگر (با نام discriminator یا "تفکیک‌کننده")، که صحت و اصالت تصاویر خلق‌شده بر مبنای توضیحات متنی را مشخص می‌کند. مدل اولی سعی دارد تا تصاویر اشتباه و جعلی هم از زیر دست تفکیک‌کننده عبور کنند، اما تفکیک‌کننده دوست ندارد فریب بخورد. با این اوصاف، تفکیک‌کننده، تولیدکننده را به سمت کامل‌تر شدن می‌برد.

ربات طراح مایکروسافت بر اساس مجموعه داده‌هایی توسعه یافته که حاوی تصاویر به همراه توضیحات آنهاست که در آن، توضیح با عکس مربوطه، جفت شده است. این کار به مدل‌های یادشده اجازه می‌دهد تا یاد بگیرند چگونه کلمات را با نمود تصویری همان واژه‌ها پیوند بزنند. پس به عنوان مثال، هرگاه توضیح متنی، کلمه "پرنده" باشد، GAN یاد می‌گیرد که تصویر یک پرنده را تولید کند. به گفته شیائودونگ هی، این همان دلیل بنیادی‌ست که پژوهشگران تیم را به این باور رسانده که ماشین هم می‌تواند یاد بگیرد.

Microsofts New Drawing AI Bot Based on Text Descriptions

اگر توضیحات متنی، ساده باشند (مثلا "یک پرنده آبی" یا "یک درخت همیشه‌سبز")، شبکه‌های GAN مشکلی برای خلق تصویر نداشته و کار خود را با کیفیت انجام می‌دهند. اما اگر توضیح متنی پیچیده‌تر شود – مثلا پرنده‌ای با کاکل سبز، بال‌های زرد و شکم قرمز – کیفیت تصویر، پیشرفتی نکرده و ثابت می‌ماند. علت در آن است که تمام این توضیح پیچیده برای generator، به منزله یک ورودی واحد بوده و متعاقبا جزییات موجود در توضیح، از بین می‌رود. در نتیجه، تصویر ایجادشده، به جای آنکه دقیقا مطابق با توضیح متنی باشد، تصویر تاری‌ست از یک پرنده‌ با ترکیب ناهمگونی از رنگ‌های سبز، زرد و قرمز.

همانطور که در مقدمه خبر هم ذکر شد، یک انسان برای طراحی آنچه از او خواسته شده، باید مکررا به توضیحات ارائه‌شده رجوع کرده و به کلماتی که بخش‌های مختلف تصویر را توصیف می‌کنند، توجه کامل نماید. برای انتقال این خصیصه انسانی به ربات طراح، پژوهشگران مایکروسافت شبکه‌ای را با نام attentional GAN یا AttnGAN (به معنی GAN توجه‌محور) طراحی کردند که می‌تواند مفهوم انسانیِ "توجه" را به روش ریاضی نمایش دهد. این کار از طریق تجزیه متن ورودی به کلمات جداگانه و جور کردن هر کدام از این کلمات با بخش‌های خاصی از تصویر، امکان‌پذیر خواهد شد. هی در این زمینه می‌گوید: «توجه، مفهومی انسانی‌ست؛ ما با استفاده از ریاضی، توجه را محاسباتی می‌کنیم.»

یکی دیگر از نکات جالب درباره این ربات، آن است که مدل یادشده می‌تواند از طریق داده‌های آموزشی، به درک متعارف یا عقل سلیم یک انسان رسیده و با استفاده از آن، بخش‌هایی از تصویر که در توضیح نیامده و به تخیل ربات واگذار شده را تکمیل نماید. به عنوان مثال، از آنجا که بسیاری از تصاویر پرندگان در داده‌های آموزشی، پرنده را نشسته روی شاخه نشان می‌دهند، AttnGAN نیز معمولا پرنده را به صورت نشسته روی شاخه به تصویر می‌کشد، مگر آنکه در توضیح متنی، پرنده روی شئ دیگری نشسته باشد.

به گفته پنگ‌چوان ژانگ (Pengchuan Zhang)، یکی از پژوهشگران تیم، الگوریتم یادگیری ماشینی از داده‌ها به این درک کلی می‌رسد که پرنده به کجا تعلق دارد. برای آزمودن این ویژگی جالب، تیم پژوهشگران، آزمایشی را ترتیب داد که در آن، عبارت‌های عجیب و غریبی به عنوان توضیح متنی تصویر به ربات طراح داده می‌شد، مثل "یک اتوبوس دوطبقه قرمز‌رنگ که روی دریاچه شناور است". نتیجه کار، تصویر تار و مضحکی شد که هم شبیه به یک قایق با دو عرشه بود و هم به اتوبوسی دو طبقه شباهت داشت، که روی دریاچه‌ای محصورشده با کوهستان، شناور بود. تصویر نهایی، نشان می‌دهد، قوه ادراک این ربات – در کنار توضیحات متن درباره اتوبوس – به این نکته هم واقف بوده که قایق‌ها روی دریاچه شناور هستند. لذا ترکیبی از اینها را در تصویر نهایی اعمال نموده است.

به گفته هی، می‌توانیم روی آنچه که توصیف می‌کنیم، کنترل داشته باشیم و ببینیم که ماشین، چگونه واکنش نشان می‌دهد. می‌توانیم امتحان کنیم و ببینیم ماشین، چه یاد گرفته است. درست است که ماشین در پس‌زمینه، به درک متعارفی از پدیده‌ها دست یافته، اما بازهم می‌تواند آنچه شما درخواست کرده‌اید را دنبال کند. البته شاید گاهی اوقات محصول نهایی کمی خنده‌دار به نظر برسد.

کاربردهای عملی

تکنولوژی تولید تصویر از متن، می‌تواند کاربردهای فراوانی در زندگی روزمره داشته باشد، مثل دستیار طراحی برای نقاش‌ها یا افرادی که در حرفه طراحی داخلی اشتغال دارند؛ و یا ابزاری برای ویرایش عکس با فرمان‌های صوتی. شیائودونگ هی معتقد است با افزایش قدرت پردازش، این تکنولوژی می‌تواند فقط با در اختیار داشتن فیلنامه، فیلم‌های انیمیشن هم تولید کرده و به این ترتیب با حذف آن قسمت از کار انیماتورها که با دست انجام می‌شود، کمک شایانی به آنها کند.

Microsofts New Drawing AI Bot Based on Text Descriptions

طبق اذعان خود مایکروسافت، این تکنولوژی در حال حاضر ناقص است. بررسی دقیق تصاویر نشان می‌دهد که تقریبا همیشه ایرادهایی در کار دیده می‌شود، مثل به تصویر کشیدن پرنده‌هایی با نوک آبی (به جای مشکی) و یا یک قفسه میوه با موزهائی به شکل عجیب (تصویر بالا). نقص‌های فوق به وضوح نشان می‌دهد که خالق این تصاویر، کامپیوتر است، و نه انسان. اما با این وجود، کیفیت تصاویری که با تکنولوژی AttnGAN تولید می‌شوند، تا 3 برابر بیشتر از مدل‌های قبلی GAN بوده و در جهت رسیدن به هوش شبه-انسانی که بتواند قابلیت‌های انسانی را تقویت کند، دستاورد بزرگی محسوب می‌شود.

شیائودونگ هی، بر این باور است که لازمه هم‌زیستی انسان‌ها و هوش مصنوعی در دنیای کنونی، یافتن راهی‌ست که این دو بتوانند با هم تعامل داشته باشند. زبان و تصویر دو مورد از مهم‌ترین مؤلفه‌هایی‌ هستند که انسان‌ها و ماشین‌ها از طریق آنها می‌توانند به تعامل با یکدیگر بپردازند.

منبع : Microsoft