تبدیل متن به تصویر توسط هوش مصنوعی مایکروسافت
نمایش خبر
تاریخ : 1396/11/1 نویسنده: مسعود بهرامی شرق | ||
برچسبها : | هوش مصنوعی Artificial Intelligence ، یادگیری عمیق Deep Learning ، یادگیری ماشین Machine Learning ، مایکروسافت Microsoft |
واحد خبر mobile.ir : اگر به شما یادداشتی بدهند و در آن از شما خواسته باشند پرندهای با بدن زرد، بالهای مشکی و یک نوک کوتاه طراحی کنید، به احتمال زیاد در ابتدا طرحی کلی و ابتدایی از یک پرنده را ترسیم کرده، سپس به یادداشت نگاه میکنید و میبینید که رنگ بدن پرنده بایستی زرد باشد؛ به دنبال مداد زرد میگردید و بدن را رنگ میکنید؛ با نگاهی دوباره به یادداشت متوجه میشوید که برای رنگ کردن بالها به مداد مشکی نیاز دارید؛ پس از اتمام رنگآمیزی بالها، مجددا نگاهی به یادداشت انداخته، نوک پرنده را کوتاه کرده و کناره آن را با افزودن لکه نوری (که گویی از روی نوک بازتاب شده) مشخص میکنید. سرانجام، میتوانید شاخهای بکشید که پرنده را در حال استراحت روی آن نشان میدهد.
مطمئنا ترسیم چنین طرحی، چندین دقیقه از وقت شما را خواهد گرفت. جالب است بدانید مایکروسافت در روز پنجشنبه 18 ژانویه 2018 (28 دی 1396) با انتشار مطلبی در وبلاگ رسمی خود، از توسعه یک ربات نرمافزاری خبر داد که میتواند پس از دریافت جزییات تصویر مورد نظر شما (در قالب متن) آن را در عرض چند ثانیه طراحی کند! طبق جدیدترین مقالهای که از سوی تیم پژوهشگران مایکروسافت در این زمینه منتشر شده، این افراد در حال توسعه تکنولوژی پیشرفتهای بر مبنای هوش مصنوعی هستند که میتواند تصویر را بر اساس متنی که به آن داده میشود، با دقتی بالا ترسیم کند. بد نیست بدانید، مایکروسافت، 2018 را "سال هوش مصنوعی" دانسته و تاکنون چندین پروژه هوش مصنوعی را در دستور کار داشته است.
البته در گذشته هم شاهد تکنیکهای مشابهی بودهایم، اما تکنولوژی هوش مصنوعی مایکروسافت در این پروژه به گونهای برنامهریزی شده که در آن تکتک کلمات متن به دقت مورد بررسی قرار میگیرند؛ به گفته تیم پژوهشگران، همین تمرکز آگاهانه، باعث شده که کیفیت تصویر تولیدشده با ربات مایکروسافت در مقایسه با تکنولوژیهای مشابه قبلی، تا 3 برابر بیشتر باشد. مایکروسافت برای اثبات ادعای خود، به مقاله منتشرشده در وبسایت arXiv.org استناد کرده که در آن، نتایج مربوط به آزمایشی با استانداردهای صنعتی، آورده شده است.
تیم پژوهشگران مایکروسافت این تکنولوژی را "ربات طراح" نامیده و مدعی شدهاند که میتواند هر نوع تصویری را تولید کند؛ از مناظر طبیعی معمولی (مثل صحنه چرای دامها در دل طبیعت) گرفته تا طرحهای خیالی و انتزاعی (مثل یک اتوبوس دوطبقه شناور). تصویری که توسط این ربات تولید میشود، حاوی جزییاتیست که در متن دادهشده یافت نمیشود. این پدیده نشان میدهد هوش مصنوعی مذکور، درجاتی از تخیل مصنوعی را هم در خود دارد.
شیائودونگ هی (Xiaodong He)، از پژوهشگران و مدیران تحقیقاتی اصلیِ "مرکز تکنولوژی یادگیری عمیق" (واقع در لابراتوار تحقیقاتی مایکروسافت در واشنگتن)، میگوید: «اگر به [موتور جستوجوی] Bing رفته و کلمه پرنده را سرچ کنید، تصویری از یک پرنده را دریافت میکنید. اما در اینجا، تکتک پیکسلهای تصاویر، از همان ابتدا توسط کامپیوتر خلق میشوند.» به گفته وی، ممکن است چنین پرندگانی اصلا در دنیای واقعی وجود نداشته باشند؛ این تصاویر فقط نمودی از تصور کامپیوتر از پرندگان هستند.
تولید تصاویر با توجه کامل
مغز متفکر ربات طراح مایکروسافت، تکنولوژی جالبیست، تحت عنوان GAN (کوتاهشده Generative Adversarial Network، به معنی "شبکه مخالفت سازنده"). این شبکه شامل دو مدل یادگیری ماشینی است؛ مدل اول (تحت عنوان generator یا "تولیدکننده") که تصاویر را از روی توضیحات متنی خلق میکند و مدلی دیگر (با نام discriminator یا "تفکیککننده")، که صحت و اصالت تصاویر خلقشده بر مبنای توضیحات متنی را مشخص میکند. مدل اولی سعی دارد تا تصاویر اشتباه و جعلی هم از زیر دست تفکیککننده عبور کنند، اما تفکیککننده دوست ندارد فریب بخورد. با این اوصاف، تفکیککننده، تولیدکننده را به سمت کاملتر شدن میبرد.
ربات طراح مایکروسافت بر اساس مجموعه دادههایی توسعه یافته که حاوی تصاویر به همراه توضیحات آنهاست که در آن، توضیح با عکس مربوطه، جفت شده است. این کار به مدلهای یادشده اجازه میدهد تا یاد بگیرند چگونه کلمات را با نمود تصویری همان واژهها پیوند بزنند. پس به عنوان مثال، هرگاه توضیح متنی، کلمه "پرنده" باشد، GAN یاد میگیرد که تصویر یک پرنده را تولید کند. به گفته شیائودونگ هی، این همان دلیل بنیادیست که پژوهشگران تیم را به این باور رسانده که ماشین هم میتواند یاد بگیرد.
اگر توضیحات متنی، ساده باشند (مثلا "یک پرنده آبی" یا "یک درخت همیشهسبز")، شبکههای GAN مشکلی برای خلق تصویر نداشته و کار خود را با کیفیت انجام میدهند. اما اگر توضیح متنی پیچیدهتر شود – مثلا پرندهای با کاکل سبز، بالهای زرد و شکم قرمز – کیفیت تصویر، پیشرفتی نکرده و ثابت میماند. علت در آن است که تمام این توضیح پیچیده برای generator، به منزله یک ورودی واحد بوده و متعاقبا جزییات موجود در توضیح، از بین میرود. در نتیجه، تصویر ایجادشده، به جای آنکه دقیقا مطابق با توضیح متنی باشد، تصویر تاریست از یک پرنده با ترکیب ناهمگونی از رنگهای سبز، زرد و قرمز.
همانطور که در مقدمه خبر هم ذکر شد، یک انسان برای طراحی آنچه از او خواسته شده، باید مکررا به توضیحات ارائهشده رجوع کرده و به کلماتی که بخشهای مختلف تصویر را توصیف میکنند، توجه کامل نماید. برای انتقال این خصیصه انسانی به ربات طراح، پژوهشگران مایکروسافت شبکهای را با نام attentional GAN یا AttnGAN (به معنی GAN توجهمحور) طراحی کردند که میتواند مفهوم انسانیِ "توجه" را به روش ریاضی نمایش دهد. این کار از طریق تجزیه متن ورودی به کلمات جداگانه و جور کردن هر کدام از این کلمات با بخشهای خاصی از تصویر، امکانپذیر خواهد شد. هی در این زمینه میگوید: «توجه، مفهومی انسانیست؛ ما با استفاده از ریاضی، توجه را محاسباتی میکنیم.»
یکی دیگر از نکات جالب درباره این ربات، آن است که مدل یادشده میتواند از طریق دادههای آموزشی، به درک متعارف یا عقل سلیم یک انسان رسیده و با استفاده از آن، بخشهایی از تصویر که در توضیح نیامده و به تخیل ربات واگذار شده را تکمیل نماید. به عنوان مثال، از آنجا که بسیاری از تصاویر پرندگان در دادههای آموزشی، پرنده را نشسته روی شاخه نشان میدهند، AttnGAN نیز معمولا پرنده را به صورت نشسته روی شاخه به تصویر میکشد، مگر آنکه در توضیح متنی، پرنده روی شئ دیگری نشسته باشد.
به گفته پنگچوان ژانگ (Pengchuan Zhang)، یکی از پژوهشگران تیم، الگوریتم یادگیری ماشینی از دادهها به این درک کلی میرسد که پرنده به کجا تعلق دارد. برای آزمودن این ویژگی جالب، تیم پژوهشگران، آزمایشی را ترتیب داد که در آن، عبارتهای عجیب و غریبی به عنوان توضیح متنی تصویر به ربات طراح داده میشد، مثل "یک اتوبوس دوطبقه قرمزرنگ که روی دریاچه شناور است". نتیجه کار، تصویر تار و مضحکی شد که هم شبیه به یک قایق با دو عرشه بود و هم به اتوبوسی دو طبقه شباهت داشت، که روی دریاچهای محصورشده با کوهستان، شناور بود. تصویر نهایی، نشان میدهد، قوه ادراک این ربات – در کنار توضیحات متن درباره اتوبوس – به این نکته هم واقف بوده که قایقها روی دریاچه شناور هستند. لذا ترکیبی از اینها را در تصویر نهایی اعمال نموده است.
به گفته هی، میتوانیم روی آنچه که توصیف میکنیم، کنترل داشته باشیم و ببینیم که ماشین، چگونه واکنش نشان میدهد. میتوانیم امتحان کنیم و ببینیم ماشین، چه یاد گرفته است. درست است که ماشین در پسزمینه، به درک متعارفی از پدیدهها دست یافته، اما بازهم میتواند آنچه شما درخواست کردهاید را دنبال کند. البته شاید گاهی اوقات محصول نهایی کمی خندهدار به نظر برسد.
کاربردهای عملی
تکنولوژی تولید تصویر از متن، میتواند کاربردهای فراوانی در زندگی روزمره داشته باشد، مثل دستیار طراحی برای نقاشها یا افرادی که در حرفه طراحی داخلی اشتغال دارند؛ و یا ابزاری برای ویرایش عکس با فرمانهای صوتی. شیائودونگ هی معتقد است با افزایش قدرت پردازش، این تکنولوژی میتواند فقط با در اختیار داشتن فیلنامه، فیلمهای انیمیشن هم تولید کرده و به این ترتیب با حذف آن قسمت از کار انیماتورها که با دست انجام میشود، کمک شایانی به آنها کند.
طبق اذعان خود مایکروسافت، این تکنولوژی در حال حاضر ناقص است. بررسی دقیق تصاویر نشان میدهد که تقریبا همیشه ایرادهایی در کار دیده میشود، مثل به تصویر کشیدن پرندههایی با نوک آبی (به جای مشکی) و یا یک قفسه میوه با موزهائی به شکل عجیب (تصویر بالا). نقصهای فوق به وضوح نشان میدهد که خالق این تصاویر، کامپیوتر است، و نه انسان. اما با این وجود، کیفیت تصاویری که با تکنولوژی AttnGAN تولید میشوند، تا 3 برابر بیشتر از مدلهای قبلی GAN بوده و در جهت رسیدن به هوش شبه-انسانی که بتواند قابلیتهای انسانی را تقویت کند، دستاورد بزرگی محسوب میشود.
شیائودونگ هی، بر این باور است که لازمه همزیستی انسانها و هوش مصنوعی در دنیای کنونی، یافتن راهیست که این دو بتوانند با هم تعامل داشته باشند. زبان و تصویر دو مورد از مهمترین مؤلفههایی هستند که انسانها و ماشینها از طریق آنها میتوانند به تعامل با یکدیگر بپردازند.
- نگاه ویدئویی به پنج ویژگی مشترک در نسل جدید گوشیهای پرچمدار
- معرفی Redmi A4 5G – پایینرده 100 دلاری با نمایشگر 6.88 اینچی، SD 4s Gen 2 و باتری 5,160mAh
- معرفی ZTE Blade V70 – میانردهای با السیدی +HD و دوربین 108 مگاپیکسلی
- معرفی خانواده ROG Phone 9 – گیمینگ فونهای ایسوس با اسنپدراگون 8 الیت و نمایشگر 185 هرتزی
- نگاهی به HyperOS 2 به همراه جدول زمانی و فهرست دیوایسهای قابل ارتقاء به این پوسته
- نگاهی به فناوری ISOCELL ALoP – راهکار سامسونگ برای کاهش برآمدگی دوربینهای بخش پشتی گوشی
- شیائومی 14T Pro در نگاه رسانهها – نقاط ضعف و قوت از دید حرفهایها