همکاری گوگل و OpenAI برای جلوگیری از شورش ربات‌ها!

تاریخ : 1396/4/21 نویسنده: مریم رشنو
برچسب‌ها :	هوش مصنوعی Artificial Intelligence ، گوگل Google

واحد خبر mobile.ir : برخی فیلم‌های علمی-تخیلی به موضوع روبات‌ها و روزی اشاره کرده‌اند که نسل انسان‌ها توسط این موجوداتِ ساخته بشر از میان خواهند رفت. حال دو شرکت مطرح در زمینه هوش مصنوعی ظاهرا این خطر را بیش از یک داستان، جدی گرفته‌اند و به جای نشستن و منتظر ماندن برای شورش احتمالی روبات‌ها، کارگروهی برای مقابه با این خطر تشکیل داده‌اند. در این همکاری مشترک میان دو شرکت DeepMind و OpenAI تلاش خواهد شد نرم‌افزارهایی ساخته شود که با وجود تکیه بر هوش مصنوعی امکان سرکشی و عمل خودمختارانه را نداشته باشند. البته هیچ کس از آینده خبر ندارد، اما بدون شک پیشگیری بهتر از درمان است. به همین دلیل است که DeepMind و OpenAI به پیشگیری اولویت داده‌اند.

Google DeepMind Open AI Team Up to Head Off Robot Uprising

DeepMind شرکتی بریتانیایی است که در سال 2014 توسط گوگل خریداری شده است. OpenAI نیز شرکتی پژوهشی و غیر انتفاعی است که در زمینه هوش مصنوعی فعالیت می‌کند و توسط ایلان ماسک (Elon Mask) و چند تن دیگر در سال 2015 تأسیس شده است.

پژوهشگران این دو کمپانی در مقاله‌ای که در تاریخ 2 جولای 2017 (11 تیر 1396) منتشر شده است، نشان داده‌اند که به‌کارگیری سیستم پاداش انسانی به جای پاداش خودکار، می‌تواند برای کنترل و هدایت ابزارهای هوش مصنوعی مانند ربات‌ها به کار گرفته شود. آنها در این مقاله که تحت عنوان «یادگیری تقویتیِ عمیق از اولویت‌های بشری» منتشر شده است، به بیان جزئیات این روش پرداخته‌اند. گفتنی است که یادگیری تقویتی (Reinforcement Learning)، یکی از گرایش‌های یادگیری ماشینی و در خصوص رفتارهایی است که ماشین برای به حداکثر رساندن پاداش باید انجام دهد.

ایده اصلی و نگرانی ویژه‌ای که باعث این مشارکت شده است، خطرات ناشی از ماشین‌های فو‌ق‌العاده هوشمندی است که می‌توانند آینده بشریت را به خطر اندازند. این دل‌مشغولی‌ تا حدی است که پیشرفت‌های هوش مصنوعی نگرانی افرادی چون بیل گیتس-- یکی از بنیان‌گذاران مایکروسافت-- را نیز به همراه داشته است.

در این مقاله به سیستم یادگیری ماشینی‌ پرداخته شده است که در آن به جای تکیه صِرف بر رویه‌های خودکار هوش مصنوعی، از پارامترهای تعیین‌شده توسط انسان برای هدایت سیستم استفاده می‌شود. بر اساس یافته‌های پژوهش مورد اشاره، باید سیستم‌های یادگیری ماشینی ساخته شود که در آن‌ها، به جای این که ماشین هوشمند تصمیمی بگیرد که منجر به وقوع پیامدهای ناخواسته شود، با وارد کردن متغیرهای قابل تعیین توسط انسان‌ها در فرآیند تصمیم‌گیری، امکان غافلگیری توسط هوش مصنوعی از میان برود. به این ترتیب دستگاه هوشمند برای یادگیری وظایف جدید بر اساس نحوه عملکرد انسان، عمل می‌کند. این کار بسیار امن‌تر از زمانی است که به هوش مصنوعی اجازه انجام امور و حل مسائل داده شود؛ چرا که احتمال دارد شگفتی‌های ناخواسته‌ای به وجود آید.

Google DeepMind Open AI Team Up to Head Off Robot Uprising

به طور مثال، ممکن است ماشین ارزش تقلب کردن را برای رسیدن به نتیجه شناسایی کند و یاد بگیرد که گاهی اوقات، تقلب کارآمدترین راه برای رسیدن به بیشترین پاداش است. این مسئله دقیقا در شرکت OpenAI پیش‌ آمده است. به این صورت که دستگاه مبتنی بر هوش مصنوعی این شرکت، به جای کامل کردن بازی برای کسب امتیاز، دریافته بود که با گشتن دور چند دایره می‌تواند بدون بازی کردن امتیاز لازم را کسب کند!

برای فهم بهتر مسأله فرض کنید که تمام وسایل اتاق کف زمین پخش شده‌اند و شما به جای آن که هر چیز را سرِ جای خود بگذارید، تمام وسایل روی زمین را در قفسه‌های کمد قرار می‌دهید و در کمد را می‌بندید. به این ترتیب، به نظر می‌رسد اتاق را تمیز کرده‌اید در حالی که تنها وسایل را از گوشه و کنار اتاق جمع‌آوری کرده و در کمد به طور نامرتب قرار داده‌اید. معنای این وضعیت آن است که کار به نحو مطلوب انجام نشده است. ماشین‌‌های هوشمند نیز می‌توانند راه‌حل‌های مشابهی برای حل مسائل پیدا کنند. همان طور که گفته شد، یکی از نقاط تمرکز دو تیم در این پژوهش، بررسی سیستم پاداش است. آنها در این مقاله، در صدد یافتن راهی بودند که به جای ارائه سیستمی پیچیده که ماشین‌های هوشمند می‌توانند آن را دور بزنند، از ورودی انسانی برای تشویق هوش مصنوعی استفاده کنند. به این ترتیب، هنگامی که ابزار مبتنی بر هوش مصنوعی مسأله‌ای را مطابق خواست طراح سیستم حل کند، بازخورد مثبت می‌گیرد و در صورت استفاده از میان‌برهای تقلبی پاداشی دریافت نخواهد کرد. ظاهرا با استفاده از این شیوه جدید، دستگاه مبتنی بر هوش مصنوعی توانسته است بازی‌های ویدئویی ساده را یاد بگیرد.

Google DeepMind Open AI Team Up to Head Off Robot Uprising

البته با وجود آن که این تلاش‌ها در مجموع دلگرم‌ کننده است، اما نمی‌توان این شیوه‌ را در مقیاس وسیع به کار گرفت. زیرا عمل مطابق سیستم پاداش‌دهیِ مبتنی بر نقش انسان بسیار زمان‌بر است. اما با ادامه چنین همکاری‌هایی می‌توان امیدوار بود که توسعه هوش مصنوعی تحت کنترل و هدایت انسان‌ها قرار گیرد و از هوشمند شدن بیش از حد دستگاه‌ها و نابود کردن احتمالی بشریت ممانعت به عمل آید.