آشنایی با Sora – مدل هوش مصنوعی OpenAI برای تبدیل متن به ویدئو

تاریخ : 1402/11/29 نویسنده: مسعود بهرامی شرق
برچسب‌ها :	هوش مصنوعی Artificial Intelligence ، اوپن ا آی OpenAI

واحد خبر mobile.ir : اگر تا کنون حداقل یک بار از ChatGPT استفاده کرده باشید، احتمالا می‌دانید که این بات هوش مصنوعی محصول شرکت OpenAI است. این کمپانی آمریکایی روز پنجشنبه 15 فوریه 2024 (26 بهمن 1402) از جدیدترین مدل هوش مصنوعی خود با عنوان Sora (بر گرفته از کلمه‌ای ژاپنی به معنای آسمان) رونمایی کرد. Sora توانایی تبدیل متن به ویدئو را داشته و با توجه به قابلیت‌های جدیدش می‌تواند استانداردهای هوش مصنوعی مولد را ارتقاء دهد. گفتنی‌ست، Sora نخستین مدل هوش مصنوعی تبدیل متن به ویدئو نیست و پیش از این مدل‌هایی مشابه (مثل Lumiere محصول گوگل) توسعه یافته‌‌اند، اما Sora – حداقل روی کاغذ – برتری‌هایی دارد که در ادامه به آنها اشاره می‌کنیم.

اسکرین‌شات از ویدئوی ساخته شده با موضوع تور گالری هنری با آثاری در سبک‌های مختلف

توانایی هوش مصنوعی در تبدیل متن به ویدئو، اخیرا به جدیدترین عرصه رقابت در بازار هوش مصنوعی مولد تبدیل شده است. در همین راستا، کمپانی‌هایی مثل OpenAI، گوگل و مایکروسافت دیگر به تبدیل متن به تصویر راضی نبوده و به دنبال تثبیت جایگاه خود در بازار تبدیل متن به ویدئو هستند؛ بازاری که برآورد می‌شود حجم درآمدزایی آن تا سال 2032 به 1.3 تریلیون دلار برسد.

Sora در حقیقت یک مدل انتشاری یا diffusion model است که پس از دریافت دستورهای متنی، می‌تواند ویدئوی مورد نظر را در رزولوشن‌ها و نسبت تصویرهای متنوع درست کند. همچنین، Sora می‌تواند با ایجاد تغییر در منظره، نورپردازی و سبک فیلم‌برداری، ویدئوی موجود را ویرایش کند. ایجاد ویدئو بر مبنای تصاویر ثابت و حتی بسط دادن ویدئوی موجود با پر کردن فریم‌های جامانده، از دیگر توانایی‌های Sora اعلام شده است.

مدل هوش مصنوعی Sora در حال حاضر می‌تواند محتوای ویدئویی با رزولوشن فول اچ‌دی را به طول نهایتا یک دقیقه خلق کند. به گفته شرکت سازنده، Sora می‌تواند صحنه‌های پیچیده را به همراه شخصیت‌های متعدد، انواع مختلف حرکت و جزییات دقیق از سوژه و پس‌زمینه، خلق کند. این مدل هوش مصنوعی جدید، ضمن درک دستور متنیِ کاربر، می‌تواند بفهمد که اجزای مورد درخواست در دستور متنی، با چه کم و کیفی در دنیای فیزیکی حضور دارند.

مثل ChatGPT، مدل Sora نیز با استفاده از معماری مبدل (transformer) کار می‌کند. در این معماری، ویدئوها و تصاویر در قالب واحدهای کوچکی از داده تحت عنوان «وصله» یا patch ارائه می‌شوند. فرآیند ساخت ویدئو توسط Sora، از برفک نویزدار آغاز شده و Sora با حذف تدریجی نویزها، به ویدئوی نهایی نزدیک می‌شود.

نقاط قوت

یکی از مواردی که Sora را از دیگر مدل‌ها متمایز می‌کند، توانایی آن در درک دستورهای متنی طولانی است. در یکی از مثال‌های OpenAI، دستور متنی داده شده به Sora بالغ بر 135 کلمه بوده است. نمونه‌هایی که OpenAI برای معرفی Sora ارائه کرده، حاکی از آن است که این مدل هوش مصنوعی جدید قادر است طیف گسترده‌ای از مناظر و شخصیت‌ها – از افراد، حیوانات و هیولاهای پشمالو گرفته تا نمای شهری، منظره طبیعت و حتی نیویورک غرق‌شده زیر آب – را خلق کند.

بخشی از این توانایی به ویژگی‌های کارهای قبلی OpenAI یعنی مدل‌های هوش مصنوعی ChatGPT و Dall-E مربوط می‌شود. مدل Dall-E 3 (تبدیل‌کننده متن به تصویر) در سپتامبر سال گذشته عرضه شد که به گفته استیون شانکلند (Stephen Shankland)، از کارشناسان حوزه هوش مصنوعی، جهشی بزرگ نسبت به Dall-E 2 (عرضه‌شده در سال 2022) محسوب می‌شود. گفتنی‌ست، مدل پیشرفته GPT-4 Turbo نیز در نوامبر سال گذشته رونمایی شد. از قرار معلوم، سازوکار Sora از تکنیک کپشن‌گذاری مجدد (recaptioning) در Dall-E 3 وام گرفته شده که به گفته OpenAI، می‌تواند کپشن‌های به شدت توصیفی را برای داده‌های آموزشی دیداری ایجاد کند.

اسکرین‌شات از ویدئوی ساخته شده با موضوع بازتاب روی شیشه قطار در حومه توکیو

اکثر ویدئوهای نمونه‌ای که با استفاده از Sora ساخته و از سوی OpenAI منتشر شده‌‌اند – به استثنای مواردی مثل نمایش چهره انسان از نزدیک و یا صحنه شنا کردن آبزیان در دریا – به شکل ناباورانه‌ای واقعی به نظر می‌رسند. به جز موارد یادشده، تشخیص اینکه این ویدئوها واقعی هستند یا ساختگی، حقیقتا دشوار است.

OpenAI در این رابطه می‌گوید: «Sora به عنوان شالوده‌ای برای مدل‌هایی که توانایی درک و شبیه‌سازی جهان واقعی را دارند، ایفای نقش می‌کند؛ قابلیتی که به باور ما دستاوردی مهم برای رسیدن به AGI [هوش جامع مصنوعی] خواهد بود.» لازم به ذکر است، هوش جامع مصنوعی شکل پیشرفته‌تری از هوش مصنوعی است که به هوش انسان نزدیک‌تر بوده و توانایی برای اجرای طیف گسترده‌تری از کارها را شامل می‌شود. جالب است که متا و DeepMind نیز برای رسیدن به چنین شاخصه‌ای ابراز علاقه کرده‌اند.

نقاط ضعف

در کنار تمام نقاط قوت Sora، نباید از ضعف‌های این مدل غافل باشیم. خود OpenAI به برخی ضعف‌های این مدل – از جمله ناتوانی در به تصویر کشیدن دقیق اجزای یک منظره پیچیده و یا فهمیدن رابطه علت و معلولی – اذعان دارد. به عنوان مثال، ساخت ویدئو از شخصی که در حال گاز زدن یک کلوچه است به درستی انجام می‌شود، اما ممکن است جای دندان‌های آن شخص پس از گاز زدن، روی کلوچه دیده نشود. جالب است بدانید، Sora گاهی جهت‌های چپ و راست را اشتباه می‌گیرد. توصیف دقیق رویدادهایی که در گذر زمان اتفاق می‌افتند (مثل دنبال کردن مسیر دوربین) نیز یکی دیگر از چالش‌هایی‌ست که ممکن است Sora به‌درستی از پس انجام آن برنیاید.

عرضه

درست مثل مدل Lumiere گوگل، دسترسی به Sora نیز در حال حاضر محدود است. به گفته OpenAI، قرار است مدل هوش مصنوعی Sora به زودی در اختیار گروه‌های ارزیاب و متخصصین، برای اطمینان از عملکرد صحیح در حوزه‌هایی مثل شایعه‌پراکنی، نفرت‌پراکنی و سوگیری و همچنین در اختیار هنرمندان بصری، طراحان و فیلم‌سازان قرار بگیرد. هدف از این کار، دریافت بازخورد از حرفه‌ای‌های این عرصه درباره Sora است.

اسکرین‌شات از ویدئوی ساخته شده با موضوع دو کشتی دزدان دریایی در لیوان چای

OpenAI هنوز زمان دقیق عرضه Sora را اعلام نکرده، اما یادآور شده که پیش از این کار، باید چندین اقدام امنیتی مهم انجام شود. برای نمونه، Sora باید استانداردهای امنیتی حال حاضر OpenAI را احراز کند، از جمله استانداردهایی که از صحنه‌های حاوی خشونت شدید، محتوای جنسی، تصاویر نفرت‌انگیز، شباهت به افراد مشهور و تضییع مالکیت معنوی دیگران ممانعت به عمل می‌آورد.

منبع : OpenAI