نگاهی به Veo و Imagen 3 – مدل‌های هوش مصنوعی مولد گوگل برای تبدیل متن به ویدئو و تصویر

تاریخ : 1403/9/15 نویسنده: مریم رشنو
برچسب‌ها :	هوش مصنوعی Artificial Intelligence ، گوگل Google

واحد خبر mobile.ir : وقتی سخن از تسلط هوش مصنوعی مولد یا generative AI به میان می‌آید، شرکت‌ها فعالانه به دنبال تثبیت موقعیت یا کسب جایگاه پیشرو در این صنعت هستند. در این میان، پلتفرم OpenAI از طریق فناوری پیشرفته خود، به رشد مداوم و بهبود و نوآوری در مدل‌های هوش مصنوعی ادامه داده است. این کمپانی یکی از نخستین شرکت‌هایی به‌شمار می‌رود که مدل هوش مصنوعی ویدئویی Sora را برای تبدیل متن به ویدئو در اوایل سال جاری میلادی معرفی کرد و توانایی این مدل را برای تولید ویدئوهای 60 ثانیه‌ای بر اساس فرمان‌های (prompt) متنی را به نمایش گذاشت. حال گوگل با معرفی رقیبی جدی، یعنی مدل Veo، به دنبال ایجاد انقلابی در تولید محتوا و پیشی گرفتن از رقباست.

کمپانی گوگل به تازگی در بلاگ خود از معرفی دو مدل AI جدید یعنی Imagen 3 و Veo در پلتفرم هوش مصنوعی Vertex AI خبر داده است که می‌توان از آن‌ها به‌صورت مجزا یا در کنار یکدیگر استفاده کرد. نسخه سوم Imagen قادر است تصویری را بر اساس یک فرمان متنی ایجاد کند و Veo نیز با دریافت یک تصویر و فرمان متنی، آن را به تصاویر متحرک بدل می‌سازد. Vertex AI مدت‌هاست که پلتفرم اصلی و مشهورGoogle Cloud برای ساده‌سازی توسعه و استقرار برنامه‌های هوش مصنوعی بوده و حالا این پلتفرم با یکپارچه‌سازی دو مدل Veo و Imagen 3 قابلیت‌های پیشرفته‌ای‌ را برای تولید ویدئو و تصویر در اختیار شرکت‌های بزرگ قرار می‌دهد و موارد استفاده متنوعی را به‌ویژه در حوزه بازاریابی و تبلیغات ارائه می‌دهد. مهم‌تر از همه آن‌که Google Cloud حالا به نخستین سرویس‌دهنده بزرگ (hyperscaler) ابری تبدیل می‌شود که یک مدل ویدیوئی را نیز در کنار سایر قابلیت‌ها به مشتریان عرضه می‌کند.

وارن بارکلی (Warren Barkley) مدیر ارشد بخش مدیریت محصول گوگل، طی پستی درباره مدل‌های جدید هوش مصنوعی این کمپانی و ضمن اشاره به ساده شدن کار شرکت‌های بزرگ برای ساخت تبلیغات ویدئویی و کاهش زمان تولید این قبیل محصولات، تأکید می‌کند که هر دو مدل هوش مصنوعی جدید گوگل دارای ویژگی‌های ایمنی مانند نهان‌نگاری دیجیتال (digital watermarking) و ابزارهای حفاظتی برای تعدیل محتوا و کاستن از مخاطرات مرتبط با هوش مصنوعی مولد هستند. به بیان دیگر، خروجی هر دو مدل Imagen 3 و Veo به طور نامرئی با DeepMind SynthID نهان‌نگاری شده تا از واقعی جلوه دادن تصاویر هوش مصنوعی جلوگیری شود و در عین حال فیلترهای ایمنی تضمین می‌کنند که این مدل‌ها برای تولید محتوای زیان‌بار مورد استفاده قرار نگیرند. گوگل همچنین اعلام کرده که از داده‌های مشتریان برای آموزش هوش مصنوعی خود استفاده نخواهد کرد.

Veo که اولین بار در کنفرانس توسعه‌دهندگان I/O گوگل معرفی شد، پاسخ DeepMind گوگل به رقبایی همچون Gen-3 محصول Runway و Sora محصول OpenAI است که تجربه پیچیده‌ای از تولید ویدئو را ارائه می‌دهند. این مدل می‌تواند فرمان‌های متنی یا تصویری را به ویدئوهای سینمایی و با کیفیت بالا در سبک‌های بصری مختلف تبدیل و کلیپ‌هایی را با مدت زمان بیش از 60 ثانیه تولید ‌کند. از جمله نکات تمایزبخش این مدل می‌توان به سازگاری در سطح فریم‌های تصویری اشاره کرد که از حرکت یکنواخت سوژه‌ها در عکس پشتیبانی می‌کند.

Imagen نیز که بیش از دو سال پیش به عنوان دیگر محصول بخش DeepMind معرفی شد، وظیفه تبدیل متن به تصویر را بر عهده دارد و تصاویری واقع‌گرایانه را در سبک‌های مختلف تولید می‌کند. مدلی که گوگل مدعی است در زمینه «جزئیات، نورپردازی و کاهش غیر طبیعی بودن تصاویر» از نسخه‌های قبلی پیشی گرفته است و به زودی در دسترس همه کاربران Vertex AI قرار خواهد گرفت. گفتنی است که Imagen 3 از ویژگی‌های ویرایشی برخوردار است و کاربران می‌توانند تصاویر تولیدشده را برای رفع نیازهای خلاقانه و مورد نظر خود اصلاح کنند. همچنین بنا بر اعلام گوگل، ویژگی Customization در Imagen 3 به کاربران امکان می‌دهد «هنگام تولید تصاویر جدید، برند، سبک، لوگو، موضوع یا ویژگی‌های محصول خود را نیز به طور ضمنی در تصویر جای دهند.»

ویژگی‌های بیشتری از این مدل برای کاربران حاضر در «فهرست مجاز» در نظر گرفته شده که مواردی همچون inpainting (افزودن عناصر به یک تصویر موجود)، outpainting (توسعه یک تصویر فراتر از حاشیه‌های اصلی آن) و product background (جایگزینی خودکار پس‌زمینه) را در بر می‌گیرد.

از میان نخستین کاربران این دو مدل می‌توان به Mondelez International (مالک برندهایی مانند Cadbury ،Oreo و Milka) و سرویس بازاریابی و ارتباطات جهانی WPP اشاره کرد. در واقع هم‌زمان با گسترش مدل‌های بنیادی گوگل، کسب‌وکارها در بسیاری از صنایع فرصتی مهم را به دست آورده‌اند تا نحوه ایجاد و ارائه محتوای بصری خود را به طور اساسی تغییر دهند.

نکته جالب آن‌که اندکی پس از معرفی مدل Veo، آمازون با نیز با رونمایی از Nova Reel به عنوان مدل پایه تولیدکننده ویدئوهای باکیفیت استودیویی و شش ثانیه‌ای از فرمان‌های متنی و تصویری، بر دامنه اخبار و مباحث پیرامون این ویژگی‌های جدید افزوده است. این مدل تازه همراه با سایر مدل‌های خانواده Nova، قرار است از طریق Amazon Bedrock در دسترس قرار گیرند. Bedrock سرویسی کاملاً مدیریت‌شده به‌شمار می‌رود که برای ساده‌سازی ایجاد و استقرار برنامه‌های هوش مصنوعی مولد طراحی شده است و حال با مدل جدید می‌تواند در رقابت با دیگر فعالان صنعت، عملکرد موثرتری داشته باشد.

در شرایطی که اغلب ارائه‌دهندگان بزرگ سرویس‌های ابری مانند Amazon Web Services ،Google Cloud و Microsoft Azure مدل‌های تولید تصویر را روی پلتفرم‌های یکپارچه هوش مصنوعی خود ارائه می‌دهند، امکان تولید ویدئو تاکنون بسیار محدود بوده و اقدام گوگل در معرفی مدل Veo می‌تواند موقعیت این شرکت را در صنعت نسبتاً نوظهور هوش مصنوعی تقویت کند. در این میان به نظر می‌رسد مایکروسافت با وجود پیشگامی اولیه در عرصه هوش مصنوعی، نسبت به سایر رقبا تا حدودی عقب مانده باشد؛ چرا که AI Foundry Azure از مدل‌هایی برای تولید ویدئو بهره‌ نمی‌برد. با این حال، انتظار می‌رود به محض عرضه Sora توسطOpenAI ، این وضعیت تغییر کند.

در حالی که مدل Veo در حال حاضر به صورت پیش‌نمایش خصوصی ارائه شده است، Imagen 3 به زودی در دسترس همه کاربران پلتفرم Vertex AI قرار می‌گیرد.

منبع : Google