نگاهی به Veo و Imagen 3 – مدلهای هوش مصنوعی مولد گوگل برای تبدیل متن به ویدئو و تصویر
نمایش خبر
تاریخ : 1403/9/15 نویسنده: مریم رشنو | ||
برچسبها : | هوش مصنوعی Artificial Intelligence ، گوگل Google |
کمپانی گوگل به تازگی در بلاگ خود از معرفی دو مدل AI جدید یعنی Imagen 3 و Veo در پلتفرم هوش مصنوعی Vertex AI خبر داده است که میتوان از آنها بهصورت مجزا یا در کنار یکدیگر استفاده کرد. نسخه سوم Imagen قادر است تصویری را بر اساس یک فرمان متنی ایجاد کند و Veo نیز با دریافت یک تصویر و فرمان متنی، آن را به تصاویر متحرک بدل میسازد. Vertex AI مدتهاست که پلتفرم اصلی و مشهورGoogle Cloud برای سادهسازی توسعه و استقرار برنامههای هوش مصنوعی بوده و حالا این پلتفرم با یکپارچهسازی دو مدل Veo و Imagen 3 قابلیتهای پیشرفتهای را برای تولید ویدئو و تصویر در اختیار شرکتهای بزرگ قرار میدهد و موارد استفاده متنوعی را بهویژه در حوزه بازاریابی و تبلیغات ارائه میدهد. مهمتر از همه آنکه Google Cloud حالا به نخستین سرویسدهنده بزرگ (hyperscaler) ابری تبدیل میشود که یک مدل ویدیوئی را نیز در کنار سایر قابلیتها به مشتریان عرضه میکند.
وارن بارکلی (Warren Barkley) مدیر ارشد بخش مدیریت محصول گوگل، طی پستی درباره مدلهای جدید هوش مصنوعی این کمپانی و ضمن اشاره به ساده شدن کار شرکتهای بزرگ برای ساخت تبلیغات ویدئویی و کاهش زمان تولید این قبیل محصولات، تأکید میکند که هر دو مدل هوش مصنوعی جدید گوگل دارای ویژگیهای ایمنی مانند نهاننگاری دیجیتال (digital watermarking) و ابزارهای حفاظتی برای تعدیل محتوا و کاستن از مخاطرات مرتبط با هوش مصنوعی مولد هستند. به بیان دیگر، خروجی هر دو مدل Imagen 3 و Veo به طور نامرئی با DeepMind SynthID نهاننگاری شده تا از واقعی جلوه دادن تصاویر هوش مصنوعی جلوگیری شود و در عین حال فیلترهای ایمنی تضمین میکنند که این مدلها برای تولید محتوای زیانبار مورد استفاده قرار نگیرند. گوگل همچنین اعلام کرده که از دادههای مشتریان برای آموزش هوش مصنوعی خود استفاده نخواهد کرد.
Veo که اولین بار در کنفرانس توسعهدهندگان I/O گوگل معرفی شد، پاسخ DeepMind گوگل به رقبایی همچون Gen-3 محصول Runway و Sora محصول OpenAI است که تجربه پیچیدهای از تولید ویدئو را ارائه میدهند. این مدل میتواند فرمانهای متنی یا تصویری را به ویدئوهای سینمایی و با کیفیت بالا در سبکهای بصری مختلف تبدیل و کلیپهایی را با مدت زمان بیش از 60 ثانیه تولید کند. از جمله نکات تمایزبخش این مدل میتوان به سازگاری در سطح فریمهای تصویری اشاره کرد که از حرکت یکنواخت سوژهها در عکس پشتیبانی میکند.
Imagen نیز که بیش از دو سال پیش به عنوان دیگر محصول بخش DeepMind معرفی شد، وظیفه تبدیل متن به تصویر را بر عهده دارد و تصاویری واقعگرایانه را در سبکهای مختلف تولید میکند. مدلی که گوگل مدعی است در زمینه «جزئیات، نورپردازی و کاهش غیر طبیعی بودن تصاویر» از نسخههای قبلی پیشی گرفته است و به زودی در دسترس همه کاربران Vertex AI قرار خواهد گرفت. گفتنی است که Imagen 3 از ویژگیهای ویرایشی برخوردار است و کاربران میتوانند تصاویر تولیدشده را برای رفع نیازهای خلاقانه و مورد نظر خود اصلاح کنند. همچنین بنا بر اعلام گوگل، ویژگی Customization در Imagen 3 به کاربران امکان میدهد «هنگام تولید تصاویر جدید، برند، سبک، لوگو، موضوع یا ویژگیهای محصول خود را نیز به طور ضمنی در تصویر جای دهند.»
ویژگیهای بیشتری از این مدل برای کاربران حاضر در «فهرست مجاز» در نظر گرفته شده که مواردی همچون inpainting (افزودن عناصر به یک تصویر موجود)، outpainting (توسعه یک تصویر فراتر از حاشیههای اصلی آن) و product background (جایگزینی خودکار پسزمینه) را در بر میگیرد.
از میان نخستین کاربران این دو مدل میتوان به Mondelez International (مالک برندهایی مانند Cadbury ،Oreo و Milka) و سرویس بازاریابی و ارتباطات جهانی WPP اشاره کرد. در واقع همزمان با گسترش مدلهای بنیادی گوگل، کسبوکارها در بسیاری از صنایع فرصتی مهم را به دست آوردهاند تا نحوه ایجاد و ارائه محتوای بصری خود را به طور اساسی تغییر دهند.
نکته جالب آنکه اندکی پس از معرفی مدل Veo، آمازون با نیز با رونمایی از Nova Reel به عنوان مدل پایه تولیدکننده ویدئوهای باکیفیت استودیویی و شش ثانیهای از فرمانهای متنی و تصویری، بر دامنه اخبار و مباحث پیرامون این ویژگیهای جدید افزوده است. این مدل تازه همراه با سایر مدلهای خانواده Nova، قرار است از طریق Amazon Bedrock در دسترس قرار گیرند. Bedrock سرویسی کاملاً مدیریتشده بهشمار میرود که برای سادهسازی ایجاد و استقرار برنامههای هوش مصنوعی مولد طراحی شده است و حال با مدل جدید میتواند در رقابت با دیگر فعالان صنعت، عملکرد موثرتری داشته باشد.
در شرایطی که اغلب ارائهدهندگان بزرگ سرویسهای ابری مانند Amazon Web Services ،Google Cloud و Microsoft Azure مدلهای تولید تصویر را روی پلتفرمهای یکپارچه هوش مصنوعی خود ارائه میدهند، امکان تولید ویدئو تاکنون بسیار محدود بوده و اقدام گوگل در معرفی مدل Veo میتواند موقعیت این شرکت را در صنعت نسبتاً نوظهور هوش مصنوعی تقویت کند. در این میان به نظر میرسد مایکروسافت با وجود پیشگامی اولیه در عرصه هوش مصنوعی، نسبت به سایر رقبا تا حدودی عقب مانده باشد؛ چرا که AI Foundry Azure از مدلهایی برای تولید ویدئو بهره نمیبرد. با این حال، انتظار میرود به محض عرضه Sora توسطOpenAI ، این وضعیت تغییر کند.
در حالی که مدل Veo در حال حاضر به صورت پیشنمایش خصوصی ارائه شده است، Imagen 3 به زودی در دسترس همه کاربران پلتفرم Vertex AI قرار میگیرد.
- معرفی Realme Note 60x – پایینرده ریلمی با السیدی +HD و بدنهای مستحکم
- نسخه بینالمللی Redmi Note 14 5G – تکرار تراشه، ارتقاء سلفی به 20MP، اضافه شدن دوربین اولتراواید 8MP
- معرفی Megapad 11 Tecno با بدنه فلزی، تراشه نسل چهارمی Helio G99 و نمایشگر 90 هرتزی
- آشنایی با ویژگیهای نسخه بتای One UI 7 – از قابلیتهای هوش مصنوعی تا نمای جدید برنامه دوربین
- نگاهی به Veo و Imagen 3 – مدلهای هوش مصنوعی مولد گوگل برای تبدیل متن به ویدئو و تصویر
- معرفی Honor X9c Smart – پایینرده 5G آنر با Dimensity 7025-Ultra و دوربین 108 مگاپیکسلی
- Honor 300 Ultra با SD 8 Gen 3، باتری سیلیکون|کربن 5,300mAh، شارژر بیسیم 80 واتی و حسگر اولتراسونیک