در رویداد I/O 2025، گوگل با رونمایی از نسخه سوم مدل تولید ویدئوی خود تحت عنوان Veo، فصل تازهای را در دنیای هوش مصنوعی رقم زد. آنچه این نسخه را از سایر رقبا متمایز میکند، قابلیت تولید همزمان ویدئو و صداست؛ ویژگیای که تاکنون در هیچیک از مدلهای مشابه از شرکتهایی نظیر OpenAI، Meta، Stability AI یا Runway دیده نشده بود.
Veo 3 توانایی خلق صدای محیطی همچون صدای خیابان، آواز پرندگان و حتی مکالمه بین شخصیتها را دارد. بسیاری این دستاورد را نقطه عطفی در تاریخ تولید محتوای ویدئویی و آغاز عصری جدید برای فناوریهای هوش مصنوعی میدانند؛ بهطوریکه آن را «لحظه AGI برای ویدئو» نامیدهاند.
موج تحسین کاربران در شبکههای اجتماعی
با معرفی Veo 3، شبکههای اجتماعی به سرعت پر از ویدئوهایی شد که با استفاده از این فناوری ساخته شدهاند. کاربران از هماهنگی چشمگیر تصویر و صدا، بازسازی دقیق فیزیک اجسام و حتی تطابق حرکت لب با کلمات، ابراز شگفتی کردهاند.
یکی از کاربران در پلتفرم X، ویدئویی منتشر کرد که فیثاغورس را در حال تدریس قضیه معروفش در یونان باستان به تصویر میکشید. در کلیپی دیگر، مردی در حال اجرای استندآپ کمدی دیده میشود که حتی موفق به جلب خنده مخاطبان شده است.
در حال حاضر، Veo 3 برای کاربران Ultra در آمریکا از طریق اپلیکیشن Gemini و Flow، و همچنین برای کاربران سازمانی از طریق Vertex AI قابل استفاده است.
ابزار Flow؛ تحولی در فرآیند فیلمسازی
همزمان با معرفی Veo 3، گوگل از ابزار جدیدی به نام Flow برای فیلمسازان نیز پردهبرداری کرد. این ابزار به کاربر اجازه میدهد صحنههایی سینمایی را با زبان ساده خلق کند، داراییها را در نماهای مختلف ترکیب کرده و کنترل کاملی بر اجزای خلاقانه پروژه داشته باشد.
به گفته گوگل، طراحی Flow الهامگرفته از لحظاتی است که خلاقیت در اوج است و زمان گویا متوقف میشود. این ابزار امکاناتی نظیر کنترل حرکات دوربین، ساخت و گسترش شاتها، و مدیریت داراییهای بصری را ارائه میدهد. بخشی تحت عنوان Flow TV نیز شامل نمونهویدئوهایی است که با Veo ساخته شدهاند و دقیقاً روند تولید و دستورات آنها را به نمایش میگذارد.
آیندهای جدید برای صنعت سینما
کارشناسان حوزه فناوری بر این باورند که Veo 3 میتواند صنعت فیلمسازی را متحول کند. دریا اونوتماز، استاد آزمایشگاه جکسون، پیشبینی کرده است که فیلمهایی با کیفیت انیمیشنهایی چون Toy Story، که در گذشته چهار سال و میلیونها دلار هزینه میطلبیدند، اکنون تنها در چند روز و با کسری از هزینه قابل تولید خواهند بود.
برخی کاربران نیز معتقدند که در آیندهای نزدیک، هوش مصنوعی نقش محوری در تولید فیلمهای کوتاه و حتی آثار سینمایی پرهزینه خواهد داشت و بهویژه در خلق صحنههای پیچیده و جلوههای ویژه مورد استفاده گسترده قرار خواهد گرفت.
گوگل همچنین خبر از همکاری با پروژهای به نام Primordial Soup داد؛ مجموعهای داستانمحور به کارگردانی دارن آرونوفسکی که در آن سه فیلم کوتاه با استفاده از ابزارهای هوش مصنوعی ساخته میشوند. این آثار توسط فیلمسازان نوظهور کارگردانی خواهند شد و آرونوفسکی بهعنوان مربی در کنار آنها خواهد بود.
Imagen 4؛ گامی بلند در خلق تصاویر با هوش مصنوعی
در کنار Veo 3، گوگل مدل تولید تصویر پیشرفته خود به نام Imagen 4 را نیز معرفی کرد. این مدل توانایی تولید تصاویر 2K با جزئیاتی بینظیر از جمله بافت پارچهها، بازتاب قطرات آب، و خز حیوانات را دارد و در سبکهای واقعگرایانه و هنری عملکرد خیرهکنندهای از خود نشان داده است.
Imagen 4 همچنین در ایجاد متنهای تصویری بهبود یافته و در طراحیهایی نظیر کارتهای تبریک، پوسترهای تبلیغاتی و کمیکهای سفارشی قابل استفاده است. این مدل در ابزارهایی مانند Gemini، Whisk، Vertex AI و مجموعه Google Workspace (شامل Slides، Vids و Docs) قابل دسترسی است و بهطور مستقیم با مدل تولید تصویر OpenAI رقابت میکند.
نتیجهگیری: پیشتازی گوگل در رقابت هوش مصنوعی
با عرضه Veo 3 و Imagen 4، گوگل نشان داد که نهتنها از رقبا عقب نمانده، بلکه مسیر آینده هوش مصنوعی را ترسیم کرده است. Veo 3، با قابلیت تولید همزمان ویدئو و صدا، تجربهای بیسابقه در خلق محتوای ویدئویی ارائه میدهد و Flow با فراهمسازی ابزارهای حرفهای، فرآیند فیلمسازی را دگرگون میسازد.
از سوی دیگر، Imagen 4 با کیفیت بالا و دقت مثالزدنی، طراحان و هنرمندان را به سطحی تازه از خلاقیت میرساند. این نوآوریها نشان میدهند که آینده تولید محتوا نهتنها هوشمندانهتر، بلکه بسیار سریعتر و خلاقانهتر خواهد بود.