在 I/O 2025 活动中,Google 推出了其第三代视频生成模型 Veo,为人工智能世界揭开了新的篇章。该版本的最大亮点在于其能够同时生成视频和音频——这一功能在 OpenAI、Meta、Stability AI 或 Runway 等公司的同类模型中尚属首次。
Veo 3 能够生成诸如街道噪音、鸟鸣声,甚至角色之间的对话等环境音效。许多人认为这一成就是视频内容创作历史上的一个转折点,也是人工智能技术新时代的开端——甚至有人称之为“视频领域的 AGI 时刻”。
社交媒体用户的赞誉浪潮
随着 Veo 3 的推出,社交媒体迅速充满了利用这项技术制作的视频。用户们对图像与声音的惊人同步、物体物理效果的精准还原,甚至嘴唇动作与语言的完美匹配表达了惊叹。
一位用户在 X 平台发布了一段视频,展示了毕达哥拉斯在古希腊讲授他著名定理的场景。在另一段视频中,一名男子正在进行单口喜剧表演,并成功逗笑了观众。
目前,Veo 3 可通过 Gemini 和 Flow 应用向美国的 Ultra 用户提供,同时也通过 Vertex AI 向企业用户开放。
Flow 工具:电影制作过程的变革
随着 Veo 3 的推出,Google 还发布了名为 Flow 的新工具,面向电影制作人。该工具允许用户用简单的语言创建电影场景,在不同镜头中组合素材,并完全掌控项目的创意元素。
据 Google 介绍,Flow 的设计灵感来自于创意达到巅峰、时间仿佛静止的瞬间。该工具提供了控制摄像机运动、创建和扩展镜头以及管理视觉资产等功能。名为 Flow TV 的部分还包含用 Veo 制作的示范视频,精准展示了它们的制作流程和指令。
电影产业的新未来
技术专家认为 Veo 3 有能力彻底改变电影制作行业。Jackson 实验室的教授达丽娅·奥诺特马兹预测,像《玩具总动员》这样的高质量动画电影,以前需要四年时间和数百万美元的成本,如今只需几天时间和极少的费用即可制作完成。
一些用户也认为,在不久的将来,人工智能将在短片乃至高预算电影制作中发挥核心作用,特别是在复杂场景和特效的创作中得到广泛应用。
Google 还宣布与名为 Primordial Soup ;这是达伦·阿伦诺夫斯基导演的故事系列,其中使用人工智能工具制作三部短片。这些作品将由新兴电影制作人执导,阿伦诺夫斯基将作为导师与他们一同参与。
Imagen 4:人工智能图像生成的一大飞跃
除了 Veo 3,Google 还发布了其先进的图像生成模型 Imagen 4。该模型能够生成 2K 分辨率的图像,细节丰富,包括织物纹理、水滴反光和动物毛发,在写实与艺术风格中都表现出惊人的效果。
Imagen 4 在图像文字生成方面也有显著提升,可用于设计贺卡、宣传海报和定制漫画等内容。该模型可通过 Gemini、Whisk、Vertex AI 和 Google Workspace 套件(包括 Slides、Vids 和 Docs)访问,并直接与 OpenAI 的图像生成模型展开竞争。
结论:Google 在人工智能竞赛中的领先地位
通过发布 Veo 3 和 Imagen 4,Google 展示了它不仅没有落后于竞争对手,更是在塑造人工智能的未来。Veo 3 具备同步生成视频和音频的能力,为视频内容创作带来了前所未有的体验,而 Flow 则通过提供专业工具,彻底改变了电影制作流程。
另一方面,Imagen 4 凭借其高质量和出色的精确度,将设计师和艺术家带入了一个全新的创意层次。这些创新表明,内容创作的未来不仅将更加智能,还将变得更快速、更具创造力。