Veo 3：一次与 ChatGPT 问世相媲美的革命，这一次发生在视频领域。

在 I/O 2025 活动中，Google 推出了其第三代视频生成模型 Veo，为人工智能世界揭开了新的篇章。该版本的最大亮点在于其能够同时生成视频和音频——这一功能在 OpenAI、Meta、Stability AI 或 Runway 等公司的同类模型中尚属首次。

Veo 3 能够生成诸如街道噪音、鸟鸣声，甚至角色之间的对话等环境音效。许多人认为这一成就是视频内容创作历史上的一个转折点，也是人工智能技术新时代的开端——甚至有人称之为“视频领域的 AGI 时刻”。

社交媒体用户的赞誉浪潮

随着 Veo 3 的推出，社交媒体迅速充满了利用这项技术制作的视频。用户们对图像与声音的惊人同步、物体物理效果的精准还原，甚至嘴唇动作与语言的完美匹配表达了惊叹。

一位用户在 X 平台发布了一段视频，展示了毕达哥拉斯在古希腊讲授他著名定理的场景。在另一段视频中，一名男子正在进行单口喜剧表演，并成功逗笑了观众。

目前，Veo 3 可通过 Gemini 和 Flow 应用向美国的 Ultra 用户提供，同时也通过 Vertex AI 向企业用户开放。

随着 Veo 3 的推出，Google 还发布了名为 Flow 的新工具，面向电影制作人。该工具允许用户用简单的语言创建电影场景，在不同镜头中组合素材，并完全掌控项目的创意元素。

据 Google 介绍，Flow 的设计灵感来自于创意达到巅峰、时间仿佛静止的瞬间。该工具提供了控制摄像机运动、创建和扩展镜头以及管理视觉资产等功能。名为 Flow TV 的部分还包含用 Veo 制作的示范视频，精准展示了它们的制作流程和指令。

技术专家认为 Veo 3 有能力彻底改变电影制作行业。Jackson 实验室的教授达丽娅·奥诺特马兹预测，像《玩具总动员》这样的高质量动画电影，以前需要四年时间和数百万美元的成本，如今只需几天时间和极少的费用即可制作完成。

一些用户也认为，在不久的将来，人工智能将在短片乃至高预算电影制作中发挥核心作用，特别是在复杂场景和特效的创作中得到广泛应用。

Google 还宣布与名为 Primordial Soup ；这是达伦·阿伦诺夫斯基导演的故事系列，其中使用人工智能工具制作三部短片。这些作品将由新兴电影制作人执导，阿伦诺夫斯基将作为导师与他们一同参与。

除了 Veo 3，Google 还发布了其先进的图像生成模型 Imagen 4。该模型能够生成 2K 分辨率的图像，细节丰富，包括织物纹理、水滴反光和动物毛发，在写实与艺术风格中都表现出惊人的效果。

Imagen 4 在图像文字生成方面也有显著提升，可用于设计贺卡、宣传海报和定制漫画等内容。该模型可通过 Gemini、Whisk、Vertex AI 和 Google Workspace 套件（包括 Slides、Vids 和 Docs）访问，并直接与 OpenAI 的图像生成模型展开竞争。

通过发布 Veo 3 和 Imagen 4，Google 展示了它不仅没有落后于竞争对手，更是在塑造人工智能的未来。Veo 3 具备同步生成视频和音频的能力，为视频内容创作带来了前所未有的体验，而 Flow 则通过提供专业工具，彻底改变了电影制作流程。

另一方面，Imagen 4 凭借其高质量和出色的精确度，将设计师和艺术家带入了一个全新的创意层次。这些创新表明，内容创作的未来不仅将更加智能，还将变得更快速、更具创造力。