谷歌发布Veo 3模型 AI生成视频告别默片时代

来源：紫牛新闻

2025-05-22 14:54:00

北京时间5月21日，在美国加州举行的Google I/O开发者大会上，谷歌正式揭晓了其新一代AI视频生成模型Veo 3，标志着AI视频创作领域迈入了“有声时代”。

图片来自Google I/O 2025

作为谷歌当前最顶尖的视频生成模型，Veo 3在之前模型的基础上实现了质的飞跃，其核心亮点包括：

音频-视频一体化生成： Veo 3首次支持原生音频生成，能够同步产出与视频内容高度匹配的环境音效（如城市街道的交通噪音、公园中的鸟鸣）、角色间的对话乃至复杂的声景设计。这意味着AI生成的视频将拥有前所未有的真实感和沉浸感。

叙事级理解与呈现能力：依托强大的Gemini大模型的语义解析能力，Veo 3能够深刻理解用户的自然语言描述。用户仅需输入简短的故事场景（例如“夕阳下的咖啡馆，顾客们正在轻声交谈”），模型便能生成连贯的动态视频片段。更令人印象深刻的是，Veo 3能够实现精准的唇形同步、逼真的物理效果（如物体运动轨迹）以及细腻的光影变化，赋予视频更强的叙事表现力。

多场景与多模态适配： Veo 3不仅支持从文本提示生成视频，还可以根据用户提供的图像作为参考进行视频创作，提供了灵活多样的创作路径。

官方公布的“年迈水手”演示案例

记者注意到，在谷歌官方发布的演示案例中，当接收到如下提示词时：

Prompt: "A medium shot frames an old sailor, his knitted blue sailor hat casting a shadow over his eyes, a thick grey beard obscuring his chin. He holds his pipe in one hand, gesturing with it towards the churning, grey sea beyond the ship's railing. 'This ocean, it's a force, a wild, untamed might. And she commands your awe, with every breaking light.'"

(中文大意：“一个中景镜头，一位年迈的水手，他蓝色的针织水手帽在眼上投下阴影，浓密的灰白胡须遮住了下巴。他一只手拿着烟斗，用它指着船栏外翻腾的灰色大海，说道：‘这片海洋，它是一种力量，一种狂野不羁的威力。每一次破晓之光，都令你心生敬畏。’”)

Veo 3能够精准生成符合描述的视觉画面——年迈水手的形象、神态、特定服饰以及背景中波涛汹涌的大海。更为关键的是，模型不仅生成了相应的场景，还赋予了水手鲜活的生命力：他会根据引用的对话内容，以自然的口型说出台词，同时伴有相应的表情和手势。视频中还会包含与场景匹配的环境音效，如海浪声，进一步增强了场景的真实感和代入感。

官方公布的部分演示案例

官方发布的演示案例还包括 "侦探审问紧张的橡皮鸭"（趣味拟人对话）、"露营定格动画中露营者与熊的互怼"（风格化场景叙事）、"追踪镜头下猫头鹰穿越森林"（复杂镜头语言）等，充分展现了 Veo 3 在”音画深度耦合叙事”方面的突破性能力。

同时，谷歌官方与知名导演达伦・阿伦诺夫斯基（Darren Aronofsky）的制片公司Primordial Soup的合作，在大会上揭晓——双方联合发布了融合AI生成技术的电影《ANCESTRA》首支预告片。Darren Aronofsky在接受采访时表示，电影一直是一种将人与人之间故事联系起来的深层次的人类行为。它能够让我们摆脱现有的经验，踏上另一段旅程。Darren Aronofsky同时提到，“了解这些AI模型的优势和局限性，并尝试将他们塑造成讲故事的工具，这非常有趣。”

目前，Veo 3模型已开始逐步向用户开放，美国地区的Google AI Ultra订阅用户已可通过Flow工具和Gemini应用程序体验该模型,不久之后将推广至其他国家。