扬子晚报网
首页 > 新闻中心 > 扬眼视频

谷歌发布Veo 3模型 AI生成视频告别默片时代

来源: 紫牛新闻

2025-05-22 14:54:00

北京时间5月21日,在美国加州举行的Google I/O开发者大会上,谷歌正式揭晓了其新一代AI视频生成模型Veo 3,标志着AI视频创作领域迈入了“有声时代”。

图片来自Google I/O 2025

作为谷歌当前最顶尖的视频生成模型,Veo 3在之前模型的基础上实现了质的飞跃,其核心亮点包括:

音频-视频一体化生成: Veo 3首次支持原生音频生成,能够同步产出与视频内容高度匹配的环境音效(如城市街道的交通噪音、公园中的鸟鸣)、角色间的对话乃至复杂的声景设计。这意味着AI生成的视频将拥有前所未有的真实感和沉浸感。

叙事级理解与呈现能力: 依托强大的Gemini大模型的语义解析能力,Veo 3能够深刻理解用户的自然语言描述。用户仅需输入简短的故事场景(例如“夕阳下的咖啡馆,顾客们正在轻声交谈”),模型便能生成连贯的动态视频片段。更令人印象深刻的是,Veo 3能够实现精准的唇形同步、逼真的物理效果(如物体运动轨迹)以及细腻的光影变化,赋予视频更强的叙事表现力。

多场景与多模态适配: Veo 3不仅支持从文本提示生成视频,还可以根据用户提供的图像作为参考进行视频创作,提供了灵活多样的创作路径。

官方公布的“年迈水手”演示案例

记者注意到,在谷歌官方发布的演示案例中,当接收到如下提示词时:

Prompt: "A medium shot frames an old sailor, his knitted blue sailor hat casting a shadow over his eyes, a thick grey beard obscuring his chin. He holds his pipe in one hand, gesturing with it towards the churning, grey sea beyond the ship's railing. 'This ocean, it's a force, a wild, untamed might. And she commands your awe, with every breaking light.'"

(中文大意:“一个中景镜头,一位年迈的水手,他蓝色的针织水手帽在眼上投下阴影,浓密的灰白胡须遮住了下巴。他一只手拿着烟斗,用它指着船栏外翻腾的灰色大海,说道:‘这片海洋,它是一种力量,一种狂野不羁的威力。每一次破晓之光,都令你心生敬畏。’”)

Veo 3能够精准生成符合描述的视觉画面——年迈水手的形象、神态、特定服饰以及背景中波涛汹涌的大海。更为关键的是,模型不仅生成了相应的场景,还赋予了水手鲜活的生命力:他会根据引用的对话内容,以自然的口型说出台词,同时伴有相应的表情和手势。视频中还会包含与场景匹配的环境音效,如海浪声,进一步增强了场景的真实感和代入感。

官方公布的部分演示案例

官方发布的演示案例还包括 "侦探审问紧张的橡皮鸭"(趣味拟人对话)、"露营定格动画中露营者与熊的互怼"(风格化场景叙事)、"追踪镜头下猫头鹰穿越森林"(复杂镜头语言)等,充分展现了 Veo 3 在”音画深度耦合叙事”方面的突破性能力。

同时,谷歌官方与知名导演达伦・阿伦诺夫斯基(Darren Aronofsky)的制片公司Primordial Soup的合作,在大会上揭晓——双方联合发布了融合AI生成技术的电影《ANCESTRA》首支预告片。Darren Aronofsky在接受采访时表示,电影一直是一种将人与人之间故事联系起来的深层次的人类行为。它能够让我们摆脱现有的经验,踏上另一段旅程。Darren Aronofsky同时提到,“了解这些AI模型的优势和局限性,并尝试将他们塑造成讲故事的工具,这非常有趣。”

目前,Veo 3模型已开始逐步向用户开放,美国地区的Google AI Ultra订阅用户已可通过Flow工具和Gemini应用程序体验该模型,不久之后将推广至其他国家。

扬子晚报