首页 > 新闻中心 > 汽车

理想汽车发布下一代自动驾驶基础模型MindVLA-o1,向具身智能通用模型进化

来源: 紫牛新闻

2026-03-18 19:34:00

3月17日,理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026,发表主题演讲《MindVLA-o1:开启全能范式——下一代统一视觉-语言-动作自动驾驶大模型探索》,正式发布下一代自动驾驶基础模型MindVLA-o1。该模型通过五大技术创新,构建了面向物理世界智能的自动驾驶基础模型,让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。

詹锟表示:“当视觉、语言和行动统一到一个模型中时,它不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人。自动驾驶只是物理AI的起点,未来这类基础模型将驱动新的具身智能范式。”

从规则时代到AI时代 理想辅助驾驶持续演进

自2021年启动辅助驾驶自研以来,理想汽车技术架构持续迭代。2024年是重要分水岭,端到端+VLM双系统量产交付,使辅助驾驶具备跨场景统一理解能力。2025年,理想进一步将空间理解、语言理解与行动决策统一到同一框架,构建了基于VLA、世界模型与强化学习的VLA司机大模型,并于8月随理想i8交付推送,9月向AD Max用户全量推送。

截至2025年底,VLA司机大模型月使用率达到80%,VLA指令累计使用1225.4万次;春节期间理想辅助驾驶总里程达2.5亿公里,VLA指令使用次数达130.3万次。规模化验证为下一代技术演进提供了坚实基础。

MindVLA-o1五大技术创新

理想汽车提出下一代统一架构MindVLA-o1,以原生多模态MoE Transformer为核心,通过五大技术创新构建面向物理世界智能的自动驾驶基础模型。

看得更远:3D空间理解。 采用以视觉为核心的3D ViT Encoder,利用激光雷达点云作为几何提示,引导模型理解真实空间结构。引入前馈式3DGS表示,将场景拆分为静态环境与动态物体分别建模,通过下一帧预测作为自监督信号,使模型学习深度信息、语义结构与物体运动,形成融合空间与时间的3D表示。

想得更深:多模态思考。 在语言模型承担语义理解基础上,引入预测式隐世界模型,在隐空间中模拟未来。训练分三阶段:用海量视频预训练Latent World Token构建未来表征;在MindVLA-o1中持续世界模型推演;将世界模型、多模态推理及驾驶行为联合对齐。模型不仅能理解场景,还能在隐空间中“想象”未来,将决策具象化。

行得更稳:统一行为生成。 使用VLA-MoE架构,引入Action Expert从3D场景、导航目标等多维输入中提取信息,生成高精度轨迹。采用并行解码同时生成所有轨迹点,提升效率;引入Discrete Diffusion进行多轮迭代优化,确保轨迹连续稳定并符合车辆动力学约束。

进化更快:闭环强化学习。 构建闭环强化学习框架,让模型在世界模拟器中持续探索优化。将逐步优化式重建升级为前馈场景重建,瞬时生成大规模、高保真驾驶场景,支持大规模并行训练。开发统一的3D Gaussian Splatting渲染引擎和分布式训练框架,渲染速度提升近2倍,训练成本降低约75%,实现低成本强化学习闭环。

部署更高效:软硬件协同设计。 提出面向端侧大模型的软硬件协同设计定律,建立模型性能与硬件约束的统一分析框架。评估近2000种模型架构配置,在英伟达Orin与Thor平台上找到精度与延迟之间的帕累托前沿,将架构探索时间从数月缩短至数天,大幅提升端侧VLA模型部署效率。

自动驾驶只是起点,为具身智能构建“数字大脑”

MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分。该框架由四大模块组成:MindData统一VLA数据引擎,MindVLA-o1原生多模态VLA模型,MindSim可控多模态世界模型,RL Infra强化学习基础设施。四部分协同形成完整闭环,使AI能够感知、理解并在物理世界中自主行动并持续学习。从结构上看,这套系统如同一个“数字大脑”,实现了感知、理解、行动和持续优化的完整闭环。

该框架不仅服务于汽车,也可扩展至机器人及各种物理系统。对理想汽车而言,车是最大号的机器人,其本质是在构建硅基生命体的躯干与大脑。

理想汽车在持续推进技术创新的同时,在人工智能领域顶级学术会议发表大量研究成果,其中MindVLA-o1相关多篇论文已在CVPR、ICLR、ICRA、AAAI等国际顶会发表。未来,理想汽车将继续以用户价值为导向,投入前沿研究及核心技术自研,持续构建面向物理世界智能的完整AI系统,坚定迈向全球领先的具身智能企业。