理想汽车发布下一代自动驾驶基础模型MindVLA-o1，向具身智能通用模型进化

来源：紫牛新闻

2026-03-18 19:34:00

3月17日，理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026，发表主题演讲《MindVLA-o1：开启全能范式——下一代统一视觉-语言-动作自动驾驶大模型探索》，正式发布下一代自动驾驶基础模型MindVLA-o1。该模型通过五大技术创新，构建了面向物理世界智能的自动驾驶基础模型，让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。

詹锟表示：“当视觉、语言和行动统一到一个模型中时，它不再只是自动驾驶模型，而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型，不仅可以控制车辆，也能够扩展到机器人。自动驾驶只是物理AI的起点，未来这类基础模型将驱动新的具身智能范式。”

从规则时代到AI时代理想辅助驾驶持续演进

自2021年启动辅助驾驶自研以来，理想汽车技术架构持续迭代。2024年是重要分水岭，端到端+VLM双系统量产交付，使辅助驾驶具备跨场景统一理解能力。2025年，理想进一步将空间理解、语言理解与行动决策统一到同一框架，构建了基于VLA、世界模型与强化学习的VLA司机大模型，并于8月随理想i8交付推送，9月向AD Max用户全量推送。

截至2025年底，VLA司机大模型月使用率达到80%，VLA指令累计使用1225.4万次；春节期间理想辅助驾驶总里程达2.5亿公里，VLA指令使用次数达130.3万次。规模化验证为下一代技术演进提供了坚实基础。

MindVLA-o1五大技术创新

理想汽车提出下一代统一架构MindVLA-o1，以原生多模态MoE Transformer为核心，通过五大技术创新构建面向物理世界智能的自动驾驶基础模型。

看得更远：3D空间理解。采用以视觉为核心的3D ViT Encoder，利用激光雷达点云作为几何提示，引导模型理解真实空间结构。引入前馈式3DGS表示，将场景拆分为静态环境与动态物体分别建模，通过下一帧预测作为自监督信号，使模型学习深度信息、语义结构与物体运动，形成融合空间与时间的3D表示。

想得更深：多模态思考。在语言模型承担语义理解基础上，引入预测式隐世界模型，在隐空间中模拟未来。训练分三阶段：用海量视频预训练Latent World Token构建未来表征；在MindVLA-o1中持续世界模型推演；将世界模型、多模态推理及驾驶行为联合对齐。模型不仅能理解场景，还能在隐空间中“想象”未来，将决策具象化。

行得更稳：统一行为生成。使用VLA-MoE架构，引入Action Expert从3D场景、导航目标等多维输入中提取信息，生成高精度轨迹。采用并行解码同时生成所有轨迹点，提升效率；引入Discrete Diffusion进行多轮迭代优化，确保轨迹连续稳定并符合车辆动力学约束。

进化更快：闭环强化学习。构建闭环强化学习框架，让模型在世界模拟器中持续探索优化。将逐步优化式重建升级为前馈场景重建，瞬时生成大规模、高保真驾驶场景，支持大规模并行训练。开发统一的3D Gaussian Splatting渲染引擎和分布式训练框架，渲染速度提升近2倍，训练成本降低约75%，实现低成本强化学习闭环。

部署更高效：软硬件协同设计。提出面向端侧大模型的软硬件协同设计定律，建立模型性能与硬件约束的统一分析框架。评估近2000种模型架构配置，在英伟达Orin与Thor平台上找到精度与延迟之间的帕累托前沿，将架构探索时间从数月缩短至数天，大幅提升端侧VLA模型部署效率。

自动驾驶只是起点，为具身智能构建“数字大脑”

MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分。该框架由四大模块组成：MindData统一VLA数据引擎，MindVLA-o1原生多模态VLA模型，MindSim可控多模态世界模型，RL Infra强化学习基础设施。四部分协同形成完整闭环，使AI能够感知、理解并在物理世界中自主行动并持续学习。从结构上看，这套系统如同一个“数字大脑”，实现了感知、理解、行动和持续优化的完整闭环。

该框架不仅服务于汽车，也可扩展至机器人及各种物理系统。对理想汽车而言，车是最大号的机器人，其本质是在构建硅基生命体的躯干与大脑。

理想汽车在持续推进技术创新的同时，在人工智能领域顶级学术会议发表大量研究成果，其中MindVLA-o1相关多篇论文已在CVPR、ICLR、ICRA、AAAI等国际顶会发表。未来，理想汽车将继续以用户价值为导向，投入前沿研究及核心技术自研，持续构建面向物理世界智能的完整AI系统，坚定迈向全球领先的具身智能企业。