首页 > 新闻中心 > 财汇

智元 × 清华 × 麦吉尔首创 MANSION 框架,打造下一代具身智能 “试验场”

来源: 紫牛新闻

2026-03-19 10:57:00

当机器人在医院跨楼层运送物资、在写字楼完成多楼层配送、在家庭执行跨空间家务,这些长时程、跨楼层任务,正是具身智能走向现实的核心考验。当前行业研究场景仍停留在 “单层样板间”,与真实世界需求存在显著断层。

近日,由智元牵头,联合清华大学、麦吉尔大学完成的研究成果 MANSION 成功入选 CVPR 2026。该成果提出面向整栋建筑的语言驱动多楼层 3D 场景生成框架,构建大规模场景生态系统,为具身智能落地复杂现实环境打造关键 “数字试验场”,彰显中国机器人技术前沿实力。

大模型从语言直接生成整栋楼

近年来,机器人感知、操作、导航能力快速提升,但场景基准严重滞后。真实扫描数据成本高、难编辑;现有合成环境多为单层布局,缺少楼梯、电梯、跨层连接等关键结构,无法支撑跨楼层、长时程复杂任务训练。

场景研究停留在 “样板间时代”,已成为制约具身智能走向现实的核心瓶颈。构建可交互、可配置、贴近真实的楼宇级研究平台,成为行业迫切需求。

为破解行业难题,团队创新推出 MANSION 混合框架,融合多模态大模型与几何求解器,实现从自然语言指令到完整多楼层 3D 建筑的端到端生成。

区别于简单房间拼接,MANSION 从建筑全局逻辑出发:先规划整栋楼功能分区、垂直交通与整体风格,再逐层生成拓扑结构与房间布局,通过几何求解生成符合物理约束的平面图,最终生成可直接在仿真器运行的交互式 3D 场景。框架从源头保证楼梯、电梯、跨层结构对齐合理,生成建筑连贯可用。

基于 MANSION,团队发布 MansionWorld 数据集:包含1000 + 栋多楼层建筑、2-10 层、10000 + 房间,覆盖住宅、办公、医院、学校、商超等全场景,支持导出至 Blender、NVIDIA Isaac Sim 等平台,全面赋能全球研究。

打通跨楼层长时程任务全链路

MANSION 不仅能 “生成楼宇”,更能让机器人 “顺畅跑起来”。团队升级 AI2-THOR 模拟器,集成楼梯、电梯等资产,并推出高级原子技能 API,封装跨场景切换与状态管理能力,实现楼层间无缝跳转、精准落位,可轻松完成跨楼层取物、运送等长链任务。

团队进一步提出任务语义场景编辑智能体,可根据任务指令快速调整场景环境,实现 “一栋楼多用”,大幅提升场景复用率与研究效率。

基准测试显示:当任务扩展至跨楼层、长时程复杂环境后,现有顶尖具身智能体性能显著下降,直接暴露空间推理、长期规划、记忆能力等核心短板。MANSION 的价值,在于为全球研究者提供标准化楼宇级测试平台,让机器人在更真实的复杂环境中探索空间理解、记忆规划、长期任务能力,成为下一代具身智能突破的关键基石。实验证明,MANSION 生成场景在布局合理性、真实性、可用性上表现优异。

CVPR是计算机视觉领域全球顶级会议,MANSION的入选,标志着学术界对这项工作的创新性与价值的高度认可。

晓风


校对 王菲