怎样的数据才算“高质量”?南京玄武:全国首笔具身智能数据集交易的背后
来源: 紫牛新闻
2026-01-03 21:38:00
弯肘、抬臂、向前抓取……在江苏箸境智能科技有限公司(以下简称“箸境智能”)的采集室内,工作人员屏幕前的每一个基础动作,都同步映射为机器人的精准动作,进而转化为一条条包含视频、关节角度与力矩等信息的结构化数据。
前不久,这些数据汇聚而成的“具身智能数据集”在江苏省数据交易所完成交易,实现全国该领域数交所交易的“零突破”。上架即售出的现象背后,折射出人工智能产业正在从“模型驱动”向“数据驱动”深度转型。在算法逐渐开源、算力持续扩容的当下,高质量数据集已成为决定AI技术落地效能的关键稀缺资源,并迅速跃升为产业竞争中的“香饽饽”。当AI向真实世界深处演进,怎样的数据才算“高质量”?谁会为其买单?
![]()
一个动作重复数万次:机器如何成“人”
落成4个多月,位于南京市玄武区的箸境智能一直很忙。当记者走进企业采集室,一台机器人正通过水瓶、抹布等物品,练习着抓、取、放等家政行业通用技能。
记者从操作员手里接过“控制”机器人的穿戴设备,尝试着让它拿起毛巾,再叠放整齐……体验过后才发现,“叠起来真的很费劲”,毛巾不时从机器人的指缝中掉落,“灵巧手”并没有那么灵巧。遥操员王煊解释,这与教幼儿园小朋友学写字,要靠老师手把手教类似,机器人也需要人的贴身指导,进行数据学习。“它对数据的需求至少是十万甚至是百万级的,而且越多越好”。
由箸境智能上架江苏省数据交易所的“具身智能数据集”产品,大约包含2.5万条结构化数据,涉及办公、商超、餐饮、家政四大场景。在企业的数据管理后台,系统清晰地展示出这些按条计算的数据集产品。单条数据时长约10秒,容量从几十兆到上百兆不等。每条数据的构成一目了然,既包含机器人“眼中”实时捕捉的画面视频,也完整记录着执行过程中每一个关节的实时状态参数,如电流、角度、力矩等,同时还有每一步对应的具体任务指令。
“我们产品之所以能够得到市场认可,关键在于其为买方提供了超越时间效率的深层价值。”王煊说,企业通过直接采购,获得的是一套经过深度清洗、严密标注且可直接投入模型训练的“高浓度养分”。这不仅省去了从零搭建采集环境、反复调试数据质量的漫长周期,更显著降低了自行探索中的试错成本与不确定性,从而能够以更高起点、更快速度推进AI模型在复杂真实环境中的认知与执行能力迭代。
“高质量数据产品正成为市场竞逐的焦点,这类数据集具备鲜明的‘三高’特征,即高价值应用、高知识密度与高技术含量。”江苏省数据交易所相关负责人介绍,在“人工智能+”行动深入推进的背景下,此类数据集不仅是模型迭代的核心燃料,更是AI技术与实体经济深度融合不可或缺的基础性支撑,在市场中日益受到高度关注与迫切需求。
![]()
平台带动,激活数据要素的生态探索
江苏作为数据要素资源大省,想要抢抓人工智能发展机遇,高质量数据集建设势在必行、必须先行。
记者了解到,截至2025年10月底,江苏省在医疗、交通、工业、能源、文旅等重点领域形成高质量数据集321个,数据总规模超93PB。通俗理解,这一体量相当于9300万部2小时时长的电影。
目前,江苏省正从供给侧与需求侧协同发力,系统推动高质量数据集的价值实现与产业转化。作为中国软件名城的南京市,正抢抓机遇,积极推动“数据要素×”与“人工智能+”行动的深度融合与落地实践。以箸境智能所在的玄武区为例,当地着力构建数据要素产业生态,通过落地运营江苏国际数据港、江苏省数据交易所、玄武大模型工厂等关键基础设施,持续开展数据要素市场的启蒙与服务,引导企业深化对数据资产的认识,明确数据价值释放路径,并赋能其生产与供给更具市场竞争力的数据产品,从而有效促进数据要素的安全有序流通与高效配置。
![]()
在数据交易中,合规是生命线。“数据港和数交所提供的合规指引与配套服务,为我们扫清了关键障碍,显著提升了交易效率。”箸境智能相关负责人史梦娇表示。这一企业感受的背后,是玄武区正着力打造的系统性产业支撑。目前,中国高质量数据集产业基地(南京) 已在玄武区落地,通过“技术研发—基建支撑—资源整合—产业孵化”的协同模式,将打通数据价值转化全链条,吸引产业链上下游企业共同参与。
产业生态的集聚效应正在加速显现。去年7月在数据港注册成立的江苏传古,已成功在江苏省数据交易所上架一款儿童肠道菌群数据集并实现交易。“这些数据将用来改良益生菌饮料。这些数据的跨界价值,恐怕连医院自己都未曾预料。”企业负责人赵博感慨,这正揭示了AI发展的一个核心逻辑,未来竞争力源于数据与产业场景的深度融合与价值再造。
![]()
“建标立制”正在明确未来路径
面向未来,高质量数据集应“如何建”?标准化被普遍视为关键路径与基础支撑。
2025年11月,全国数据标准化技术委员会2025年第二次“标准周”活动在南京举行。活动中,国家数据局政策和规划司负责人栾婕表示,标准化的核心价值在于解决数据应用中的实际痛点,让高质量数据集真正发挥作用。如果脱离标准化,数据即使规模庞大,也难以转化为有效价值,甚至会因混乱无序成为“负担”。因此,标准化的必要性本质上源于数据价值释放的实际需求,是衔接数据资源与实际应用的关键桥梁。
中国电子技术标准化研究院副院长范科峰表示,为加快推进行业高质量数据集建设,在国家数据局指导下,全国数标委积极推动高质量数据集建设指南、格式要求、分类指南、质量评测规范等标准研制工作,不久前正式发布了4项高质量数据集系列技术文件。通过“标准化”方式解决高质量数据集建设目前所面临的突出问题。
顶层设计也已明确。据国家数据发展研究院院长胡坚波介绍,我国正按照“1+3+5+N”的思路,依托1个高质量数据集管理服务平台,从3个层次推进高质量数据集基础设施化,通过5类建设主体,以N个典型应用场景为牵引,聚焦重点行业领域和创新领域,建设高质量数据集,服务人工智能模型开发和应用。
聚焦企业痛点,江苏省的行动方案更为具体:计划从供需两侧同步发力,通过编制重点领域建设指南与数据标注产业图谱、加快数联网与可信数据空间试点、搭建公共服务平台等措施,夯实数据从建设到应用的根基;同时强化中小企业培育并组织精准供需对接,以加速数据集的构建与产业转化。
![]()
作为上述蓝图的一项前沿实践,一场由南京市数据局、玄武区政府主办的“数智未来”高质量数据集开发者创新大赛即将开放报名。“大赛将聚焦经济社会发展关键领域,设立医疗健康、能源管输、卫星遥感、工程机械、钢铁行业五大专业赛道。”主办方相关负责人介绍,聚焦多领域行业痛点,设置特色赛道,其核心目标就是要以赛促建、以赛促用、以赛促生态,推动高质量数据集从“零散建设”向“体系化供给”转变,为数据产业高质量发展注入新动能。
通讯员 玄萱 扬子晚报/紫牛新闻记者 闫春旭