具身智能数据采集:路线、方法与规模化思考

2026 年 3 月 · 具身智能 · 数据采集 · VLA · Scaling Law · 返回首页

一、为什么数据采集是具身智能的核心瓶颈?

当前具身智能的模型架构已趋于收敛——无论是 Google、Physical Intelligence (PI),还是国内一众创业公司,大多采用 VLA(Vision-Language-Action) 范式,强调视觉感知、语言推理与高频执行器控制的融合。模型结构上的差异越来越小,真正的竞争壁垒正在转向数据

类比自动驾驶的发展路径:人形机器人像 Robotaxi,是"圣杯问题";轮式底盘双臂物流像 Robotruck,商业效率高但上限有限;固定双臂像港口/园区场景,出效果快但天花板低。参考自动驾驶经验,最快能闭环的是"智能辅助"形态——关键在于数据能否规模化支撑模型迭代。

现在的阶段就好像还是用数据采集车,但是真正的下半场在于规模化的自动、高效数据闭环,才能驱动行业阶跃发展。

具身智能的 Scaling Law 三要素:

🔹 数据缩放:RT-X 证明 10 万+ 轨迹可使跨任务成功率提升 30%+

🔹 模型缩放:RT-2-X 表明 55B > 5B 参数量显著增强跨本体迁移与技能涌现

🔹 本体缩放:Open X-Embodiment 用 22 种机器人验证了跨本体泛化的显著提升

二、训练阶段与数据需求

借鉴大语言模型的训练范式,具身智能的模型训练同样分为三个阶段,每个阶段对数据的需求有本质区别:

阶段核心目标数据特征典型方法
预训练 通用能力底座(认知/推理) 海量、低成本、多模态 互联网视频、Next-frame Prediction、World Model
中训练 通用→专用的迁移桥梁 异构数据对齐、上规模 SFT、跨本体数据对齐
后训练 任务对齐、安全可靠 同构、高质量、闭环 同构 Finetune、RL、数据闭环

关键洞察:预训练需要认知与推理能力,后训练需要精细的动作-场景对齐。不同采集方式本质上服务于不同的训练阶段。

三、数据采集路线全景

当前具身智能数据采集可分为四条主要路线,每条路线都有代表性团队在推进:

路线代表团队核心优势主要挑战
遥操真机 智元(AgiBot World 百万级数据集) 数据直接可用,动作高保真 成本高、规模受限
仿真合成 银河通用(GraspVLA,十亿级仿真数据) 规模大、成本可控 Sim2Real Gap
人类视频 它石智航(WIYH 数据集 10 万+视频) 数据源开放、场景丰富 缺力觉/触觉,迁移鸿沟大
UMI 路线 鹿明机器人(FastUMI Pro) 低成本、通用性强 仅限简单操作

四、主流采集方法详解

4.1 遥操作:主从机械臂(ALOHA)

斯坦福 ALOHA 项目通过关节复制(Joint-copy)开创了低成本双臂遥操作范式。操作员通过额外机械臂控制目标机器人,实现高精度动作映射。

核心痛点:操作员"感受不到机器人的感受"——操作不直观,难以采集 in-hand manipulation 等精细操作数据。

4.2 VR 遥操作

通过 VR 头显进入机器人第一视角,操作逻辑简单、上手门槛低。Tesla Optimus 目前就采用 VR 遥操 + 动捕手套方案。

局限性在于:VR 依赖视觉追踪,手指遮挡时精度大幅下降;末端位姿需经逆运动学(IK)解算,可能出现"不跟手"问题。更关键的是——操作者看到的是相机画面而非自己的皮肤,缺少连续接触力与微小滑动信息,误差层层叠加后会破坏精细操作的连续性。

4.3 动捕手套 + 第一视角视频

DexCapDexWild 为代表,优先保住穿戴自由度与采集便携性。DexCap 核心是动捕手套,配合手背 RealSense T265 做手腕六自由度跟踪,整条链路为:

人手动作 → 动捕手套 → Retargeting → 机器人动作空间 → 策略学习 → 在线纠偏

手套类型包括惯性(IMU)、光学(反光标记 + 红外相机)和光纤(布拉格光栅)三大类,各有适用场景。

4.4 外骨骼采集

外骨骼在动捕基础上进一步做加法,通过机械连杆耦合实现更高保真的动作映射。

代表方案包括灵巧手外骨骼(DexUMI、DexOP)和上下肢全身外骨骼(AirExo,卢策吾团队)。其中 DexUMI 存在视觉 Gap(相机看到数据手套而非机械手),DexOP 视觉 Gap 小但状态 Gap 较大。

4.5 UMI:极简主义路线

与外骨骼的"做加法"相反,UMI 是典型的"做减法"思路——手持夹爪 + GoPro 手腕相机,基于末端位姿控制 + 逆运动学,操作者只需给出末端轨迹。

4.6 第一视角人类视频(Ego-centric)

采集者佩戴智能眼镜或头戴设备拍摄日常操作,无机器人参与,成本极低且易于大规模众包。

代表工作 EgoScale 已建成超 1300 小时有效数据,覆盖 240 个真实场景,验证出近乎完美的对数线性缩放规律(R²=0.998),使灵巧手性能较基线提升 54%。

但本质瓶颈在于人到机器人的迁移鸿沟:人体与机器人本体结构差异、缺失力/触觉反馈、动作执行性无法保证。人类视频并非机器人学习的起点,仅能在真实交互数据已足够丰富时作为增效叠加项。

4.7 仿真数据(Sim2Real)

银河通用基于十亿量级仿真数据发布了 GraspVLA,以及灵巧手多样抓取仿真数据集 DexonomySim,覆盖 GRASP taxonomy 中 31 种抓取类型,包含 9.5M 条有效抓取轨迹、10.7k 个物体。

仿真数据的核心优势是规模与效率,但 Sim2Real Gap 仍是主要挑战。

五、数据金字塔与规模化思考

具身智能的数据体系呈金字塔结构:

规模化的核心矛盾:200-500 万 clips 的数据量增长靠人力堆砌,这一点都不 scale。如果基础模型具备认知和推理能力,是否能实现 scale up 和 zero-shot?当模型从 2B 扩展到 7B、14B,需要 10 倍甚至 1000 倍的数据——还能靠标签体系吗?

京东宣布发动数十万人参与数据采集(包括超 10 万内部员工和最多 50 万外部人员),目标一年内积累 500 万小时人类真实场景视频数据,成为"人类历史上规模最大的数据采集行动"。这代表了当前行业对数据规模的极致追求。

六、多阶段训练范式

综合各路线的数据特性,业界逐渐收敛到多阶段训练范式

  1. Pre-train:从海量人类视频学习"世界常识+人类怎么做",构建通用视觉动作基础模型。代表如字节 GR-2(3800 万互联网视频预训练)。
  2. Middle-train:在仿真/少量真机中对齐"机器人能怎么做",蒸馏人类常识到机器人空间。
  3. Post-train:在真实机器人上精调,加入力觉、触觉、摩擦、惯性等真实物理交互数据,让动作稳定、安全、可复现。

七、总结与展望

具身智能数据采集正处于"百家争鸣"阶段,各种路线并行发展,尚未收敛到统一范式。核心观点如下:

未来的方向是:认知推理能力 + 物理交互数据 + 跨本体泛化,三者协同才能实现具身智能的 Scaling Law。

返回首页