具身智能数据采集:路线、方法与规模化思考
一、为什么数据采集是具身智能的核心瓶颈?
当前具身智能的模型架构已趋于收敛——无论是 Google、Physical Intelligence (PI),还是国内一众创业公司,大多采用 VLA(Vision-Language-Action) 范式,强调视觉感知、语言推理与高频执行器控制的融合。模型结构上的差异越来越小,真正的竞争壁垒正在转向数据。
类比自动驾驶的发展路径:人形机器人像 Robotaxi,是"圣杯问题";轮式底盘双臂物流像 Robotruck,商业效率高但上限有限;固定双臂像港口/园区场景,出效果快但天花板低。参考自动驾驶经验,最快能闭环的是"智能辅助"形态——关键在于数据能否规模化支撑模型迭代。
现在的阶段就好像还是用数据采集车,但是真正的下半场在于规模化的自动、高效数据闭环,才能驱动行业阶跃发展。具身智能的 Scaling Law 三要素:
🔹 数据缩放:RT-X 证明 10 万+ 轨迹可使跨任务成功率提升 30%+
🔹 模型缩放:RT-2-X 表明 55B > 5B 参数量显著增强跨本体迁移与技能涌现
🔹 本体缩放:Open X-Embodiment 用 22 种机器人验证了跨本体泛化的显著提升
二、训练阶段与数据需求
借鉴大语言模型的训练范式,具身智能的模型训练同样分为三个阶段,每个阶段对数据的需求有本质区别:
| 阶段 | 核心目标 | 数据特征 | 典型方法 |
|---|---|---|---|
| 预训练 | 通用能力底座(认知/推理) | 海量、低成本、多模态 | 互联网视频、Next-frame Prediction、World Model |
| 中训练 | 通用→专用的迁移桥梁 | 异构数据对齐、上规模 | SFT、跨本体数据对齐 |
| 后训练 | 任务对齐、安全可靠 | 同构、高质量、闭环 | 同构 Finetune、RL、数据闭环 |
关键洞察:预训练需要认知与推理能力,后训练需要精细的动作-场景对齐。不同采集方式本质上服务于不同的训练阶段。
三、数据采集路线全景
当前具身智能数据采集可分为四条主要路线,每条路线都有代表性团队在推进:
| 路线 | 代表团队 | 核心优势 | 主要挑战 |
|---|---|---|---|
| 遥操真机 | 智元(AgiBot World 百万级数据集) | 数据直接可用,动作高保真 | 成本高、规模受限 |
| 仿真合成 | 银河通用(GraspVLA,十亿级仿真数据) | 规模大、成本可控 | Sim2Real Gap |
| 人类视频 | 它石智航(WIYH 数据集 10 万+视频) | 数据源开放、场景丰富 | 缺力觉/触觉,迁移鸿沟大 |
| UMI 路线 | 鹿明机器人(FastUMI Pro) | 低成本、通用性强 | 仅限简单操作 |
四、主流采集方法详解
4.1 遥操作:主从机械臂(ALOHA)
斯坦福 ALOHA 项目通过关节复制(Joint-copy)开创了低成本双臂遥操作范式。操作员通过额外机械臂控制目标机器人,实现高精度动作映射。
核心痛点:操作员"感受不到机器人的感受"——操作不直观,难以采集 in-hand manipulation 等精细操作数据。
4.2 VR 遥操作
通过 VR 头显进入机器人第一视角,操作逻辑简单、上手门槛低。Tesla Optimus 目前就采用 VR 遥操 + 动捕手套方案。
局限性在于:VR 依赖视觉追踪,手指遮挡时精度大幅下降;末端位姿需经逆运动学(IK)解算,可能出现"不跟手"问题。更关键的是——操作者看到的是相机画面而非自己的皮肤,缺少连续接触力与微小滑动信息,误差层层叠加后会破坏精细操作的连续性。
4.3 动捕手套 + 第一视角视频
以 DexCap 和 DexWild 为代表,优先保住穿戴自由度与采集便携性。DexCap 核心是动捕手套,配合手背 RealSense T265 做手腕六自由度跟踪,整条链路为:
人手动作 → 动捕手套 → Retargeting → 机器人动作空间 → 策略学习 → 在线纠偏
手套类型包括惯性(IMU)、光学(反光标记 + 红外相机)和光纤(布拉格光栅)三大类,各有适用场景。
4.4 外骨骼采集
外骨骼在动捕基础上进一步做加法,通过机械连杆耦合实现更高保真的动作映射。
代表方案包括灵巧手外骨骼(DexUMI、DexOP)和上下肢全身外骨骼(AirExo,卢策吾团队)。其中 DexUMI 存在视觉 Gap(相机看到数据手套而非机械手),DexOP 视觉 Gap 小但状态 Gap 较大。
4.5 UMI:极简主义路线
与外骨骼的"做加法"相反,UMI 是典型的"做减法"思路——手持夹爪 + GoPro 手腕相机,基于末端位姿控制 + 逆运动学,操作者只需给出末端轨迹。
- 优点:低成本、低门槛、数据可直接迁移到不同机械臂
- 缺点:仅适合简单任务,夹爪做不了拧瓶盖、用筷子等灵巧操作
- 演进:初代 UMI → Fast-UMI(引入触觉)→ DexUMI / ActiveUMI(多模态扩展)
4.6 第一视角人类视频(Ego-centric)
采集者佩戴智能眼镜或头戴设备拍摄日常操作,无机器人参与,成本极低且易于大规模众包。
代表工作 EgoScale 已建成超 1300 小时有效数据,覆盖 240 个真实场景,验证出近乎完美的对数线性缩放规律(R²=0.998),使灵巧手性能较基线提升 54%。
但本质瓶颈在于人到机器人的迁移鸿沟:人体与机器人本体结构差异、缺失力/触觉反馈、动作执行性无法保证。人类视频并非机器人学习的起点,仅能在真实交互数据已足够丰富时作为增效叠加项。
4.7 仿真数据(Sim2Real)
银河通用基于十亿量级仿真数据发布了 GraspVLA,以及灵巧手多样抓取仿真数据集 DexonomySim,覆盖 GRASP taxonomy 中 31 种抓取类型,包含 9.5M 条有效抓取轨迹、10.7k 个物体。
仿真数据的核心优势是规模与效率,但 Sim2Real Gap 仍是主要挑战。
五、数据金字塔与规模化思考
具身智能的数据体系呈金字塔结构:
- 塔尖:高保真数据(力、位姿、触觉),采集成本高、速度慢,但对精细操作策略极其宝贵
- 塔中:遥操/UMI/外骨骼采集的真实机器人数据
- 塔底:互联网视频 + 合成数据,易于获取但与机器人执行空间之间存在巨大鸿沟
规模化的核心矛盾:200-500 万 clips 的数据量增长靠人力堆砌,这一点都不 scale。如果基础模型具备认知和推理能力,是否能实现 scale up 和 zero-shot?当模型从 2B 扩展到 7B、14B,需要 10 倍甚至 1000 倍的数据——还能靠标签体系吗?
京东宣布发动数十万人参与数据采集(包括超 10 万内部员工和最多 50 万外部人员),目标一年内积累 500 万小时人类真实场景视频数据,成为"人类历史上规模最大的数据采集行动"。这代表了当前行业对数据规模的极致追求。
六、多阶段训练范式
综合各路线的数据特性,业界逐渐收敛到多阶段训练范式:
- Pre-train:从海量人类视频学习"世界常识+人类怎么做",构建通用视觉动作基础模型。代表如字节 GR-2(3800 万互联网视频预训练)。
- Middle-train:在仿真/少量真机中对齐"机器人能怎么做",蒸馏人类常识到机器人空间。
- Post-train:在真实机器人上精调,加入力觉、触觉、摩擦、惯性等真实物理交互数据,让动作稳定、安全、可复现。
七、总结与展望
具身智能数据采集正处于"百家争鸣"阶段,各种路线并行发展,尚未收敛到统一范式。核心观点如下:
- 不同采集方式服务于不同训练阶段:互联网视频 → 预训练,异构数据 → 中训练,同构真机 → 后训练
- UMI 和遥操是当前最务实的方案,但未来瓶颈在灵巧手硬件与长程推理
- 人类视频是增效项而非起点,必须在真实交互数据充足时才能发挥价值
- 规模化不能只靠人力堆数据,需要模型本身具备认知与推理能力来实现真正的 scale
未来的方向是:认知推理能力 + 物理交互数据 + 跨本体泛化,三者协同才能实现具身智能的 Scaling Law。