具身智能数据采集：路线、方法与规模化思考

2026 年 3 月 · 具身智能 · 数据采集 · VLA · Scaling Law · 返回首页

一、为什么数据采集是具身智能的核心瓶颈？

当前具身智能的模型架构已趋于收敛——无论是 Google、Physical Intelligence (PI)，还是国内一众创业公司，大多采用 VLA（Vision-Language-Action） 范式，强调视觉感知、语言推理与高频执行器控制的融合。模型结构上的差异越来越小，真正的竞争壁垒正在转向数据。

类比自动驾驶的发展路径：人形机器人像 Robotaxi，是"圣杯问题"；轮式底盘双臂物流像 Robotruck，商业效率高但上限有限；固定双臂像港口/园区场景，出效果快但天花板低。参考自动驾驶经验，最快能闭环的是"智能辅助"形态——关键在于数据能否规模化支撑模型迭代。

现在的阶段就好像还是用数据采集车，但是真正的下半场在于规模化的自动、高效数据闭环，才能驱动行业阶跃发展。

具身智能的 Scaling Law 三要素：

🔹 数据缩放：RT-X 证明 10 万+ 轨迹可使跨任务成功率提升 30%+

🔹 模型缩放：RT-2-X 表明 55B > 5B 参数量显著增强跨本体迁移与技能涌现

🔹 本体缩放：Open X-Embodiment 用 22 种机器人验证了跨本体泛化的显著提升

二、训练阶段与数据需求

借鉴大语言模型的训练范式，具身智能的模型训练同样分为三个阶段，每个阶段对数据的需求有本质区别：

阶段	核心目标	数据特征	典型方法
预训练	通用能力底座（认知/推理）	海量、低成本、多模态	互联网视频、Next-frame Prediction、World Model
中训练	通用→专用的迁移桥梁	异构数据对齐、上规模	SFT、跨本体数据对齐
后训练	任务对齐、安全可靠	同构、高质量、闭环	同构 Finetune、RL、数据闭环

关键洞察：预训练需要认知与推理能力，后训练需要精细的动作-场景对齐。不同采集方式本质上服务于不同的训练阶段。

三、数据采集路线全景

当前具身智能数据采集可分为四条主要路线，每条路线都有代表性团队在推进：

路线	代表团队	核心优势	主要挑战
遥操真机	智元（AgiBot World 百万级数据集）	数据直接可用，动作高保真	成本高、规模受限
仿真合成	银河通用（GraspVLA，十亿级仿真数据）	规模大、成本可控	Sim2Real Gap
人类视频	它石智航（WIYH 数据集 10 万+视频）	数据源开放、场景丰富	缺力觉/触觉，迁移鸿沟大
UMI 路线	鹿明机器人（FastUMI Pro）	低成本、通用性强	仅限简单操作

四、主流采集方法详解

4.1 遥操作：主从机械臂（ALOHA）

斯坦福 ALOHA 项目通过关节复制（Joint-copy）开创了低成本双臂遥操作范式。操作员通过额外机械臂控制目标机器人，实现高精度动作映射。

核心痛点：操作员"感受不到机器人的感受"——操作不直观，难以采集 in-hand manipulation 等精细操作数据。

4.2 VR 遥操作

通过 VR 头显进入机器人第一视角，操作逻辑简单、上手门槛低。Tesla Optimus 目前就采用 VR 遥操 + 动捕手套方案。

局限性在于：VR 依赖视觉追踪，手指遮挡时精度大幅下降；末端位姿需经逆运动学（IK）解算，可能出现"不跟手"问题。更关键的是——操作者看到的是相机画面而非自己的皮肤，缺少连续接触力与微小滑动信息，误差层层叠加后会破坏精细操作的连续性。

4.3 动捕手套 + 第一视角视频

以 DexCap 和 DexWild 为代表，优先保住穿戴自由度与采集便携性。DexCap 核心是动捕手套，配合手背 RealSense T265 做手腕六自由度跟踪，整条链路为：

人手动作 → 动捕手套 → Retargeting → 机器人动作空间 → 策略学习 → 在线纠偏

手套类型包括惯性（IMU）、光学（反光标记 + 红外相机）和光纤（布拉格光栅）三大类，各有适用场景。

4.4 外骨骼采集

外骨骼在动捕基础上进一步做加法，通过机械连杆耦合实现更高保真的动作映射。

代表方案包括灵巧手外骨骼（DexUMI、DexOP）和上下肢全身外骨骼（AirExo，卢策吾团队）。其中 DexUMI 存在视觉 Gap（相机看到数据手套而非机械手），DexOP 视觉 Gap 小但状态 Gap 较大。

4.5 UMI：极简主义路线

与外骨骼的"做加法"相反，UMI 是典型的"做减法"思路——手持夹爪 + GoPro 手腕相机，基于末端位姿控制 + 逆运动学，操作者只需给出末端轨迹。

优点：低成本、低门槛、数据可直接迁移到不同机械臂
缺点：仅适合简单任务，夹爪做不了拧瓶盖、用筷子等灵巧操作
演进：初代 UMI → Fast-UMI（引入触觉）→ DexUMI / ActiveUMI（多模态扩展）

4.6 第一视角人类视频（Ego-centric）

采集者佩戴智能眼镜或头戴设备拍摄日常操作，无机器人参与，成本极低且易于大规模众包。

代表工作 EgoScale 已建成超 1300 小时有效数据，覆盖 240 个真实场景，验证出近乎完美的对数线性缩放规律（R²=0.998），使灵巧手性能较基线提升 54%。

但本质瓶颈在于人到机器人的迁移鸿沟：人体与机器人本体结构差异、缺失力/触觉反馈、动作执行性无法保证。人类视频并非机器人学习的起点，仅能在真实交互数据已足够丰富时作为增效叠加项。

4.7 仿真数据（Sim2Real）

银河通用基于十亿量级仿真数据发布了 GraspVLA，以及灵巧手多样抓取仿真数据集 DexonomySim，覆盖 GRASP taxonomy 中 31 种抓取类型，包含 9.5M 条有效抓取轨迹、10.7k 个物体。

仿真数据的核心优势是规模与效率，但 Sim2Real Gap 仍是主要挑战。

五、数据金字塔与规模化思考

具身智能的数据体系呈金字塔结构：

塔尖：高保真数据（力、位姿、触觉），采集成本高、速度慢，但对精细操作策略极其宝贵
塔中：遥操/UMI/外骨骼采集的真实机器人数据
塔底：互联网视频 + 合成数据，易于获取但与机器人执行空间之间存在巨大鸿沟

规模化的核心矛盾：200-500 万 clips 的数据量增长靠人力堆砌，这一点都不 scale。如果基础模型具备认知和推理能力，是否能实现 scale up 和 zero-shot？当模型从 2B 扩展到 7B、14B，需要 10 倍甚至 1000 倍的数据——还能靠标签体系吗？

京东宣布发动数十万人参与数据采集（包括超 10 万内部员工和最多 50 万外部人员），目标一年内积累 500 万小时人类真实场景视频数据，成为"人类历史上规模最大的数据采集行动"。这代表了当前行业对数据规模的极致追求。

六、多阶段训练范式

综合各路线的数据特性，业界逐渐收敛到多阶段训练范式：

Pre-train：从海量人类视频学习"世界常识+人类怎么做"，构建通用视觉动作基础模型。代表如字节 GR-2（3800 万互联网视频预训练）。
Middle-train：在仿真/少量真机中对齐"机器人能怎么做"，蒸馏人类常识到机器人空间。
Post-train：在真实机器人上精调，加入力觉、触觉、摩擦、惯性等真实物理交互数据，让动作稳定、安全、可复现。

七、总结与展望

具身智能数据采集正处于"百家争鸣"阶段，各种路线并行发展，尚未收敛到统一范式。核心观点如下：

不同采集方式服务于不同训练阶段：互联网视频 → 预训练，异构数据 → 中训练，同构真机 → 后训练
UMI 和遥操是当前最务实的方案，但未来瓶颈在灵巧手硬件与长程推理
人类视频是增效项而非起点，必须在真实交互数据充足时才能发挥价值
规模化不能只靠人力堆数据，需要模型本身具备认知与推理能力来实现真正的 scale

未来的方向是：认知推理能力 + 物理交互数据 + 跨本体泛化，三者协同才能实现具身智能的 Scaling Law。

返回首页