背景与定义#
运动重定向 (Motion Retargeting) 是角色动画/机器人领域的一个概念, 指把一个个体的关节状态 qpos 转换到另一个相似个体的关节状态上.
放到手上, 就是把人手或某个机械手的动作迁移到另一只手上, 同时尽量让它面对同一个物体时还能完成相近的操作. 例如给定人手拿起木块的一段动作, 经过 retargeting 可以变成机器人手的关节序列, 让它也把木块拿起来. 这类映射常用于 teleoperation, imitation learning 和数据扩增, 因为 human demo 可以跨本体复用.
两只手自由度完全一致时, 逐关节复制旋转角度几乎就够了. 但只要自由度, 连杆长度或关节约束一变, 这种 naive 做法就会很快失效, 接触点也会跟着漂. 难点不只是形态差异, 还包括与物体的复杂接触: 真正想保持一致性的是交互语义和任务目标, 而不是某一帧的几何姿态. 于是很多工作不再只做几何匹配, 而是把物体形状, 受力, 触觉和动作意图一起纳入学习, 也更愿意用自监督和无配对数据.
几何重定向#
早期路线聚焦于几何一致性: 对齐关键点, 缩放轨迹, 用优化吸收残差. AnyTeleop 1 把手腕到指尖的向量误差纳入目标并施加平滑正则, DexH2R 2 则缩放人手轨迹后求解非线性优化, 为机器人手输出关节序列. 这条路径提供了直接的几何直觉, 但缺乏对物体语义的建模, 一旦任务或接触面发生变化就容易失稳.
对象形状为条件的重定向#
人手面对不同形状的物体时, 关节角度和接触分布会重排. 如果仍然把人手姿态硬映射到机器人手, 接触点会错位, 抓握力会失衡, 姿态也会显得不自然. 于是研究开始把物体几何引入条件, 先对齐物体再推断手部姿态, 以恢复高层的交互直觉.
FunGrasp (2024) 3: 三阶段 pipeline: 用单张 RGB-D 图像估计功能性人手姿态; 在物体坐标系中对齐手部链节方向并优化接触点与人手姿态, 把功能性抓握重定向到不同机器人手; 再训练视觉+触觉的动态强化学习策略, 在接触参考下适配不同形状与未见物体, 并通过特权学习与系统辨识提升仿真到真实的迁移.
DexFlow (2025) 4: 该方法构建了一个分层优化管线, 先进行全局姿态搜索匹配人手与机器人手, 再在局部阶段用能量函数优化接触, 使机器人手自然贴合物体表面. 同时通过双阈值检测与时间平滑的时序接触处理流程提取稳定接触, 并发布包含 29.2 万个抓取帧的跨手拓扑数据集支持这一流程.
Kinematic Motion Retargeting for Contact-Rich Manipulations (2024) 5: 该工作将重定向视为非等距形状匹配问题, 利用表面接触区域与标记点数据, 通过逆运动学逐步估计并优化目标手轨迹. 其核心贡献是局部形状匹配算法和多阶段优化管线, 可在整个操作序列中保持接触分布一致, 并支持对象替换与跨手泛化.
Learning Cross-hand Policies of High-DOF Reaching and Grasping (2024) 6: 作者提出手形无关的状态-动作表示和二阶段框架, 先用统一策略预测抓取关键点位移, 再由手型特定的适配器转化为各手的关节控制, 从而实现高自由度抓取策略的跨手迁移. 策略输入由语义关键点和交互中垂面 (IBS) 组成, 借助 Transformer 网络学习手指间关系, 从而对不同手型和物体组合具备泛化能力.
受力为条件的重定向#
在实际操作中, 力分布决定抓握是否稳定; 即便物体形状相同, 不同受力模式也需要不同的目标姿态, 所以受力必须作为显式条件.
- Feel the Force: Contact-Driven Learning from Humans (2025) 7: 使用带触觉传感器的手套记录人手接触力与关键点坐标, 预测机器人轨迹和期望抓握力, 执行时以 PD 控制调整夹爪以贴合触觉示范, 但 pipeline 中夹杂了大量手工设置, 可迁移性有限.
- DexMachina (2025) 8: 强化学习阶段引入强度衰减的虚拟物体控制器, 叠加接触奖励和任务奖励, 不过我觉得这大概更类似 RL Tracking 而不是 Retargeting.
Cross-embodiment 与自监督学习#
这一方向更关心怎么摆脱人工配对数据, 直接从动作准则里学出跨手映射.
说起来, 更喜欢不靠配对示教, 而是从规则里自然诱导出来的映射. Geometric Retargeting9 给了这样的思路, 我在 XL-VLA 项目里做的 CrossLatent 也应用了类似的思路: 随机采样关节配置, 用可微分的运动学约束把不同手拉到同一个 latent action space, 然后把它当作 VLA 的统一动作接口.
- Geometric Retargeting (2025) 9: 以指尖速度一致性等动作准则作为自监督信号, 学习跨本体的无配对映射, 即便在尺度与关节差异下仍维持接触语义与运动稳定性, 并已作为几何先验集成进 Dexterity Gen 10.
- XL-VLA / CrossLatent (2026) 11: 用 multi-headed VAE 在多种异构手上预训练共享 latent, 训练信号由重建损失, 基于可微分 FK 的指尖几何对齐约束, 以及 latent 的平滑先验共同构成; 冻结编码器/解码器后, 就能把不同手的关节 chunk 映射成统一 token 接口供 VLA 学习与迁移.
- Learning to Transfer Human Hand Skills for Robot Manipulations (2025) 12: 拟合人手, 机器人动作与物体运动的共享流形, 利用合成配对三元组训练模型, 避免真实人机配对数据的高昂成本.
结论#
单纯几何映射很难兼顾复杂物体交互与任务约束, 所以近年的方法更愿意引入视觉和触觉线索, 去追更自然的接触和更强的泛化. 但除了简单的 pick and place, 多数任务还是很难做到可靠迁移, 复杂接触一多就更明显. 问题主要有两个: 物体理解和受力一致性. 换个形状或换个功能, 同样的人手动作往往需要另一套机器人关节配置; 即便物体不变, 受力分布一换, 目标 qpos 也会被推向另一种解. 这也是为什么不少工作会显式地以物体为条件, 或者把接触力/目标力纳入条件.
也有人期待, 未来如果强化学习能把原生 dexterous policy 练到足够强, retargeting 也许会退化成一件更简单的事: 把人手动作当作额外输入对齐, 端到端输出控制即可. 但现在还看不到这样的控制器, 更现实的做法还是走 interaction-aware 的路线, 把物体和受力当成对齐的标准.
Footnotes#
AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System. https://arxiv.org/abs/2307.04577v3 ↗ ↩
FunGrasp: Functional Grasping for Diverse Dexterous Hands. https://arxiv.org/abs/2411.16755v1 ↗ ↩
DexFlow: A Unified Approach for Dexterous Hand Pose Retargeting and Interaction. https://arxiv.org/abs/2505.01083v1 ↗ ↩
Kinematic Motion Retargeting for Contact-Rich Anthropomorphic Manipulations. https://arxiv.org/abs/2402.04820.pdf ↗ ↩
Learning Cross-hand Policies of High-DOF Reaching and Grasping. https://arxiv.org/abs/2404.09150 ↗ ↩
Feel the Force: Contact-Driven Learning from Humans. https://arxiv.org/abs/2506.01944.pdf ↗ ↩
DexMachina. https://arxiv.org/abs/2505.24853.pdf ↗ ↩
Geometric Retargeting. https://arxiv.org/abs/2503.07541 ↗ ↩ ↩2
Dexterity Gen. https://zhaohengyin.github.io/dexteritygen/ ↗ ↩
XL-VLA / CrossLatent: Cross-Hand Latent Representation for Vision-Language-Action Models. https://xl-vla.github.io ↗ ↩
Learning to Transfer Human Hand Skills for Robot Manipulations. https://arxiv.org/abs/2501.04169v1 ↗ ↩