DexMove: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dT3ZciXvNX
代码: 项目主页 https://peilin-666.github.io/projects/DexMove/
领域: 机器人 / 灵巧手 / 非抓取式操作 / 触觉感知
关键词: 非抓取式操作、灵巧手、视觉触觉传感器、流匹配策略、腕指协同控制、仿真+人类示范混合数据
一句话总结¶
DexMove 用「大规模仿真轨迹 + 少量人类触觉示范」的混合数据范式,训练一个流匹配策略让多指灵巧手通过腕指协同 + 触觉闭环来推、转桌面物体(非抓取式重定位),真机 6 类物体平均成功率 77.8%,比消融基线高 36.6%、效率提升近 300%。
研究背景与动机¶
- 领域现状: 非抓取式操作(non-prehensile manipulation,不把物体抬起、靠推/压改变其位姿)是机器人重定位大、重、脆、不规则物体时比 pick-and-place 更鲁棒的方案。但已有工作绝大多数用两指夹爪或推杆做单点接触推动,灵巧多指手在这一场景几乎是空白。
- 现有痛点: ① 缺数据——学通用策略需要覆盖几何/质量分布/表面摩擦变化的大规模、物理合理的接触数据集,遥操作采集效率低且缺高保真力反馈,纯仿真又有 sim-to-real(尤其触觉)域差;② 缺控制器——多接触会通过手-物动力学耦合各指的力与运动,目前没有协调多接触交互的整手运动规划器。
- 核心矛盾: 灵巧手天生适合非抓取式操作(多点分布接触比单点更稳、能处理薄/圆柱/球形等推动时动力学难预测的物体),但「可扩展高保真数据的稀缺」和「力感知多接触协调策略的缺失」共同卡住了进展。
- 本文目标: 造一个面向触觉灵巧手的非抓取式操作框架,既能规模化拿到带力的腕指轨迹,又能利用真实触觉做闭环力控,并泛化到未见物体、未见摩擦面乃至语言条件长程任务。
- 核心 idea: 混合数据合成 + 触觉力规划解耦——用仿真量产「力条件化的腕指运动轨迹」(解决规模),用可穿戴视觉触觉设备从人类示范采「指尖力分布」(解决触觉保真度),再用流匹配策略把二者缝合,并单独训一个 TaFo-Net 预测「期望未来指力」去驱动轨迹策略。
方法详解¶
整体框架¶
DexMove 分「数据采集」与「策略学习」两条主线。数据侧:先在仿真里通过优化 + 拒绝采样合成 2M 条力条件化的腕指轨迹,再用可穿戴外骨骼 + R-Tac 视觉触觉传感器从人类示范采约 300k 帧真实触觉力场。策略侧由三个流匹配/Transformer 组件串成 pipeline:①建立接触的 FM 策略给出初始抓握位姿 → ②TaFo-Net 根据历史触觉场预测未来期望指力 → ③DexMove-Policy 以历史状态、目标位姿、期望力为条件,rollout 出未来腕指轨迹去执行。
flowchart LR
A[物体点云 + 目标位姿] --> B[建立接触 FM 策略<br/>预测初始手位姿]
B --> C[DexMove-Policy<br/>流匹配腕指轨迹]
D[历史触觉向量场 V<br/>历史/目标物体位姿] --> E[TaFo-Net<br/>预测未来触觉场→指力 G]
E -->|期望指力 G_1:Tf| C
C --> F[腕指协同执行<br/>非抓取式重定位]
F -->|实时触觉/位姿反馈| D
关键设计¶
1. 力条件化轨迹合成:用「侵入深度」当力的代理,让刚体仿真也能量产带力轨迹。 非抓取式操作从建立初始接触开始:均匀采样腕部位姿 \((R^{wrist}_0, T^{wrist}_0)\),把每个指尖沿到最近表面的位移向量 \(d\)(加高斯噪声 \(\hat{d}=d+\varepsilon\) 增多样性)推到接触,再解一个把正向运动学拉到指尖目标位置、并用 \(L_{region}\) 把接触约束在传感器有效区的优化(式1-2)。接触建立后,在 MuJoCo 里沿随机方向增量平移手,若所有指尖位移 50cm 后仍保持稳定接触则该方向被接受(拒绝采样而非 iLQR,因为后者贵且对未建模物理不确定)。在非滑移假设下,各指尖轨迹由初始相对接触偏移随物体刚性变换得到:\(P^{tip}_t = P^{obj}_t + R_z(\omega^{obj}_t)(P^{TIP}_0 - P^{obj}_0)\)。最巧妙的是用视觉触觉传感器的侵入深度近似法向力 \(G \approx D_{sensor} = r - \text{distance}(P^{TIP}_t, \text{surface})\),于是可以沿接触法向 \(\vec{n}\) 给指尖位置加扰动 \(\hat{P}^{TIP}_t = P^{TIP}_t + \vec{n}\cdot N(0,\sigma)\) 来增广出不同力大小的轨迹,再用带腕部正则 \(L_{wrist}\) 的 IK 反解关节/腕配置(偏向"手指驱动"、少动手臂以免出工作空间)。最终从 88 个 YCB 物体扩到 352 个布局、412k 个有效抓握配置、共 2M 条序列。
2. 人类示范补真实触觉:可穿戴外骨骼 + 同构视觉触觉传感器,把域差压到最小。 刚体仿真既难建高保真物体动力学、又生不出真实触觉输出,所以单指实际接触力靠人类示范来补。作者做了一个把 R-Tac 视觉触觉传感器装到人手指尖的可穿戴外骨骼,采完数据后能直接换装到机器手上——同构设计让人/机硬件差导致的域差最小化。每次试验记录目标位姿、实时位姿和触觉信息:法向力 \(G\) 由侵入深度推得,切向(剪切)力由表面 marker 的 2D 位移推得,构成触觉向量场 \(V \in \mathbb{R}^{v\times 4}\)(\(v=33\) 个 marker),30FPS 采集,跨 20 个物体约 300k 帧。这套「仿真出规模、真实补触觉」的互补让触觉数据以最小域差融入。
3. TaFo-Net 力规划:用历史触觉场隐式编码环境,因果掩码预测未来指力。 轨迹策略需要"期望指力" \(G_{1:T_f}\) 作条件,TaFo-Net 专门预测它。核心洞察是历史触觉向量场隐式编码了表面摩擦、接触状态等环境属性,而历史物体位姿 + 目标位姿提供"还差多远"的信号,二者足以推断未来动作。网络三阶段:(i) 逐指空间编码——每帧每指的触觉场经轻量 Transformer + 几何先验位置嵌入编成指 token;(ii) 跨指注意力——同一帧 F 个指 token 加指型嵌入后做多头自注意 \(\tilde{U}_{i,1:F}=CF(U_{i,1:F}+g_{1:F})\),建模指间协调约束;(iii) 逐指因果时序注意力——加因果掩码让 query 在时刻 \(i\) 只能看 \(\le i\) 的 token,防未来信息泄漏,实现目标条件化、时序一致、跨指一致的推理。训练时随机丢弃时间步/手指/marker 增鲁棒,最小化触觉场重建损失 \(L_{rec}=\sum_t\sum_f \|\hat{V}_{t,f}-V_{t,f}\|^2\)。
4. DexMove-Policy 流匹配轨迹策略:腕指协同的目标条件 rollout。 建立接触和最终轨迹都用流匹配(FM),相比扩散策略训练/推理更快。FM 从插值样本 \(X_t=(1-t)X_0+tX_1\) 学时间相关速度场 \(u(\cdot)\),目标 \(L=\mathbb{E}\|(X_1-X_0)-u(X_t,t,\text{cond})\|^2\),推理时从噪声积分 ODE 到样本。DexMove-Policy 以系统状态历史(关节位置、腕位姿、物体位姿、接触位置 \(C\)、各指力 \(G\) 等,过去 \(T_p\) 步)、目标物体位姿、以及 TaFo-Net 给的期望力 \(G_{1:T_f}\) 为条件:历史状态与目标经 cross-attention 融合,连同力指令送进 Transformer decoder 预测速度场,输出未来 \(T_f\) 帧的手状态 \(X_1=(P^{hand},A^{hand},R^{wrist},T^{wrist})_{1:T_f}\) 去执行。
实验关键数据¶
主实验:成功率(不同初始 yaw 误差 × 两种摩擦面)¶
| Method | 0–30° Fric.A | 0–30° Fric.B | 30–60° Fric.A | 30–60° Fric.B | 60–90° Fric.A | 60–90° Fric.B |
|---|---|---|---|---|---|---|
| Open-loop | 36.7 | 10.0 | 23.3 | 0.0 | 3.3 | 0.0 |
| DyWA (夹爪) | 50.0 | 36.7 | 46.7 | 30.0 | 50.0 | 33.3 |
| CORN (夹爪) | 43.3 | 36.7 | 46.7 | 40.0 | 43.3 | 43.3 |
| DexMove | 86.7 | 86.7 | 80.0 | 83.3 | 70.0 | 60.0 |
Fric.B 为采集时未见的摩擦面,DexMove 两面差距很小(鲁棒),而夹爪基线在 B 面明显退化。
效率:平均完成时间(s,越小越好)¶
| Method | 0–15 cm | 15–30 cm | 30–45 cm |
|---|---|---|---|
| DyWA | 36.1 | 52.2 | 60.6 |
| CORN | 41.4 | 54.5 | 62.1 |
| DexMove | 8.3 | 10.9 | 12.4 |
DexMove 完成时间不到夹爪基线的一半(论文称效率提升近 300%),得益于多指接触和更少的动作 primitive。
消融实验:各模块成功率(%,按物体)¶
| Method | Lego | Mouse | Book | Keyboard | Large Can | Small Can |
|---|---|---|---|---|---|---|
| Wrist-Only(锁指) | 13.3 | 0.0 | 33.3 | 20.0 | 0.0 | 0.0 |
| w/o Cross-Finger | 13.3 | 3.3 | 63.3 | 50.0 | 0.0 | 3.3 |
| w/o Shear-Force | 70.0 | 66.7 | 33.3 | 13.3 | 0.0 | 0.0 |
| w Heuristic Force | 36.7 | 43.3 | 66.7 | 0.0 | 0.0 | 0.0 |
| DexMove | 66.7 | 86.7 | 90.0 | 90.0 | 63.3 | 70.0 |
关键发现¶
- 多指 > 单点接触:夹爪基线(DyWA/CORN)主要败在做不出旋转,尤其圆柱物体,因为依赖单接触点;灵巧手的连续多面接触能精准旋转。
- 去掉跨指注意力 → 只能搞定平面物体(book/keyboard),无法捕捉指间协调约束。
- 去掉剪切力 → 重物体崩溃:模型退化为预测平滑均值,轻物体(Lego/mouse)尚可,重物体因缺滑移检测所需的剪切反馈而失败。
- 启发式力 < 学到的力:手工"检测到滑移就加固定增量力"的策略在多数任务上表现差。
- 泛化性强:可变形物体(布偶 96.7%、纸巾 100%)甚至比刚体更高(柔顺性帮助稳定接触);不平表面下用 15 分钟数据微调 TaFo-Net 即可恢复;触觉噪声 \(\sigma\) 增大时成功率优雅退化。
亮点与洞察¶
- "侵入深度即力代理"是把刚体仿真和触觉打通的关键 trick:让计算便宜的刚体仿真也能合成"带力"的轨迹,并通过沿法向扰动指尖直接增广出不同力大小,绕开了昂贵的软体动力学仿真。
- 同构可穿戴触觉外骨骼:传感器人机两用,是把"无域差真实触觉"低成本灌进策略的工程巧思。
- 解耦"力规划"与"轨迹生成":TaFo-Net 专管"该用多大力"、DexMove-Policy 专管"手怎么动",期望力作为桥梁——这种分工让触觉闭环可学、可解释。
- 历史触觉隐式编码环境这一洞察很漂亮:不显式估计摩擦系数,而是让网络从触觉历史里读出摩擦/接触状态,天然支持对未见摩擦面的泛化。
局限与展望¶
- 触觉噪声 \(\sigma\) 升到 0.2 时大物体成功率掉到 53.3%/43.3%,对触觉质量仍较敏感。
- 目前物体运动只建模 3 DoF(x/y 平移 + yaw 旋转),未涉及翻转、立起等更复杂的非抓取式重定向。
- 仿真侧轨迹基于"非滑移假设 + 侵入深度近似力",对高度动态/强滑移接触的保真度未知。
- 真机评测物体数量有限(6 类基准 + 少量可变形/不平面),更大规模、更开放场景的泛化仍待验证;不平表面需采 15 分钟数据微调才稳。
相关工作与启发¶
- 非抓取式操作:从平面推动(Mason 1986)到可控接触断开/重建(Chi 2024, Ferrandis 2024),再到多接触(Bhat 2023 证明两点接触就显著比单点稳);本文把它推到多指灵巧手 + 触觉闭环,并泛化到未见物体。
- 触觉数据采集:遥操作多针对夹爪、灵巧手无触觉反馈时变异大成功率低;外骨骼遥操作给实时触觉但搭建繁琐;触觉手套有 marker 不匹配域差;同构传感器(Zhu 2025, Wu 2025b)实现便携无域差采集——本文沿此路线提出"仿真规模 + 真实保真"的混合范式。
- 启发:对任何"接触富 + 难仿真"的操作任务,"用便宜仿真出运动规模 + 用少量真实示范补难仿真的物理量(触觉/力)"是值得复用的数据范式;把"该用多大力"独立成一个可学的力规划网络也值得借鉴。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个面向触觉灵巧手的非抓取式操作策略,混合数据范式 + 同构触觉外骨骼 + 侵入深度力代理都很有原创性。
- 实验充分度: ⭐⭐⭐⭐ 真机基准 + 细致消融 + 鲁棒性(可变形/不平面/噪声)+ 下游长程任务,较完整;但缺公开基线、物体数量有限。
- 写作质量: ⭐⭐⭐⭐ 动机—挑战—方法三段对应清晰,公式与图配合到位,三组件分工讲得明白。
- 价值: ⭐⭐⭐⭐⭐ 同时给出数据范式、硬件、策略三件套并真机验证,对灵巧手操作与触觉学习社区有较强落地与复用价值。