ICLR 2026 机器人非抓取式操作灵巧手视觉触觉传感器流匹配策略腕指协同控制仿真+人类示范混合数据

DexMove: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dT3ZciXvNX
代码: 项目主页 https://peilin-666.github.io/projects/DexMove/
领域: 机器人 / 灵巧手 / 非抓取式操作 / 触觉感知
关键词: 非抓取式操作、灵巧手、视觉触觉传感器、流匹配策略、腕指协同控制、仿真+人类示范混合数据

一句话总结¶

DexMove 用「大规模仿真轨迹 + 少量人类触觉示范」的混合数据范式，训练一个流匹配策略让多指灵巧手通过腕指协同 + 触觉闭环来推、转桌面物体（非抓取式重定位），真机 6 类物体平均成功率 77.8%，比消融基线高 36.6%、效率提升近 300%。

研究背景与动机¶

领域现状: 非抓取式操作（non-prehensile manipulation，不把物体抬起、靠推/压改变其位姿）是机器人重定位大、重、脆、不规则物体时比 pick-and-place 更鲁棒的方案。但已有工作绝大多数用两指夹爪或推杆做单点接触推动，灵巧多指手在这一场景几乎是空白。
现有痛点: ① 缺数据——学通用策略需要覆盖几何/质量分布/表面摩擦变化的大规模、物理合理的接触数据集，遥操作采集效率低且缺高保真力反馈，纯仿真又有 sim-to-real（尤其触觉）域差；② 缺控制器——多接触会通过手-物动力学耦合各指的力与运动，目前没有协调多接触交互的整手运动规划器。
核心矛盾: 灵巧手天生适合非抓取式操作（多点分布接触比单点更稳、能处理薄/圆柱/球形等推动时动力学难预测的物体），但「可扩展高保真数据的稀缺」和「力感知多接触协调策略的缺失」共同卡住了进展。
本文目标: 造一个面向触觉灵巧手的非抓取式操作框架，既能规模化拿到带力的腕指轨迹，又能利用真实触觉做闭环力控，并泛化到未见物体、未见摩擦面乃至语言条件长程任务。
核心 idea: 混合数据合成 + 触觉力规划解耦——用仿真量产「力条件化的腕指运动轨迹」（解决规模），用可穿戴视觉触觉设备从人类示范采「指尖力分布」（解决触觉保真度），再用流匹配策略把二者缝合，并单独训一个 TaFo-Net 预测「期望未来指力」去驱动轨迹策略。

方法详解¶

整体框架¶

DexMove 分「数据采集」与「策略学习」两条主线。数据侧：先在仿真里通过优化 + 拒绝采样合成 2M 条力条件化的腕指轨迹，再用可穿戴外骨骼 + R-Tac 视觉触觉传感器从人类示范采约 300k 帧真实触觉力场。策略侧由三个流匹配/Transformer 组件串成 pipeline：①建立接触的 FM 策略给出初始抓握位姿 → ②TaFo-Net 根据历史触觉场预测未来期望指力 → ③DexMove-Policy 以历史状态、目标位姿、期望力为条件，rollout 出未来腕指轨迹去执行。

flowchart LR
    A[物体点云 + 目标位姿] --> B[建立接触 FM 策略<br/>预测初始手位姿]
    B --> C[DexMove-Policy<br/>流匹配腕指轨迹]
    D[历史触觉向量场 V<br/>历史/目标物体位姿] --> E[TaFo-Net<br/>预测未来触觉场→指力 G]
    E -->|期望指力 G_1:Tf| C
    C --> F[腕指协同执行<br/>非抓取式重定位]
    F -->|实时触觉/位姿反馈| D

关键设计¶

1. 力条件化轨迹合成：用「侵入深度」当力的代理，让刚体仿真也能量产带力轨迹。 非抓取式操作从建立初始接触开始：均匀采样腕部位姿 \((R^{wrist}_0, T^{wrist}_0)\)，把每个指尖沿到最近表面的位移向量 \(d\)（加高斯噪声 \(\hat{d}=d+\varepsilon\) 增多样性）推到接触，再解一个把正向运动学拉到指尖目标位置、并用 \(L_{region}\) 把接触约束在传感器有效区的优化（式1-2）。接触建立后，在 MuJoCo 里沿随机方向增量平移手，若所有指尖位移 50cm 后仍保持稳定接触则该方向被接受（拒绝采样而非 iLQR，因为后者贵且对未建模物理不确定）。在非滑移假设下，各指尖轨迹由初始相对接触偏移随物体刚性变换得到：\(P^{tip}_t = P^{obj}_t + R_z(\omega^{obj}_t)(P^{TIP}_0 - P^{obj}_0)\)。最巧妙的是用视觉触觉传感器的侵入深度近似法向力 \(G \approx D_{sensor} = r - \text{distance}(P^{TIP}_t, \text{surface})\)，于是可以沿接触法向 \(\vec{n}\) 给指尖位置加扰动 \(\hat{P}^{TIP}_t = P^{TIP}_t + \vec{n}\cdot N(0,\sigma)\) 来增广出不同力大小的轨迹，再用带腕部正则 \(L_{wrist}\) 的 IK 反解关节/腕配置（偏向"手指驱动"、少动手臂以免出工作空间）。最终从 88 个 YCB 物体扩到 352 个布局、412k 个有效抓握配置、共 2M 条序列。

2. 人类示范补真实触觉：可穿戴外骨骼 + 同构视觉触觉传感器，把域差压到最小。 刚体仿真既难建高保真物体动力学、又生不出真实触觉输出，所以单指实际接触力靠人类示范来补。作者做了一个把 R-Tac 视觉触觉传感器装到人手指尖的可穿戴外骨骼，采完数据后能直接换装到机器手上——同构设计让人/机硬件差导致的域差最小化。每次试验记录目标位姿、实时位姿和触觉信息：法向力 \(G\) 由侵入深度推得，切向（剪切）力由表面 marker 的 2D 位移推得，构成触觉向量场 \(V \in \mathbb{R}^{v\times 4}\)（\(v=33\) 个 marker），30FPS 采集，跨 20 个物体约 300k 帧。这套「仿真出规模、真实补触觉」的互补让触觉数据以最小域差融入。

3. TaFo-Net 力规划：用历史触觉场隐式编码环境，因果掩码预测未来指力。 轨迹策略需要"期望指力" \(G_{1:T_f}\) 作条件，TaFo-Net 专门预测它。核心洞察是历史触觉向量场隐式编码了表面摩擦、接触状态等环境属性，而历史物体位姿 + 目标位姿提供"还差多远"的信号，二者足以推断未来动作。网络三阶段：(i) 逐指空间编码——每帧每指的触觉场经轻量 Transformer + 几何先验位置嵌入编成指 token；(ii) 跨指注意力——同一帧 F 个指 token 加指型嵌入后做多头自注意 \(\tilde{U}_{i,1:F}=CF(U_{i,1:F}+g_{1:F})\)，建模指间协调约束；(iii) 逐指因果时序注意力——加因果掩码让 query 在时刻 \(i\) 只能看 \(\le i\) 的 token，防未来信息泄漏，实现目标条件化、时序一致、跨指一致的推理。训练时随机丢弃时间步/手指/marker 增鲁棒，最小化触觉场重建损失 \(L_{rec}=\sum_t\sum_f \|\hat{V}_{t,f}-V_{t,f}\|^2\)。

4. DexMove-Policy 流匹配轨迹策略：腕指协同的目标条件 rollout。 建立接触和最终轨迹都用流匹配（FM），相比扩散策略训练/推理更快。FM 从插值样本 \(X_t=(1-t)X_0+tX_1\) 学时间相关速度场 \(u(\cdot)\)，目标 \(L=\mathbb{E}\|(X_1-X_0)-u(X_t,t,\text{cond})\|^2\)，推理时从噪声积分 ODE 到样本。DexMove-Policy 以系统状态历史（关节位置、腕位姿、物体位姿、接触位置 \(C\)、各指力 \(G\) 等，过去 \(T_p\) 步）、目标物体位姿、以及 TaFo-Net 给的期望力 \(G_{1:T_f}\) 为条件：历史状态与目标经 cross-attention 融合，连同力指令送进 Transformer decoder 预测速度场，输出未来 \(T_f\) 帧的手状态 \(X_1=(P^{hand},A^{hand},R^{wrist},T^{wrist})_{1:T_f}\) 去执行。

实验关键数据¶

主实验：成功率（不同初始 yaw 误差 × 两种摩擦面）¶

Method	0–30° Fric.A	0–30° Fric.B	30–60° Fric.A	30–60° Fric.B	60–90° Fric.A	60–90° Fric.B
Open-loop	36.7	10.0	23.3	0.0	3.3	0.0
DyWA (夹爪)	50.0	36.7	46.7	30.0	50.0	33.3
CORN (夹爪)	43.3	36.7	46.7	40.0	43.3	43.3
DexMove	86.7	86.7	80.0	83.3	70.0	60.0

Fric.B 为采集时未见的摩擦面，DexMove 两面差距很小（鲁棒），而夹爪基线在 B 面明显退化。

效率：平均完成时间（s，越小越好）¶

Method	0–15 cm	15–30 cm	30–45 cm
DyWA	36.1	52.2	60.6
CORN	41.4	54.5	62.1
DexMove	8.3	10.9	12.4

DexMove 完成时间不到夹爪基线的一半（论文称效率提升近 300%），得益于多指接触和更少的动作 primitive。

消融实验：各模块成功率（%，按物体）¶

Method	Lego	Mouse	Book	Keyboard	Large Can	Small Can
Wrist-Only（锁指）	13.3	0.0	33.3	20.0	0.0	0.0
w/o Cross-Finger	13.3	3.3	63.3	50.0	0.0	3.3
w/o Shear-Force	70.0	66.7	33.3	13.3	0.0	0.0
w Heuristic Force	36.7	43.3	66.7	0.0	0.0	0.0
DexMove	66.7	86.7	90.0	90.0	63.3	70.0

关键发现¶

多指 > 单点接触：夹爪基线（DyWA/CORN）主要败在做不出旋转，尤其圆柱物体，因为依赖单接触点；灵巧手的连续多面接触能精准旋转。
去掉跨指注意力 → 只能搞定平面物体（book/keyboard），无法捕捉指间协调约束。
去掉剪切力 → 重物体崩溃：模型退化为预测平滑均值，轻物体（Lego/mouse）尚可，重物体因缺滑移检测所需的剪切反馈而失败。
启发式力 < 学到的力：手工"检测到滑移就加固定增量力"的策略在多数任务上表现差。
泛化性强：可变形物体（布偶 96.7%、纸巾 100%）甚至比刚体更高（柔顺性帮助稳定接触）；不平表面下用 15 分钟数据微调 TaFo-Net 即可恢复；触觉噪声 \(\sigma\) 增大时成功率优雅退化。

亮点与洞察¶

"侵入深度即力代理"是把刚体仿真和触觉打通的关键 trick：让计算便宜的刚体仿真也能合成"带力"的轨迹，并通过沿法向扰动指尖直接增广出不同力大小，绕开了昂贵的软体动力学仿真。
同构可穿戴触觉外骨骼：传感器人机两用，是把"无域差真实触觉"低成本灌进策略的工程巧思。
解耦"力规划"与"轨迹生成"：TaFo-Net 专管"该用多大力"、DexMove-Policy 专管"手怎么动"，期望力作为桥梁——这种分工让触觉闭环可学、可解释。
历史触觉隐式编码环境这一洞察很漂亮：不显式估计摩擦系数，而是让网络从触觉历史里读出摩擦/接触状态，天然支持对未见摩擦面的泛化。

局限与展望¶

触觉噪声 \(\sigma\) 升到 0.2 时大物体成功率掉到 53.3%/43.3%，对触觉质量仍较敏感。
目前物体运动只建模 3 DoF（x/y 平移 + yaw 旋转），未涉及翻转、立起等更复杂的非抓取式重定向。
仿真侧轨迹基于"非滑移假设 + 侵入深度近似力"，对高度动态/强滑移接触的保真度未知。
真机评测物体数量有限（6 类基准 + 少量可变形/不平面），更大规模、更开放场景的泛化仍待验证；不平表面需采 15 分钟数据微调才稳。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个面向触觉灵巧手的非抓取式操作策略，混合数据范式 + 同构触觉外骨骼 + 侵入深度力代理都很有原创性。
实验充分度: ⭐⭐⭐⭐ 真机基准 + 细致消融 + 鲁棒性（可变形/不平面/噪声）+ 下游长程任务，较完整；但缺公开基线、物体数量有限。
写作质量: ⭐⭐⭐⭐ 动机—挑战—方法三段对应清晰，公式与图配合到位，三组件分工讲得明白。
价值: ⭐⭐⭐⭐⭐ 同时给出数据范式、硬件、策略三件套并真机验证，对灵巧手操作与触觉学习社区有较强落地与复用价值。