AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception¶

会议: ICLR 2026
arXiv: 2602.09617
代码: https://github.com/GeWu-Lab/AnyTouch2
领域: 触觉感知 / 机器人
关键词: 触觉表示学习, 动态感知, 光学触觉传感器, 力感知, 触觉数据集

一句话总结¶

AnyTouch 2提出触觉动态金字塔框架，构建包含242.6万接触样本的ToucHD层级数据集（涵盖原子动作、真实操控和触力配对数据），并设计统一像素级、语义级和物理级三层次动态感知的触觉表征学习框架，在静态属性识别、动态物理预测和真实世界操控四项任务上全面超越现有方法。

研究背景与动机¶

真实世界的接触密集型操控要求机器人感知时序触觉反馈、捕捉细微表面变形、推理物体属性和力学动态。光学触觉传感器能提供如此丰富的信息，但现有触觉数据集和模型存在严重局限：(1) 数据主要聚焦于物体级属性（如材质），忽视了物理交互过程中的细粒度触觉时序动态；(2) 现有的基于图像自监督或多模态对齐的预训练模型难以捕获细粒度变形和力感知动态。核心矛盾在于缺乏系统化的动态触觉感知范式——既缺少指导数据采集的层级框架，也缺少匹配的模型设计。本文的核心idea是：建立触觉动态金字塔，从数据和模型两个维度系统性地推进动态触觉感知。

方法详解¶

整体框架¶

AnyTouch 2的核心是一个层级化的设计思路。首先，触觉动态金字塔将触觉数据按动态感知复杂度分为5个阶梯：T5（仅按压）→ T4（随机动作）→ T3（特定动作）→ T2（操控数据）→ T1（力数据）。对应地，ToucHD数据集覆盖T3-T1三个高阶层级，AnyTouch 2框架从像素级→语义级→物理级逐层构建动态感知能力。输入为4帧连续触觉图像（背景减除后），输出为统一的触觉表征，支持多种下游任务。

关键设计¶

像素级动态细节学习 (Pixel-Level Dynamic Details): 使用视频掩码自编码器（VideoMAE）从多个光学传感器的连续帧中学习多样化的变形模式。首先对输入进行背景帧减除，获得归一化输入$\mathbf{T} \in \mathbb{R}^{N \times H \times W \times 3}$。将视频划分为3D时空token，应用管状掩码（比率$\rho=0.75$），通过帧解码器重建。关键创新在于额外引入帧差重建（Frame-difference Reconstruction）：用 $D_n = T_n - T_1$ 计算帧差，同时训练帧差解码器重建这些差值。总像素级损失 $\mathcal{L}_{Pixel} = \mathcal{L}_{rec}^{ori} + \mathcal{L}_{rec}^{dif}$。帧差重建强制模型关注帧间的微小局部变化，这对于捕捉触觉信号中高度局部化和细微的变形至关重要。
语义级触觉特征 (Semantic-Level Tactile Features): 三个并行目标构建语义理解。(a) 多模态对齐：遵循CLIP范式，将触觉特征与视觉和语言特征对齐，$\mathcal{L}_{Align} = \frac{\alpha_{TV}}{2}(\mathcal{L}_{T\to V} + \mathcal{L}_{V\to T}) + \frac{\alpha_{TL}}{2}(\mathcal{L}_{T\to L} + \mathcal{L}_{L\to T})$。(b) 跨传感器匹配：对同一物体但不同传感器的触觉信号进行正负样本匹配，促进传感器无关的物体级特征学习，$\mathcal{L}_{obj} = -\log\sigma(sim(\mathbf{T}, \mathbf{T}_{obj}^+)) - \log(1 - \sigma(sim(\mathbf{T}, \mathbf{T}_{obj}^-)))$。(c) 动作匹配（新增）：将ToucHD中的触觉视频按8类原子动作（按压、抬起、4方向滑动、2方向旋转）进行分组，训练模型将同类动作拉近、不同动作推远，$\mathcal{L}_{act}$。这显式将动作级语义信息注入表征。
物理级动态属性 (Physical-Level Dynamic Properties): 利用ToucHD的大规模触-力配对数据，训练力预测任务。给定触觉视频$\mathbf{T}$，预测每帧的3D接触力$\mathbf{F} \in \mathbb{R}^{(N-1) \times 3}$。同时引入增量力预测（Delta-force Prediction），$\Delta\mathbf{F}_n = F_n - F_{n-1}$，关注力的时序变化而非静态值。总力损失$\mathcal{L}_{Force} = \frac{1}{3(N-1)} \|\hat{\mathbf{F}} - \mathbf{F}\|_1 + \frac{1}{3(N-1)} \|\Delta\hat{\mathbf{F}} - \Delta\mathbf{F}\|_1$。这将高层语义理解与底层物理属性桥接，使模型具备跨所有金字塔层级的全面表征。
ToucHD数据集: 包含2,426,174个接触样本。(a) 模拟原子动作数据 (Sim, T3)：用IMPM模拟器，5种光学传感器在1,043个物体上执行4类原子动作（滑动、旋转），旋转扩充后共8类，获得1,118,896帧。(b) 真实操控数据 (Mani, T2)：改装FastUMI夹爪安装多种触觉传感器，设计46个操控任务（包括拧笔盖、插USB、揉黏土、叠积木等），获得584,842帧，配同步视频。(c) 触-力配对数据 (Force, T1)：5种传感器 + 71种压头 + 机械臂控制，多方向滑动并用6轴力传感器记录3D力，获得722,436对触-力数据。

损失函数 / 训练策略¶

采用课程式任务调度策略：像素级重建从头开始训练（权重最高），高级任务在特定epoch后逐步引入并线性增大权重： $$\mathcal{L}_{total} = \mathcal{L}_{Pixel} + \lambda_{Align}^i \mathcal{L}_{Align} + \lambda_{Match}^i \mathcal{L}_{Match} + \lambda_{Force}^i \mathcal{L}_{Force}$$ 具体地，第20 epoch引入匹配和力预测任务，第30 epoch引入对齐任务。最大权重$\lambda_{Align}^{max}=1.0$，$\lambda_{Match}^{max}=0.02$，$\lambda_{Force}^{max}=0.1$。基于OpenCLIP-Base编码器，4×H100 GPU训练40 epochs。

实验关键数据¶

主实验¶

离线基准（Object Bench + Sparsh Bench + ToucHD Bench）:

任务	传感器	AnyTouch 2	AnyTouch 1	MAE(Sparsh)	VJEPA(Sparsh)	说明
TAG材质分类	GS	76.97%	71.10%	67.06%	66.57%	Acc↑
Cloth纺织分类	GS	42.31%	39.73%	35.38%	35.96%	Acc↑
滑动检测	DG	86.66 F1	81.20	82.44	83.90	F1↑
力预测(ToucHD)	DG	624.26	1540.76	783.64*	1232.65	RMSE(mN)↓
力预测(ToucHD)	Mini	202.14	652.61	257.95*	331.12	RMSE(mN)↓

（*表示使用了ToucHD扩充数据）

真实操控任务（4个任务 x 20次测试）:

任务	金字塔层级	AnyTouch 2 (DG)	AnyTouch 2 (Mini)	MAE(S)† (DG)	AnyTouch 1 (DG)
触觉抓取	T5	0.75	0.80	0.65	0.70
白板擦除	T4&3	0.85	0.80	0.70	0.55
USB插入	T2	0.30	0.25	0.20	0.10
芯片移动	T1	-	0.85	-	0.60

消融实验¶

配置	TAG Acc	ToucHD Force(DG)	ToucHD Force(Mini)	说明
完整AnyTouch 2	76.97	624.26	202.14	全部模块
- 帧差重建	76.19	687.13↓	225.18↓	像素级动态基础下降
- 动作匹配	76.56	640.15	215.83	滑动检测下降
- 力预测	75.17	777.41↓	283.59↓	力相关任务显著下降
- 多模态对齐	71.70↓	594.15↑	196.10↑	静态下降但动态提升（有趣）
- ToucHD全集	68.58↓	1365.60↓	519.55↓	所有任务全面下降

关键发现¶

去除多模态对齐后，动态任务性能反而提升，因为粗粒度文本标签将不同力度的同物体样本拉近，损害了细粒度力感知——这反映了静态与动态感知间的trade-off
ToucHD数据集的去除导致所有任务全面下降，验证了高阶层级数据的不可替代性
4帧输入全面优于2帧输入，更密集的动态信息有益于触觉感知
GelSight Mini的清晰变形成像有利于细粒度属性任务，DIGIT的30Hz高频率在高阶操控任务上更有优势——传感器互补性
仅换了gel pad后性能仅有微小下降，展现了传感器无关表征的泛化能力

亮点与洞察¶

触觉动态金字塔：提出了一个清晰的分层框架，系统性地定义了触觉感知能力的层级，为整个领域提供了统一的思考范式
数据+模型双轮驱动：不仅构建了大规模层级数据集，还设计了与之匹配的多层次学习架构，二者协同增效
有趣的对齐悖论：多模态对齐提升静态理解但损害动态感知的发现深刻揭示了CLIP式训练在细粒度物理任务上的局限性
46个操控任务设计：ToucHD (Mani)涵盖了极其丰富的实际操作场景（从揉黏土到魔方旋转），为触觉社区提供了宝贵资源
力预测的物理意义：通过显式预测触力及其增量，将触觉表征落地到可量化的物理量，超越了纯语义理解

局限与展望¶

ToucHD中DM-Tac W和GelStereo BioTip传感器的数据未被利用
力数据采集受限于压头+传感器的简化设置，缺少对日常物体操控时的触力采集
多传感器配对操控数据仅用于对齐，未引入跨传感器协同的专用架构
仅限于光学触觉传感器，未扩展到阵列式触觉传感器
真实操控任务用了UMI+人手而非双UMI，可能引入视觉模态偏差

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐