Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction¶

会议: CVPR 2025
arXiv: 2505.13091
代码: 无
领域: 3D视觉
关键词: 触觉感知, 3D重建, 扩散模型, 强化学习, 主动探索

一句话总结¶

提出 Touch2Shape，利用触觉条件扩散模型在低维隐空间中生成紧凑的形状表示，结合强化学习训练触摸探索策略，实现了基于触觉图像的3D形状主动探索与重建，无需每步生成完整形状即可指导下一次触摸位置。

研究背景与动机¶

领域现状：3D生成与重建是计算机视觉的核心任务。当前方法主要基于视觉输入（单视图/多视图RGB、深度图像），扩散模型在3D生成中展现了强大能力（如 SDFusion、DiffusionSDF）。但这些方法主要针对给定部分观测的全局形状预测。

现有痛点：(1) 基于视觉的方法依赖预定义的部分观测，无法主动探索目标；(2) 视觉方法虽能估计整体形状，但容易忽略局部细节，难以生成复杂形状；(3) 实际场景中遮挡和光照条件会严重影响视觉信息的获取。触觉感知不受这些限制，能获取精确的局部3D接触信息，但目前基于触觉的3D重建方法（如 TouchSDF）缺乏全局形状理解能力。

核心矛盾：视觉擅长全局但弱于局部细节且受环境限制，触觉擅长局部细节但缺乏全局信息且需要主动规划。如何将扩散模型的强生成能力与触觉感知的精确局部信息结合，并设计高效的探索策略？

本文目标：设计一个统一的框架，(1) 利用触觉条件扩散模型进行形状重建，(2) 利用扩散模型生成的隐表示指导主动触摸探索策略，(3) 仅在最终步骤生成完整形状，避免每步的高计算开销。

切入角度：扩散模型可以在低维隐空间中编码紧凑的形状表示，这个表示既可以用于最终的形状解码，也可以作为强化学习策略的输入来预测下一次触摸位置。这样就实现了"生成"和"探索"在隐空间的统一。

核心 idea：用触觉条件扩散模型生成低维 latent vector，该向量同时驱动形状重建和探索策略，无需每步生成完整 T-SDF 体积，实现了形状解码与探索的分离。

方法详解¶

整体框架¶

系统分为四个预训练模块和联合使用的推理流程。首先预训练 VQ-VAE 将3D形状（T-SDF volume）编码到低维隐空间并解码。然后预训练 TouchCNN 将触觉图像转化为 touch chart（接触面片的3D坐标）。再用对比学习训练 Contrastive Touch Encoder 将触觉和形状编码到对齐空间。训练阶段，冻结预训练模块，训练触觉条件扩散模型和 Touch Shape Fusion。推理时，机械臂触摸目标物体获取触觉图像，扩散模型基于触觉条件去噪得到 latent vector，策略网络基于该 vector 预测下一次触摸位置。最终一步，用 shape decoder + touch shape fusion 生成完整3D形状。

关键设计¶

触觉条件扩散模型（Touch-conditioned Diffusion）:
- 功能：在低维隐空间中基于触觉信息生成形状表示
- 核心思路：给定预训练 shape encoder 编码的隐向量 \(z\)，在随机时间步加噪，训练去噪网络 \(E_\theta\) 以触觉条件 \(C(T_0,...,T_{n-1})\) 为条件去噪。损失函数 \(L_{diff}(t,n) = \|E_\theta(z_t, r(t), C(T_0,...,T_{n-1})) - \epsilon_t\|_2\)。Touch Embedding 将最多 N 张触觉图像的 chart（\(N \times M \times 4\) 张量，包含坐标和触摸状态）通过位置编码和卷积提取特征，生成 N 个 token。支持纯触觉和视觉-触觉两种模式，后者通过 ResNet 提取图像特征 token 并与 touch token 拼接后送入去噪网络。
- 设计动机：在隐空间操作避免了每步生成 64³ 的 T-SDF volume 的巨大开销；触觉图像天然是局部信息，扩散模型的生成能力可以从局部推断全局。
Touch Shape Fusion 模块:
- 功能：利用触觉信息优化扩散模型生成的形状细节
- 核心思路：将所有历史触摸信息合并成全局 touch shape 并进行体素化，用额外的 voxel encoder 提取多尺度特征。这些特征与 VQ-VAE 解码过程中不同尺度的特征进行融合。融合采用 softmax 加权机制：\(M_1(c,k,j,i) = \frac{\lambda \cdot F_3^e(c,k,j,i) \cdot e^{F_1^d(c,k,j,i)}}{\sum_{c'} e^{F_1^d(c',k,j,i)}}\)，其中 \(\lambda\) 是可学习权重。解码器源自预训练 VQ-VAE，在 fusion 训练时微调。
- 设计动机：扩散模型在隐空间生成的形状全局一致但可能损失局部细节（因为 latent 低维压缩），而触觉 chart 提供的精确局部3D信息可以直接补充解码阶段的细节。
基于强化学习的探索策略训练:
- 功能：学习最优的触摸位置序列以最大化重建质量
- 核心思路：每一步将扩散模型的去噪 latent vector \(z'\) 送入策略网络。策略网络编码初始和当前 latent vector 的差异，结合 50 个候选动作（球面上的位置索引）的 embedding，用全连接层预测每个动作的 Q 值。奖励函数基于扩散损失的变化：\(R = H(L_{diff}(t,n-1) - L_{diff}(t,n))\)，即如果新的触摸使扩散模型的去噪更准确则给正奖励。用 DQN 训练。关键创新是不需要每步生成完整形状再算 Chamfer Distance，只需要比较 latent 空间的扩散损失。
- 设计动机：之前方法（如 ActiveVT）需要每步生成完整 mesh 并计算 CD 作为奖励，计算成本极高。本文在 latent 空间定义奖励，实现了形状解码与探索策略的解耦。

损失函数 / 训练策略¶

训练分三阶段：(1) VQ-VAE 预训练（在 ABC+ShapeNet 上）；(2) 扩散模型训练（100万迭代，lr=1e-5，batch=12）+ Touch Shape Fusion 训练（25万迭代，lr=1e-4，batch=8），两者可并行；(3) 策略训练（200 epoch，lr=3e-4，batch=16）。全部在 RTX 4090 上训练约一周。对比学习使用 MoCo，触觉特征为 query、形状特征为 key。

实验关键数据¶

主实验¶

数据集	模式	方法	Grasp #0	Grasp #1
ABC (CD↓)	纯触觉 T	VTRecon	25.586	9.016
ABC (CD↓)	纯触觉 T	ActiveVT	24.864	8.220
ABC (CD↓)	纯触觉 T	Touch2Shape	40.283	6.794
ABC (CD↓)	视觉+触觉 T+V	VTRecon	2.653	2.637
ABC (CD↓)	视觉+触觉 T+V	ActiveVT	2.538	2.486
ABC (CD↓)	视觉+触觉 T+V	Touch2Shape	1.475	1.406

数据集	方法	1 touch	10 touches	20 touches
ShapeNet (EMD↓)	TouchSDF	0.136	0.112	0.081
ShapeNet (EMD↓)	Ours (T)	0.124	0.056	0.053
ShapeNet (EMD↓)	Ours (T+V)	0.048	0.046	0.042

消融实验¶

模式	对比学习CL	Fusion	CD↓
纯触觉 T	✗	✗	4.430
纯触觉 T	✓	✗	3.298
纯触觉 T	✓	✓	3.134
纯视觉 V	✗	✗	2.242
纯视觉 V	✓	✗	2.068
视觉+触觉 T+V	✓	✓	1.304

关键发现¶

视觉-触觉融合效果显著：T+V 模式下 CD 仅 1.304，远优于纯视觉（2.068）或纯触觉（3.134），验证了两种模态的互补性
对比触觉编码器贡献最大：纯触觉模式下加入 CL 后 CD 从 4.430 降到 3.298（提升 25.6%），说明触觉和形状的对齐嵌入至关重要
探索策略有效：RL 策略使 5 次抓取后 CD 降到初始的 6.63%（仅 T 模式），优于随机策略的 8.14% 和均匀策略的 7.44%
Touch Shape Fusion 持续改善：从 3.298 降到 3.134（CD），用精确的触觉几何信息修正解码器输出的局部细节
初始触摸时 Touch2Shape CD 较高（40.283 vs ActiveVT 24.864），因为扩散模型在信息极少时生成的全局形状偏差大，但随着触摸增加迅速超越

亮点与洞察¶

隐空间统一探索与重建：将形状重建和探索策略都统一在扩散模型的 latent space 中，避免了每步生成完整 3D 形状的高昂开销。这是一个优雅的设计,把扩散模型从"生成器"变成了"感知-规划"的核心引擎。
基于扩散损失的奖励设计：用 \(L_{diff}\) 的变化作为 RL 奖励，而非每步计算 CD。这不仅减少计算，还利用了扩散模型的不确定性估计——如果一次触摸让模型更"确定"目标形状，说明这次触摸信息量大。
对比学习桥接触觉和形状模态：用 MoCo 将触觉 chart 和形状 latent 对齐在同一空间，使得扩散模型可以直接利用触觉条件生成与真实形状接近的 latent。

局限与展望¶

仅在仿真环境中验证，未迁移到真实机器人平台，sim-to-real gap 可能影响实用性
VQ-VAE 的 64³ 分辨率限制了重建精度，更高分辨率会带来更大的计算开销
探索策略的动作空间只有 50 个球面位置，对于复杂形状（如有孔洞的物体）可能不够细粒度
只处理单物体重建，扩展到场景级触觉探索是更有挑战的方向
未来可以结合神经渲染技术，利用主动触摸感知合成多视角视觉图像

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将扩散模型用于触觉条件3D形状探索，latent空间统一探索与重建的思路非常新颖
实验充分度: ⭐⭐⭐⭐ ABC 和 ShapeNet 两个数据集、多种模态设置、探索策略对比、消融实验完整
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图表直观，但部分公式排版略显杂乱
价值: ⭐⭐⭐⭐ 为触觉感知+3D重建交叉领域提供了新范式，对机器人主动感知有启发意义