Haptic Neural Fields: Bringing Tactile Interactions to 3D Rendered Scenes¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页（论文提及，未给明确 GitHub 链接，⚠️ 以原文为准）
领域: 3D视觉
关键词: 触觉神经场, 振动触觉合成, 时域体渲染, 跨传感器对比, NeRF/3DGS交互

一句话总结¶

这篇论文提出 Haptic Neural Fields (HNF)，把 NeRF/3DGS 重建出的 3D 场景从"只能看"升级成"能摸"：给定接触轨迹与法向力，模型借鉴 NeRF 体渲染、但把累积从空间搬到时间，合成出指尖加速度计会真实测到的振动触觉信号，并用跨传感器对比空间桥接 GelSight 与 DIGIT 两类触觉传感器。

研究背景与动机¶

领域现状：NeRF、3DGS 等神经场方法已经能把真实场景重建成照片级逼真的可视化环境，后续工作还学会了动作条件下的视觉动态（开微波炉、用剪刀），让像素和几何随交互而变。但这些进展几乎都局限在视觉通道——场景看起来真，却没有任何"摸上去什么感觉"的信息。

现有痛点：让场景"可触"的早期尝试，要么把稀疏触觉测量配准进辐射场、查询某个位置的触感（Touch-GS、tactile NeRF），要么用触觉图（haptic map）编码空间上的材质属性（粗糙度、刚度）。问题是这些都是静态描述子：它们告诉你"这里是什么材质"，却给不出一次具体接触轨迹+施加力会激发出的随时间变化的振动信号（vibrotactile signal）。而真实触感恰恰由这种时变瞬态主导——蹭、滑、按时指尖感受到的 stick–slip、微碰撞才是真实反馈的来源。

核心矛盾：触觉响应本质是动作条件的——同一块材质，沿不同方向、不同速度、不同法向力去蹭，产生的振动谱完全不同（各向异性）。把"摸起来什么感觉"当成材质的内在静态标签，从根上就建模错了；它必须是动作 \(u(t)\) 和局部上下文的函数。

本文目标：给 3D 场景重建赋予触觉感知能力——给定用户指定的接触轨迹 \(p(t)\) 与法向力 \(F_z(t)\)，在运行时预测人手指（或工具）会经历的触觉加速度信号 \(a(t)\)。

切入角度：作者注意到 NeRF 的体渲染本质是"沿射线对发射量做透射率加权累积"。既然触觉信号也是"当前感受依赖于过去若干状态的累积"，那就可以把这套累积规则从空间维度搬到时间维度——这是把成熟的神经场机制迁移到触觉合成的关键观察。

核心 idea：用一个条件神经场 \(F_\Theta(m, u(t))\)，以场景导出的材质 token \(m\) 和瞬时动作 \(u(t)\) 为条件，输出局部发射加速度与触觉密度，再用"时域透射率累积"合成出振动触觉信号；同时用跨传感器对比学习把不同触觉传感器格式对齐，让方法能跨场景、跨传感器迁移。

方法详解¶

整体框架¶

HNF 要解决的是一条"看 → 动 → 感"（see → act → feel）的端到端链路：输入是一个重建好的 3D 场景（NeRF/3DGS）加一段用户指定的接触动作，输出是这段接触下指尖加速度计会测到的振动触觉信号 \(\hat{a}(t)\)。

整条管线分三个阶段。第一阶段给定相机位姿 \((R,T)\) 在场景中渲染出 RGB 视图 \(x\) 和深度图 \(x_d\)，再用一个条件扩散模型 \(D_\phi\) 把它们翻译成与视图共配准的触觉图 \(I = D_\phi(x, x_d)\)——触觉图把局部材质纹理和 3D 几何压进一张 2D 表征里。第二阶段把触觉图编码成材质 token \(m = E(I)\)，同时把用户给的语义动作（如"从左到右刮"）编码成动作向量，瞬时动作汇总为 \(u(t) = [d(t), v(t), F_z(t)]\)（方向、速度、法向力）。第三阶段核心预测器 HNF 在 \((m, u(t))\) 条件下合成加速度轨迹 \(a(t)\)，可直接推流给触觉作动器渲染给用户。

支撑这条链路的两个训练侧机关是：跨传感器对比对齐——因为 GelSight 和 DIGIT 两类触觉传感器格式不同，需要先学一个传感器无关的共享空间来桥接 HaTT 与 TaRF 数据集；以及 频域幅度谱损失——监督 HNF 输出时只盯人类真正能感知的幅度谱。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["3D场景<br/>NeRF/3DGS + 动作描述"] --> B["触觉图条件管线<br/>渲染RGB/深度→扩散触觉图→材质token m"]
    C["跨传感器对比对齐<br/>桥接 GelSight↔DIGIT"] -.传感器无关材质表征.-> B
    B --> D["触觉神经场 + 时域渲染<br/>F_Θ(m,u(t))→α,σ→时域累积"]
    E["频域幅度谱损失<br/>DFT321 单轴监督"] -.端到端监督.-> D
    D --> F["振动加速度信号 â(t)<br/>推流给触觉作动器"]

关键设计¶

1. 触觉图条件管线：把"看"翻译成局部可触摸的材质表征

要让任意 NeRF/3DGS 场景变得可触，第一步得回答"这个接触点是什么材质、几何如何"。作者复用一个条件扩散模型 \(D_\phi\)，从渲染出的 RGB 视图 \(x\) 和深度图 \(x_d\) 预测一张与视图共配准的触觉图 \(I = D_\phi(x, x_d)\)，再用编码器 \(E(\cdot)\)（沿用预训练 AlexNet）压成材质 token \(m = E(I)\)。这个 token 同时承载材质纹理与局部 3D 几何，是下游触觉合成的"材质条件"。动作侧则把用户的语义指令（"刮""蹭"）和几何参数编码成瞬时动作向量 \(u(t) = [d(t), v(t), F_z(t)]\)，其中 \(d(t) = \dot{p}(t)/\|\dot{p}(t)\|\) 是面内单位方向、\(v(t) = \|\dot{p}(t)\|\) 是速度、\(F_z(t)\) 是法向力幅度。作者假设在接触尺度上纹理 \(I\) 沿路径段近似空间均匀（必要时可沿 \(p(t)\) 更新），于是同一材质上信号的时变只来自动作 \(u(t)\)——这正是后面把累积放到时间维的前提。

2. 触觉神经场 + 时域渲染：把 NeRF 的体渲染从空间搬到时间

这是全文最核心的创新。HNF 定义一个神经场 \(F_\Theta(m, u(t)) \mapsto (\alpha(t), \sigma(t))\)，用一个 \(L\) 层、隐藏维 \(H\)、ReLU 激活的 MLP 实现。直觉上 \(\alpha(t)\) 是当前交互状态对感知加速度的短时发射贡献，\(\sigma(t) \in \mathbb{R}_{\geq 0}\) 是触觉密度，控制这份贡献在与邻近状态合成时被"放行"多少。

关键在于累积方式：NeRF 沿相机射线在空间上积分发射量，HNF 则沿时间累积。动机是当前感受到的加速度不仅取决于当前动作状态，也取决于过去若干状态。对每个输出样本 \(i\)（时刻 \(t_i\)），取一个步长为 \(\Delta t\)、长度 \(N\) 的因果时间邻域（通过给 MLP 加独立线性头投影出 \(N\) 维向量实现，密度头再加 SoftPlus 保证非负），评估得到 \(\{\alpha_{i,n}, \sigma_{i,n}\}\) 后做时域渲染：

\[T_{i,n} = \exp\!\Big(-\sum_{j<n}\sigma_{i,j}\,\Delta t\Big), \qquad w_{i,n} = T_{i,n}\big(1 - \exp(-\sigma_{i,n}\,\Delta t)\big)\]

预测加速度是离散加权和 \(\hat{a}(t_i) = \sum_{n=1}^{N} w_{i,n}\,\alpha_{i,n}\)。这与 NeRF 的体渲染合成完全同构——只是把"距离"换成了"时间"，得到一个连续、可微、且自带短时记忆动态的渲染器。正因为条件里含完整动作 \(u(t)\)，HNF 学到的是各向异性映射：同一材质沿不同方向蹭会产生不同的谱（详见实验 Fig. 5），而旧方法对方向不敏感。

3. 频域幅度谱损失 + DFT321：只监督人类真正感知的东西

人类对高频纹理振动的相位基本不敏感，真正主导感知的是幅度谱。基于这一感知证据，作者不在时域做逐点回归，而把接触轨迹切成 \(C\) 个短段 \(\{S_c\}\)，对每段计算 Hann 窗下 \(K\) 个正频幅度，监督预测谱与真值谱的差：

\[\mathcal{L}_{\text{mag}} = \frac{1}{C\,K}\sum_{c=1}^{C}\sum_{k=1}^{K}\Big(\big|\mathrm{DFT}_K(\hat{a}_c)\big|_k - \big|\mathrm{DFT}_K(a_c)\big|_k\Big)^2\]

另一个细节是触觉刺激并非只由 \(z\) 轴加速度决定，而是 \(x,y,z\) 三轴的合成贡献：\(z\) 分量主要编码表面粗糙度，\(x,y\) 分量传达摩擦相关信息（来自 \(xy\) 平面的接触轨迹 \(p(t)\) 与 \(z\) 平面的法向力 \(F_z\)）。作者沿用触觉领域常用的 DFT321，把三轴信号的频谱融合成单条代表性信号，承载完整触觉刺激后再做监督。这样既贴合感知，又避免了相位带来的虚假惩罚。

4. 跨传感器对比对齐：用对比空间桥接 GelSight 与 DIGIT

现实困境是没有任何单一数据集同时提供 RGB/深度、多传感器触觉图、时域加速度、力/力矩和密集动作轨迹。作者只能"缝合"多个数据集——但 GelSight（材质中心、常独立于全局几何）和 DIGIT（场景中心、稀疏但与重建表面共配准）的触觉图格式差异巨大（弹性体/光照、颜色编码、分辨率、视场都不同），直接混用会被格式鸿沟卡住。

解决办法是学一个传感器无关的共享潜空间。给定视觉样本与触觉样本，构造匹配对与不匹配对，用两个 ResNet-50 编码器映射到 \(\ell_2\) 归一化嵌入（点积即余弦相似度），以对称对比目标（CMC）训练。视觉→触觉方向的 InfoNCE 损失为：

\[\mathcal{L}^{\mathrm{contrast}}_{X_I \to X_T} = -\log\frac{\exp\!\big(z_I^i \cdot z_T^i/\tau\big)}{\sum_{j=1}^{K}\exp\!\big(z_I^i \cdot z_T^j/\tau\big)}\]

其中温度 \(\tau = 0.07\)，反向损失 \(\mathcal{L}^{\mathrm{contrast}}_{X_T \to X_I}\) 对称定义，总损失取二者之和。作者把配对策略从单传感器扩展到跨传感器元组——GelSight–RGB（来自 HaTT）和 DIGIT–RGB（来自 TaRF），让目标同时鼓励：(i) 每个传感器内的视觉–触觉对齐，(ii) GelSight 与 DIGIT 之间材质的传感器无关聚类。下游做材质分类时冻结编码器、只训一个线性探针。这个对齐空间正是后续把 HaTT 的 GelSight 元组扩成 RGB+GelSight+DIGIT 三元组（按共享特征空间最近邻关联 DIGIT patch）的桥梁，让 HNF 能在 3D 场景里跨传感器合成触觉。

损失函数 / 训练策略¶

HNF 用频域幅度谱损失 \(\mathcal{L}_{\text{mag}}\)（公式 4）端到端训练，逐材质训练（类比 per-scene NeRF）后跨所有材质评测取均值。对比对齐用对称 InfoNCE（公式 5、6）。实现细节：沿用预训练 AlexNet 作编码器，时间邻域 \(N=5\)、段数 \(C=200\)（窗长 1000 样本），1 kHz 低通；DFT 产生 \(K=500\) 频点、保留前 \(K=100\) 个正频；MLP \(L=4\) 层、\(H=1024\)。单张 RTX 4090 训 100 epoch，Adam，学习率 \(1\text{e}{-}2\) + 余弦退火。数据按每 10 个连续窗口 8/1/1 划分 train/val/test。

实验关键数据¶

评测用三个互补数据集：HaTT（含 GelSight 扩展，100 种材质，传感笔记录 6DoF 力/力矩+加速度+位姿，10 kHz）、TaRF（13 个日常 3D 场景、DIGIT 传感器、共 19.3k RGB–触觉配准对）、Touch-and-Go (TnG)（约 13.9k GelSight–RGB 视频元组、约 4000 种野外材质）。两个任务：(I) 跨域材质分类，(II) 动作条件振动触觉信号生成。信号生成指标为 ST-SIM（↑，感知质量 0–1）、LSD（↓，对数谱距离）、MSE（↓，正频幅度谱逐点偏差）。

主实验：材质分类（冻结编码器 + 线性探针）¶

模态头	方法	训练集	TnG Acc↑	HaTT Acc↑
–	Chance	–	18.60	11.08
Vision	TaRF	TnG	54.70	–
Vision	TaRF	TnG+TaRF	57.60	–
Vision	Ours	TnG+TaRF+HaTT	76.16	68.75
Vision	Ours	TnG(Balanced)+TaRF+HaTT	75.47	97.19
Haptic	GACM	HaTT(GelSight)	–	77.29
Haptic	Ours	TnG+TaRF+HaTT	55.40	92.13
Haptic	Ours	TnG(Balanced)+TaRF+HaTT	67.73	96.44

混合域对比训练把 HaTT(GelSight) 在 haptic 头下从 GACM 的 77.29% 提到 92.13%，把 TnG/TaRF 评测在 vision 头下从 57.60% 提到 76.16%。关键是增益跨传感器成立（混训 GelSight+DIGIT、在任一传感器上测都涨），说明学到的空间确实传感器无关，可作触觉合成的桥梁。

主实验：动作条件信号生成（跨传感器）¶

方法	GelSight ST-SIM↑	GelSight LSD↓	GelSight MSE↓	DIGIT ST-SIM↑	DIGIT LSD↓	DIGIT MSE↓
GACM	0.85	0.80	6557.32	–	–	–
HNF	0.85	0.88	3443.15	0.86	0.89	4166.64
HNF+	–	–	–	0.88	0.89	3764.00

在 GelSight 上 HNF 与 GACM 感知相似度持平（ST-SIM 0.85 vs 0.85），谱失真略高（LSD 0.88 vs 0.80），但 MSE 从 6557.32 降到 3443.15（约 47% 下降），说明对真值幅度谱拟合更紧、过平滑更少。DIGIT 上无 GACM 可比，HNF 取得 ST-SIM 0.86 / LSD 0.89；MSE 偏高是因为 DIGIT 训练图来自 3D 渲染场景、变异度更大、任务更难，但高 ST-SIM 表明仍抓住了结构信息。

消融实验：动作增强（HNF → HNF+）¶

配置	DIGIT ST-SIM↑	DIGIT MSE↓	说明
HNF	0.86	4166.64	仅原始 HaTT 圆周划动
HNF+	0.88	3764.00	额外加 8 类合成动作样本训练

HaTT 主要是无约束圆周笔触，方向/力–速效应覆盖不足。作者用 8 个人类可解释原语增强动作集：左→右刮（软/硬）、上→下刮（软/硬）、对角刮（软/硬）、随机蹭（慢/快），每个由切平面 2D 路径 + 法向力剖面定义，投影到表面切 frame 执行。HNF+ 在 DIGIT 上 ST-SIM 从 0.86 升到 0.88、MSE 从 4166.64 降到 3764.00，说明合成样本可信、能提升对未见轨迹的泛化。

关键发现¶

跨传感器混训是材质分类涨点的最大来源：单看 GACM 的 77.29% 与 Ours 的 92.13%，增益主要来自把 GelSight+DIGIT 拉进同一对比空间，而非更大模型。
HNF 的真正优势是各向异性：Fig. 5 显示同一材质两条不同方向的刮，HNF 给出方向特异的谱（重分布能量、揭示各向异性），而 GACM 对两个方向给出几乎相同的低通谱——这是动作条件建模相对静态描述子的本质区别。
GelSight 上 LSD 略逊于 GACM 是失真–感知的权衡：HNF 在 MSE/感知结构上更优，但对数谱距离吃了点亏，需结合多指标看而非单看一项。

亮点与洞察¶

把体渲染从空间搬到时间是最漂亮的一步：NeRF 的透射率累积本是为"沿射线的几何遮挡"设计的，作者发现"沿时间的触觉记忆累积"在数学上同构，于是几乎免费复用了一套可微、连续、带短时记忆的渲染器——这种"换坐标轴复用成熟机制"的思路可迁移到任何"当前感受依赖历史状态"的时序合成任务。
只监督幅度谱体现了对感知先验的尊重：与其在时域硬拟合相位（人根本感知不到），不如用 DFT321 融三轴 + 频域幅度损失，把模型容量花在真正影响触感的地方。
跨传感器对比空间把"没有大一统数据集"这个工程死结，转成了一个表示学习问题——用对比对齐缝合 GelSight 与 DIGIT，这套桥接思路对任何多传感器/多格式的具身感知数据都有借鉴价值。

局限与展望¶

作者承认进展受数据限制：没有单一数据集同时对齐 RGB/深度、多传感器触觉图、时域加速度、力/力矩与密集动作轨迹，只能靠对比匹配缝合，导致动作多样性和覆盖受限。
评测受限：大规模头显内用户研究难做（共定位、延迟、作动器限制），只能用客观信号指标和识别代理替代，缺真实人类感知验证。
自己发现的局限：HNF 逐材质训练（类比 per-scene NeRF），扩到大规模场景时训练/存储成本与泛化是个隐忧；纹理"接触尺度近似空间均匀"的假设在强非均匀表面上可能不成立。
改进方向（作者）：扩充动作词表与多轴传感；做受控 VR 用户研究量化感知真实度与任务效用。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把动作条件触觉合成做进重建 3D 场景，并把 NeRF 体渲染创造性地迁移到时间维。
实验充分度: ⭐⭐⭐⭐ 三数据集、两任务、跨传感器验证齐全，但缺真实人类感知用户研究、部分指标互有取舍。
写作质量: ⭐⭐⭐⭐ 动机链清晰、机制讲透，公式与图配套；个别工程细节（项目页/代码）略含糊。
价值: ⭐⭐⭐⭐⭐ 为 XR、机器人、触觉仿真打开"看→动→感"的端到端可触场景路径，方向开创性强。