AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页（暂无开源代码）
领域: 机器人 / 具身智能
关键词: VLA、触觉反馈、接触密集操作、自适应注入、双流策略

一句话总结¶

AT-VLA 在预训练 VLA（GO-1）上引入一个可学习的触觉门控，只在机器人「接触物体」的瞬间才把触觉信号注入动作专家，避免新模态破坏预训练的视觉定位能力；并用慢视觉流 + 快触觉流的双频解耦实现 0.04s 闭环反应，在拉拉链、盖章、擦花瓶、拧瓶盖等真实接触密集任务上把平均成功率从 vanilla 的 0.22 提到 0.50。

研究背景与动机¶

领域现状：Vision-Language-Action（VLA）模型把视觉感知、语义推理和动作生成统一进一个框架，借助大规模操作数据集和基础模型，已经能让机器人把语言指令落到感知、完成多样化任务。主流做法（如 π0、GO-1）用 VLM 输出作为条件、再用扩散/flow matching 的动作专家生成动作块。

现有痛点：这类模型在「接触密集（contact-rich）」任务上仍然吃力——拉拉链、拧盖子这类任务需要精确的物理交互力反馈，而纯视觉-语言的 VLA 看不到接触力，经常拉链卡住、盖章把末端撞到桌面、擦花瓶撞到瓶颈。为了补这一课，已有工作在下游微调阶段直接把触觉模态塞进来，让模型去「读懂」触觉信号（多模态对齐 / CoT 推理）。

核心矛盾：触觉信号和预训练用的视觉/语言数据本质上是不同类型的信息，预训练阶段几乎从没见过。作者做了一个关键实验：把触觉 token 直接拼进动作专家全程参与，结果不但没涨，反而连抓取定位都变差了——注意力图显示触觉输入把模型的注意力从目标物体推向了周围区域（详见 Tab.3 的 Ex1 比 Ex0 还低 9%）。也就是说，新模态会破坏预训练的感知聚焦。另一个矛盾是 VLA 推理本来就慢，跟不上高频触觉反馈，导致闭环调整不及时。

本文目标：① 在不破坏预训练能力的前提下融入触觉；② 让模型对高频触觉反馈做出实时、准确的动作调整。

切入角度：视觉和触觉是互补的——视觉负责上下文定位，触觉负责精确接触反馈。那就应该让模型在「非接触阶段」保持 vanilla VLA 的行为（吃视觉），只在「接触发生时」才引入触觉，这样能最大限度复用预训练表征。

核心 idea：用一个可学习的「触觉门控」动态决定何时何地注入触觉（Adaptive Tactile Injection），并用慢视觉流 + 快触觉流的双频解耦让触觉反应跑进 0.04s 闭环。

方法详解¶

整体框架¶

AT-VLA 以预训练的 GO-1 为 vanilla VLA（InternVL-2B 作 VLM、DiT 作动作专家），额外挂一个轻量 MLP 触觉编码器。策略 $\pi_\theta$ 的输入是三路相机图像 $I=\{I_h, I_r, I_l\}$、语言指令 $L$、触觉反馈 $T$（从触觉传感器提取的合力，含 3D 法向 + 3D 切向分量）、本体状态 $S$，输出是双臂 14-DoF 末端位姿的动作块 $A=\pi_\theta(I,L,T,S)$。

整条流水线的关键在两个「开关行为」：先由触觉门控判断当前是否接触；门控关闭时，模型的输入和结构跟 vanilla VLA 完全一致（不碰预训练表征）；门控打开后，自适应交叉注意力把动作专家的 query 从状态 token 切换成触觉 token，同时反应双流让触觉以 3:1 的高频被处理、视觉-语言以低频更新，外加一个触觉生成目标预测下一刻接触力来强化物理动态理解。三者一致地围绕「只在接触时、以最小侵入注入触觉」这条主线。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>图像 I + 指令 L + 触觉 T + 状态 S"] --> B["触觉门控<br/>MLP 打分判断接触/非接触"]
    B -->|"score≤0.5 非接触"| C["自适应交叉注意力<br/>query=状态token，等同 vanilla VLA"]
    B -->|"score>0.5 接触"| D["自适应交叉注意力<br/>query 切换为触觉token"]
    D --> E["反应双流<br/>慢视觉流低频 + 快触觉流高频(3:1)"]
    E --> F["触觉生成<br/>预测下一刻 6D 接触力"]
    C --> G["动作专家(DiT)<br/>生成 14-DoF 动作块"]
    F --> G

关键设计¶

1. 自适应触觉注入：用门控决定「何时」注入，避免新模态污染预训练表征

这是针对「直接塞触觉反而把注意力从目标物体带偏」这个痛点。作者拆成两步。第一步是触觉门控（Tactile Gating）：触觉编码器先把触觉信号编成 token $z_T$，再过一个轻量门控网络（MLP）输出一个接触分数。监督方式是人工把训练 episode 的每一帧标 0（非接触）/ 1（接触），用二元交叉熵门控损失 $L_g$ 训练；当分数超过阈值（如 0.5）门控就激活。这样模型自动学会「机器人碰到物体了」这个时刻。

第二步是自适应交叉注意力（Adaptive Cross Attention），解决「门控两种状态下动作专家结构要统一」的问题。vanilla VLA 的动作专家交叉注意力里，图像 token $z_I$ 和文本 token $z_L$ 当 key/value，状态 token $z_S$ 当 query。AT-VLA 的巧妙之处是只换 query 来源：门控未激活时 query 仍是状态 token（输入和结构与 vanilla VLA 完全相同，预训练表征零扰动）；门控激活时 query 被替换成触觉 token $z_F$。整个过程不改模型结构、不改特征维度，所以非接触阶段保留了强视觉定位能力（如靠近目标物体），接触阶段才开始把触觉当成动作生成的条件。

2. 触觉反应双流：用慢-快双频解耦实现 0.04s 闭环，跟上高频触觉

针对「VLA 推理慢、跟不上高频触觉」的痛点。作者把感知处理拆成两条不同频率的流：慢流用大 VLM 低频处理视觉+语言，负责任务理解和视觉感知，输出潜在特征当动作专家交叉注意力的 key/value；快流高频处理触觉反馈，当交叉注意力的 query 条件。也就是动作专家的输入是「异步频率 + 异构模态」。

具体地，基于动作分块策略，时刻 $t_n$ 的视觉-语言观测可以指导未来 $H$ 步动作 $(t_n{:}t_{n+H})$，所以慢流输出在接下来 $H$ 步内当作时间上的潜在条件；快流则在每一步用最新的触觉反馈 $t_{n+k}\,(0<k<H)$ 生成可执行动作，同时条件在周期性更新的慢流输出上。训练时快慢流频率比随机设为 $h{:}1\,(1<h<H)$，推理时固定 3:1（慢流推一次、快流连推三次），在效率和性能间取平衡，把闭环反应压进 0.04s。门控未激活时快慢流同频，等同 vanilla VLA。

3. 触觉生成：预测下一刻接触力，逼模型真正理解物理动态

光会「读」当前触觉还不够，作者想让快流对触觉有更深的预测性理解。于是加一个触觉生成（Tactile Generation）辅助目标：从动作专家之后取触觉 token，过一个轻量解码器，预测下一时刻的 3D 法向力 + 3D 切向力，用 MSE 生成损失 $L_r$ 对齐真实触觉测量。这逼模型建立更完整的物理动态表征，把「瞬时接触感知」和「预测式交互推理」桥接起来——消融里它带来 4% 提升。

损失函数 / 训练策略¶

所有目标同时训练，总损失为 $$L = L_a + \lambda_1 L_g + \lambda_2 L_r,$$ 其中 $L_a$ 是动作损失、$L_g$ 是门控二元交叉熵损失、$L_r$ 是触觉生成 MSE 损失，$\lambda_1=\lambda_2=0.01$ 用来平衡不同损失的量纲。推理时门控未激活则完全等同原始 VLA（快慢流同频、query 同 vanilla）；门控激活则启动 3:1 异步频率、query 切换为触觉 token。

实验关键数据¶

硬件用 AgiBot Genie1（双 7-DoF 臂 + 前视 + 双腕相机），触觉用 Xense Robotics 的带触觉传感器夹爪。评测 4 个接触密集任务（拉拉链、盖章、擦花瓶、拧瓶盖）+ 2 个非接触任务（抓放、开抽屉），每任务采 30-50 条示范、测 15 次。

主实验：接触密集任务成功率¶

报告各子阶段成功率，Overall 为整任务成功率。

任务	指标	GO-1（vanilla）	π0.5	AT-VLA（本文）
Unzip Bag	Overall	0.20	0.0	0.33
Stamp	Overall	0.33	0.20	0.46
Wipe Vase	Overall	0.07	0.33	0.33
Unscrew Lid	Overall	0.27	0.47	0.46

AT-VLA 在接触前的抓取阶段和 GO-1/π0.5 相当（说明预训练的视觉定位没被破坏），接触阶段全面超过它们；对比同样用触觉的 VTLA/RDP 也更好。唯一略逊的是拧瓶盖——因为对 VTLA/RDP 作者人工把机器人摆到理想抓握姿态，而 AT-VLA 是端到端抓取，偶尔夹不够紧导致打滑。

消融实验：逐组件贡献（4 个接触密集任务平均）¶

配置	平均成功率	说明
Ex0 Vanilla VLA	0.22	GO-1 基线，无触觉
Ex1 + 自适应交叉注意力（直接注入触觉，无门控）	0.13	比基线还低 9%，抓取定位变差
Ex2 + 触觉门控	0.39	比基线 +17%，门控保住了预训练知识
Ex3 + 触觉生成	0.43	比 Ex2 再 +4%
Ex4 + 反应双流（完整模型）	0.50	比 Ex3 再 +7%，高频反应必要性

模态无关鲁棒性¶

方法	Pick Place	Open Drawer	Stamp	AVG
GO-1	1.0	0.93	0.13	0.68
π0.5	1.0	0.93	0.20	0.70
AT-VLA w/o.（推理不给触觉）	1.0	0.93	0.20	0.70
AT-VLA w/.（推理给触觉，上界）	1.0	0.93	0.46	0.79

关键发现¶

门控是性能的命门：Ex1（直接注入、无门控）比 vanilla 还低 9%，加了门控（Ex2）反而 +17%——证实「不分场景全程注入触觉」会污染预训练表征，而「只在接触时注入」才是正解。
训练带触觉、推理不带触觉也能涨：AT-VLA w/o. 在 Stamp 上（0.20）甚至略高于 GO-1（0.13），因为训练时学到了接触动态和跨模态关联，测试时能从视觉隐式推断触觉线索；这对真实场景里传感器失效/缺失非常重要。
触觉格式越低维越稳：对比 6D 力 / 2D marker / 视觉-触觉图像，6D 力最好。作者推测高维触觉输入会引入更多 token、过度扰动预训练表征空间——再次印证「新模态影响要和预训练保持适当平衡」这条主线。直接注入下三种格式（Ex1/Ex5/Ex7）都掉点，而本文方法下 Ex6 比 Ex5 高 27%、Ex8 比 Ex7 高 38%，说明框架对触觉格式鲁棒。

亮点与洞察¶

「只换 query 不改结构」是真的优雅：自适应交叉注意力靠切换 query 来源就实现了「非接触=零侵入、接触=融触觉」，不增加 token 序列、不改维度，完美保住预训练 token 序列建模——这正是对比那些「拼接触觉 token」工作的核心差异点。
把 VLA 的双系统范式用在触觉上：以往双流把视觉/点云当快流，本文第一次把高频触觉当快流，天然契合接触事件需要快反应、更安全的物理交互。
门控 + 帧级标注是低成本可复用 trick：用人工标 0/1 接触帧 + BCE 训一个轻量门控，就能让模型自动识别接触时刻，这套「学习触发时机」的思路可迁移到其他「只在特定时刻才需要某模态」的多模态任务。

局限与展望¶

门控依赖人工接触帧标注：每条示范都要逐帧标 0/1 接触标签，扩展到更多任务/更大数据有成本。
抓握稳定性是短板：拧瓶盖任务略逊于被「人工摆好理想抓姿」的基线，暴露端到端抓取偶尔夹不紧、打滑的问题——说明 AT-VLA 改善的是接触阶段反应，而非抓握本身的力闭环。
全在真实机上小样本验证：每任务仅 30-50 条示范、15 次测试，任务种类有限；作者也承认未来要扩到更复杂任务和更多样真实环境。
3:1 频率比是经验设定：快慢流频率比靠经验取，不同任务的最优比值是否一致、能否自适应未探究。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「换 query 不加 token」的自适应注入 + 触觉当快流的双频解耦，首次平衡预训练知识与触觉学习
实验充分度: ⭐⭐⭐⭐ 真实机 6 任务 + 完整组件消融 + 触觉格式对比 + 模态无关评测，但每任务样本/试次偏少
写作质量: ⭐⭐⭐⭐ 动机推导清晰、消融逐行可追，框架图和符号略密
价值: ⭐⭐⭐⭐⭐ 给「如何把新模态安全注入预训练 VLA」提供了可复用范式，对接触密集操作落地很实用