SemanticVLA: Towards Semantic Reasoning over Action Memorization via Synergistic Explicit Trace and Latent Action Planning¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 具身智能 / VLA
关键词: 视觉-语言-动作, 显式轨迹推理, 隐式动作 token, VQ-VAE, 流匹配

一句话总结¶

SemanticVLA 用「显式轨迹推理 + 隐式动作 token」双路设计，把 VLM 原生的空间 grounding 能力真正用起来去做机器人操作，在 LIBERO 上拿到 97.0% 成功率、SimplerEnv WidowX 上 65.1%，并且在指令改写、长程与推理密集任务上比基线稳得多。

研究背景与动机¶

领域现状：VLA（Vision-Language-Action）的主流范式是「双系统」——预训练 VLM 当 System 2 做高层推理，下游的 action expert（扩散 / 流匹配）当 System 1 做低层电机控制，两者之间用 VLM 吐出的 latent embedding 来对接。

现有痛点：作者观察到当前 VLA 有一个尴尬的脆弱性——它们能完成「把海绵放到 5 号卡片上」这种直白指令，却在语义等价但表述不同的「把海绵放到白板上数学题的答案处」上崩掉。也就是说，模型其实是在记动作模式，而不是真在理解语义。指令一改写就掉点，遇到需要推理的任务更是急剧下滑。

核心矛盾：这种脆弱来自两个结构性问题。其一，action loss 的梯度反传穿过 VLM 参数，会把 VLM 优化成「针对具体任务做模式匹配」，破坏掉它本来的组合式理解能力；其二，VLM 和 action expert 之间靠的是没有显式监督的不透明 latent embedding，在纯动作监督下这些表示会迅速漂向「拟合动作」，把预训练好的基础模型退化成一个参数很重的融合编码器。已有的两条补救路线各有取舍：co-training（混入通用多模态数据）能"保住"推理能力却无法真正"用起来"；latent action 方法注入语义却又有记忆动作模式的风险。

本文目标 + 切入角度：作者要设计一个真正调用 VLM 原生推理、同时又能给 action expert 稳定且语义 grounded 引导的接口。关键观察是：轨迹（trace）预测天然契合 VLM 的空间 grounding 能力——把"末端执行器要往哪走"显式写成坐标序列，正好复用 VLM 在视觉-语言预训练里学到的空间定位，相当于给操作规划一个可解释的"思考过程"。

核心 idea：用「显式轨迹推理」(走哪里，可解释但对数值敏感) 和「隐式 latent action token」(怎么操作，视觉 grounded 但抽象) 两条互补路径协同——轨迹给 latent 提供空间监督与脚手架，latent 用视觉注意力补偿轨迹的坐标不精确，从而让模型靠语义推理而非动作记忆来工作。

方法详解¶

整体框架¶

SemanticVLA 要解决的是「怎么让 VLM 的推理能力真正传导到机器人动作上，而不是被动作监督带歪」。整条 pipeline 分三个阶段串行：先离线把「轨迹 → 隐式动作 token」的语义词表训练好（不碰语言、不碰动作），再让 VLM 同时学会预测显式轨迹坐标和这些 latent token（这一步不需要真实动作标签），最后才接上 action expert 用流匹配把离散表示解码成连续动作 chunk。贯穿始终的原则是：VLM 只通过「结构化轨迹坐标 + 紧凑 latent token」给出干净的语义引导，绝不直接暴露在原始动作监督下，以免推理能力被腐蚀。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["观测 Ot + 指令"] --> B["语义 Latent Action Tokenizer<br/>两阶段 VQ-VAE：轨迹几何 + 视觉 grounding"]
    B -->|预训练得到 latent 词表| C["VLM 双路协同训练<br/>显式轨迹坐标 + 隐式动作 token"]
    C -->|无需真实动作标签| D["流匹配动作解码<br/>双路条件 eτ + Ea + Ev"]
    D --> E["连续动作 chunk a_t:t+H"]

整张图自上而下就是「输入 → 三个贡献阶段 → 输出动作」，下面三个关键设计正好对应中间三个贡献节点。

关键设计¶

1. 语义 Latent Action Tokenizer：用轨迹而非语言来 grounding 紧凑动作 token

痛点很直接：现有 latent action token 要么从原始动作学（缺操作语义）、要么从视觉重建学（把任务无关的外观变化也缠进去），用语言来注入语义（如 UniVLA）又会过拟合到具体措辞、且轨迹级描述去条件 token 级表示存在时间错位。作者的洞察是——轨迹是天然更好的条件锚点：每段轨迹和它对应的动作窗口在时间上严格对齐，而且轨迹是几何不变量，换一种语言说法它依然稳定，本身就用空间结构编码了操作语义。

具体用两阶段 VQ-VAE。第一阶段只在坐标序列上做几何抽象：给定轨迹 \(\tau=(p_1,\dots,p_L)\)、\(p_i=(u_i,v_i)\in[0,1]^2\)，用带时序卷积的编码器 \(\phi^{trace}_{enc}\) 抽特征再量化 \(q_{trace}=\arg\min_k\lVert z_{trace}-c^{trace}_k\rVert^2\)，重建损失让码本学到「抓取弧线、放置动作」这类对外观/光照/布局不变的纯几何基元。第二阶段做视觉 grounding：用 DINOv2 抽观测 \(o_t,o_{t+H}\) 的视觉特征 \(h_{visual}\)，和第一阶段的几何码本项 \(c^{trace}_{q_{trace}}\) 通过 cross-attention 融合，让几何先验动态去注意任务相关的视觉区域、压掉背景噪声，得到最终 latent token \(e_a=c^a_{q_a}\)。为保证它同时保留几何结构和视觉语义，用双重重建监督：轨迹解码器 \(\phi^{spatial}_{dec}\) 保几何精度、视觉解码器 \(\phi^{visual}_{dec}\) 保语义理解，两个解码器预训练后都丢弃。整体目标 \(\mathcal{L}_{LAT}=\mathcal{L}^a_{vq}+\mathcal{L}^{trace}_{recon}+\mathcal{L}^{visual}_{recon}\)。这种「先纯几何、再视觉落地」的顺序设计，让 token 既知道「往哪动」（几何先验）又知道「怎么操作」（视觉特征），全程不靠语言，避免了语言变异性偏差。

2. VLM 双路协同训练：显式轨迹与隐式 token 互补强化，且不碰真实动作

有了 token 词表后，要让 VLM 把两条路径串起来。这一步的关键是两条路径互补：轨迹复用 VLM 预训练的空间理解做可解释规划，latent token 提供紧凑、视觉 grounded 的执行表示来补偿轨迹的数值敏感。整个协同阶段不需要真实机器人动作，监督完全来自空间轨迹和预训练好的 latent 词表。

轨迹这一路沿用 MolmoAct 的做法，把轨迹当成归一化 2D 坐标序列、用 VLM 的原生语言接口当文本 token 自回归生成：\(p(\tau\mid o_t,\ell_t)=\prod_{j=1}^L p(p_j\mid o_t,\ell_t,\tau_{<j})\)，交叉熵损失 \(\mathcal{L}_{trace}\) 监督。这相当于把空间规划显式摊开成"思考过程"，不需要改动任何架构。latent 这一路则给 VLM 词表扩充一组特殊 token \(\{\text{ACT}\_1,\dots,\text{ACT}\_K\}\) 索引进预训练码本，在生成完轨迹后再自回归预测一串 latent 动作 token 做 action chunking：\(p(q_{1:N}\mid o_t,\ell_t,\tau)=\prod_{i=1}^N p(q_i\mid o_t,\ell_t,\tau,q_{<i})\)。总损失 \(\mathcal{L}_{VLM}=\mathcal{L}_{trace}+\mathcal{L}_{latent}\)。这样轨迹给 VLM 的空间推理提供显式目标，latent token 又通过对任务相关上下文的视觉注意力补偿轨迹坐标不精确，反过来轨迹脚手架又帮 latent 过滤视觉变化、聚焦到操作相关区域——双向受益，且只用很小的词表扩充就保住了 VLM 能力。

3. 流匹配动作解码：双路条件融合，弱正则保护 VLM 不退化

VLM 产出的是离散 latent token 索引 \(q_{1:N}\) 和显式轨迹坐标 \(\tau\)，但机器人执行需要连续动作 chunk \(a_{t:t+H}\in\mathbb{R}^{H\times D}\)，这一步用轻量流匹配解码器搭桥。它同时吃两条路径的条件：latent 这边取 VLM 最后一层关于 token 的隐状态 \(E_a=\{h_{q_1},\dots,h_{q_N}\}\)（编码了对视觉、空间规划、语言的多模态推理）；轨迹这边把预测坐标 \(\tau\) 过冻结的轨迹编码器 \(\phi^{trace}_{enc}\) 得到 \(e_\tau\)（抽出对视觉外观不变的纯空间-时序动态）。解码器对带噪动作 \(a_t\) 在去噪时刻 \(t\in[0,1]\) 做 \(v_\theta(a_t,t,e_\tau,E_a,E_v)\to a_{t:t+H}\)，其中 \(e_\tau\) 给几何引导、\(E_a\) 给语义 grounding、\(E_v\) 给视觉上下文，通过 cross-attention 预测速度场迭代去噪生成动作。

最后阶段端到端微调，目标 \(\mathcal{L}_{finetune}=\lambda_{VLM}\mathcal{L}_{VLM}+\mathcal{L}_{flow}\)。这里 \(\lambda_{VLM}\) 是弱监督——它的作用是保住协同阶段建立的双路推理、防止 VLM 在动作微调中退化成"拟合动作"。同时 VLM 上用 LoRA 微调、流解码器从头全量训练，既让 VLM 保留高层空间推理、又让解码器专注低层电机控制。这个弱正则是和「不让动作梯度污染 VLM」这一全局原则一脉相承的。

损失函数 / 训练策略¶

三阶段训练对应三个设计：Stage 1 在 TraceX-240K 上预训练语义 latent tokenizer 5 万步（batch 512），学干净几何基元；Stage 2 在同数据上协同训练 VLM 联合预测轨迹与 latent token 10 万步（batch 256），不解码动作；Stage 3 在下游 benchmark 上端到端微调，开启流匹配解码并用弱正则保护 VLM。VLM backbone 从 Prismatic-7B 初始化（沿用 UniVLA，集成 SigLIP + DINOv2 + LLaMA-2），全程 16 张 H200。数据上自建 TraceX-240K——从 Open X-Embodiment（Bridge V2 / Fractal / BC-Z）和 DROID 收 24 万条机器人轨迹，用 Molmo-72B 采关键帧做轨迹标注、CoTracker 插值得到稠密时间对齐的轨迹序列。

实验关键数据¶

主实验¶

LIBERO（Franka）和 SimplerEnv WidowX 两个仿真套件上，SemanticVLA 双榜第一：

基准	指标	SemanticVLA	次优	提升
LIBERO	平均成功率	97.0	UniVLA 95.2	+1.8
LIBERO-Long	长程成功率	94.4	UniVLA 92.0	+2.4
SimplerEnv WidowX	平均成功率	65.1	MolmoAct 51.4	+13.7
WidowX Put Spoon	成功率	83.6	MolmoAct 70.3	+13.3

真实 Franka 机器人上，覆盖长程组合任务（备餐、桌面分拣）与推理密集任务（数学计算、拼单词），共 62.3% 平均成功率，大幅领先：

模型	长程·备餐	长程·分拣	推理·数学	推理·拼词	平均
OpenVLA	16	10	6	3	8.8
UniVLA	47	41	27	16	32.8
MolmoAct	59	47	36	19	40.3
π0	63	54	43	32	48.0
SemanticVLA	77	69	58	45	62.3

消融实验¶

LIBERO 指令改写下隔离轨迹引导预训练的作用（图 6 训练曲线）：

配置	latent 预测准确率	改写后成功率	说明
完整 SemanticVLA	93.6%	87.6%	双路完整
w/o 显式轨迹	85.6%	79.2%	直接从 VLM embedding 预测 latent，掉 8.4 个点
UniVLA latent	—（差 >12%）	71.3%	无轨迹监督的 latent，差距 >12%

真机三种泛化轴（视觉扰动 / 任务变化 / 语言改写）下验证 latent 反过来稳定轨迹执行（图 7）：

配置	语言改写成功率	说明
完整 SemanticVLA	56	完整双路
w/o latent action planning	48	去掉 latent 这一路
MolmoAct	33	扩词表加原始动作 token，腐蚀语言能力
HAMSTER	30	直接条件原始坐标，误差累积

关键发现¶

轨迹引导预训练是 latent 语义的关键来源：在都不用显式轨迹推理的受控对比里，本文 latent 比 UniVLA latent 准确率/成功率高出 >12%，说明轨迹监督给码本注入了更丰富的语义 grounding，几何脚手架充当强归纳偏置过滤掉任务无关变化。
两条路径真的互补：去掉显式轨迹，改写鲁棒性从 87.6% 掉到 79.2%（轨迹帮区分"真理解 vs 记模式"）；去掉 latent，语言改写从 56 掉到 48（latent 帮稳定轨迹的数值敏感）。
指令改写鲁棒性最强：SemanticVLA 在 LIBERO 改写下仅掉 9.4%，而 OpenVLA 掉 18.4%、UniVLA 掉 23.9%；具备显式推理的 MolmoAct 掉 11.9%，印证"显式推理机制提升语言泛化"。
把动作 token 塞进 VLM 词表会伤推理：MolmoAct 那种扩词表加原始动作 token 的做法，会因梯度干扰退化语言能力——这正是本文坚持"latent token + 流匹配解码器做模态分离"的实验依据。

亮点与洞察¶

用轨迹当 latent action 的"重建目标"是点睛之笔：以往要么用语言注入语义（有变异偏差）、要么纯视觉重建（缠入外观），轨迹作为精确几何载体，天然同时给了语义 grounding 和视觉对齐，还和动作窗口时间严格对齐——一个表示替掉了两类缺陷。
"显式可解释 + 隐式鲁棒"的互补范式可迁移：显式坐标负责"可解释、复用 VLM 推理"，隐式 token 负责"视觉 grounded、抗数值噪声"，这种「一条路解释、一条路兜底」的双路设计思路，可以搬到其他需要可解释中间表示又怕中间表示脆弱的任务（如导航 waypoint、规划草图）。
"不让动作梯度碰 VLM"贯穿全设计：从三阶段把动作解码隔离到最后、到 \(\lambda_{VLM}\) 弱正则、再到 LoRA + 从头训解码器的分工，整套工程都在守一条原则，逻辑非常自洽。

局限与展望¶

依赖 TraceX-240K 的轨迹标注质量，作者自己也承认目前用 Molmo-72B 均匀采关键帧 + CoTracker 插值，"更语义化的关键帧提取"可进一步提升标注质量——⚠️ 即标注 pipeline 还有改进空间，轨迹质量会直接影响下游。
轨迹是 2D 归一化坐标，对需要精细 3D / 深度推理的操作是否够用、对相机视角变化是否稳健，文中主要靠 DINOv2 视觉 grounding 间接补偿，缺直接的 3D 评测。
训练成本不低（16×H200，三阶段共 15 万步预训练 + 协同），latent 词表大小 \(K\)、动作 chunk 长度等超参的敏感性文中未充分展开。
真机评测每任务 20 rollouts / 5 变体，规模有限；推理密集任务（数学、拼词）虽领先，但 45%~58% 的绝对成功率离实用仍有距离。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「显式轨迹 + 隐式 latent」双路互补、并用轨迹当 latent 重建目标，切入角度新且自洽
实验充分度: ⭐⭐⭐⭐⭐ 两个仿真套件 + 真机 + 指令改写鲁棒性 + 双向消融，证据链完整
写作质量: ⭐⭐⭐⭐ 动机与三阶段逻辑清晰，但部分符号（多个 VQ-VAE 编解码器）密集，初读略费力
价值: ⭐⭐⭐⭐⭐ 直指 VLA"记模式而非推理"的痛点，方法与 TraceX-240K 数据集都有复用价值