ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning¶

会议: CVPR 2026
arXiv: 2603.04265
代码: Project Page
领域: 图学习
关键词: 过程规划, 可微Viterbi, 过程知识图, 教学视频, 结构感知训练

一句话总结¶

将过程知识图（PKG）通过可微Viterbi层端到端嵌入规划模型，使神经网络只需学习发射概率而非记忆完整过程结构，在CrossTask/COIN/NIV上以仅5-7M参数（比扩散/LLM方法少1-3个数量级）达到SOTA成功率，并建立了统一的评估基准。

研究背景与动机¶

领域现状：视频过程规划是给定起始和目标视觉状态，预测中间动作序列的任务，是构建可穿戴AI助手等应用的核心能力。现有SOTA方法包括基于扩散模型（PDPP、KEPP、MTID，约42M-1B参数）、基于LLM（PlanLLM，约385M参数）和基于Transformer（SCHEMA，约6M参数）的架构。

现有痛点：这些方法都将过程知识隐式编码在网络参数中，需要从大量数据中学习复杂的过程结构（如"放底层面包→加火鸡→加生菜→放顶层面包"的合理顺序），导致：(1) 数据效率低——需要大量训练样本来记忆过程规则；(2) 计算成本高——需要越来越复杂和庞大的模型；(3) 泛化有限——在短于训练时的规划长度上表现急剧下降。

核心矛盾：人类在进行过程规划时并非从零推理，而是将内在的过程知识（动作先验、前置条件、典型顺序等）自然融入规划过程。然而现有方法即使使用了过程知识图（PKG），也仅将其作为推理时的后处理解码器，训练过程中模型仍然无法感知过程结构。

本文目标：如何将过程知识图从推理后处理上升为训练时的引导信号，让结构化先验直接参与端到端优化。

切入角度：将过程规划建模为隐马尔可夫模型（HMM）中的最优状态序列解码问题，用Viterbi算法求解。关键创新是将Viterbi中不可微的max和argmax操作替换为可微的log-sum-exp和softmax松弛，使梯度可以从规划损失流回视觉编码器。

核心 idea：不让网络记忆过程，只让它学习"当前视觉状态与各动作的匹配度"（发射概率），过程的合理顺序由知识图保证——可微Viterbi层使得这种分工可以端到端训练。

方法详解¶

整体框架¶

ViterbiPlanNet的核心想法是把"过程该怎么走"和"当前画面像哪个动作"这两件事彻底拆开，前者交给一张固定的过程知识图，后者才是神经网络要学的。给定起始帧和目标帧，模型先用冻结视觉骨干加可学习投影把两端视频片段编码成向量 \(v_s^{enc}, v_g^{enc} \in \mathbb{R}^E\)，再经一个Transformer编码器加MLP加Sigmoid预测出发射矩阵 \(b \in \mathbb{R}^{T \times N}\)——它逐步、逐动作地打分"第 \(t\) 步看到的画面有多像动作 \(j\)"（\(T\) 为规划步数，\(N\) 为动作总数）。真正决定动作顺序的不是网络，而是一个可微Viterbi层：它以过程知识图的转移概率为固定参数、以发射矩阵为输入，沿时间轴解码出软规划 \(\tilde{\pi} \in [0,1]^{T \times N}\)。关键在于这个解码层全程可微，规划损失的梯度能一路回传到视觉编码器，使整套系统端到端训练。下面三个设计——概率图建模、过程知识图、可微Viterbi层——正是这条思路从形式化到落地的三块拼图。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["起始帧 + 目标帧"] --> B["冻结视觉骨干 + 可学习投影<br/>编码为 v_s, v_g"]
    B --> C["发射网络<br/>Transformer + MLP + Sigmoid"]
    C --> D["发射矩阵 b（T×N）<br/>第 t 步画面像动作 j 的打分"]
    P["过程知识图 PKG<br/>共现统计估转移边权，零参数"] --> E
    D --> E["可微Viterbi层 DVL<br/>S-max / S-argmax 松弛，全程可微"]
    E --> F["软规划 π̃（T×N）"]
    F -->|训练| G["规划损失梯度经 DVL 回传至发射网络"]
    F -->|推理| H["标准硬 Viterbi<br/>取出离散动作序列"]

关键设计¶

1. 概率图建模：把规划写成 HMM 的最优序列解码

现有方法把"动作的合理顺序"和"画面与动作的对应"混在一张网络里隐式学习，既费数据又费参数。本文先把问题严格形式化为隐马尔可夫模型：假设动作只依赖前一步（马尔可夫性 \(P(a_t \mid a_{t-1})\)），整条规划的联合概率就分解为

\[P(\pi = a_{1:T} \mid v_{0:T}) \propto \prod_{t=1}^{T} P(a_t \mid a_{t-1}) \cdot P(v_t \mid a_t),\]

其中转移项 \(P(a_t \mid a_{t-1})\) 描述过程结构、发射项 \(P(v_t \mid a_t)\) 描述视觉匹配。最优规划就是让这个乘积最大的动作序列。这一步的价值在于它把规划干净地切成两半：转移由外部知识图固定提供，神经网络只需负责发射这一半，学习目标因此大幅简化。

2. 过程知识图（PKG）：让结构先验显式化、零参数

既然转移这一半不该让网络去背，就把它做成一张外挂的图 \(\mathcal{G} = (\mathcal{V}, \mathcal{E}, \omega)\)：节点 \(\mathcal{V}\) 是动作集合，有向边 \(\mathcal{E}\) 表示合法转移，边权 \(\omega(i,j)\) 直接由训练集里动作 \(i \to j\) 的共现统计估计，每个数据集单独建一张图。这张图不含任何可训练参数，却提供了可靠的顺序先验——"放底层面包→加火鸡→加生菜→放顶层面包"这种典型顺序被直接编码进边权，网络再也不用从数据里反复记忆。这种"显式外挂"比隐式编码高效得多：消融显示同一张PKG接到本方法上能带来 +5.98% SR，而接到SCHEMA做后处理只有 +3.31%、接到KEPP做条件化只有 +2.56%。

3. 可微Viterbi层（DVL）：让经典解码算法能回传梯度

有了HMM形式和PKG，求最优序列本应直接套Viterbi算法，但它的 max 与 argmax 操作梯度处处为零，训练信号根本传不回视觉编码器。DVL的做法是把这两个硬操作换成平滑版本：max 换成 S-max（log-sum-exp 松弛），argmax 换成 S-argmax（softmax 松弛）。每个时间步先算各前驱的得分 \(s_{i \to j}^{(t)} = \delta_{t-1}(i) \cdot \omega(i,j)\)（前一步的累积分数乘以PKG里的固定转移概率），再更新状态分数

\[\delta_t(j) = b[t,j] \cdot \text{S-max}\big(\{s_{i \to j}^{(t)}\}\big),\]

同时用 \(\boldsymbol{\psi}_t(j, \cdot) = \text{S-argmax}(\{s_{i \to j}^{(t)}\})\) 记下一组软回溯指针，沿时间递归组合就得到软规划 \(\tilde{\pi}\)。因为整条链路连续可微，规划损失的梯度能流过DVL一路回到发射网络 \(f_{emiss}\)，逼它产出"与过程结构相容"的发射概率——这正是训练时引导（而非推理时后处理）的本质。值得强调的是，DVL本身不带任何可训练参数，它只是把固定的图和网络预测的发射分数按Viterbi的方式组合起来；推理时再用标准（硬）Viterbi从软规划里取出离散动作序列。

损失函数 / 训练策略¶

总损失是三项之和 \(\mathcal{L} = \mathcal{L}_{plan} + \mathcal{L}_{align} + \mathcal{L}_{task}\)。核心监督来自 \(\mathcal{L}_{plan}\)——DVL输出的软规划 \(\tilde{\pi}\) 与ground-truth独热规划之间的MSE，正是它把梯度经DVL压回发射网络。\(\mathcal{L}_{align}\) 是视觉-语义对齐损失，让视觉编码贴近各过程状态的文本描述；\(\mathcal{L}_{task}\) 是任务分类损失，引导编码器保住全局任务语义。每个配置用5个随机种子训练，报告均值与90%置信区间。

实验关键数据¶

主实验¶

数据集	指标	ViterbiPlanNet	SCHEMA	PlanLLM	PDPP	提升(vs次优)
CrossTask T=3	SR↑	38.45±0.32	37.24±0.60	36.84±1.21	36.73±0.59	+1.21±0.69
CrossTask T=3	mAcc↑	63.07±0.17	62.69±0.28	61.56±1.03	61.96±0.59	+0.38
COIN T=3	SR↑	33.99±0.23	32.89±0.61	33.44±0.15	22.37±0.57	+0.55±0.27
NIV T=3	SR↑	32.37±0.96	26.30±1.49	30.00±1.41	26.52±1.56	+2.37±1.63
NIV T=4	SR↑	27.54±0.70	24.39±1.84	23.42±1.40	21.40±0.53	+3.15±1.93

参数量对比：ViterbiPlanNet仅5-7M，vs PDPP 42M，PlanLLM 385M，MTID 1085M。与MTID（1B参数）对比，SR和mAcc接近但mIoU显著更高（T=3: 76.92 vs 69.17），参数减少200倍。

消融实验¶

配置	训练DVL	推理VD	SR↑	mAcc↑	mIoU↑	说明
Base Model	✗	✗	32.47	60.63	82.45	无结构引导
+推理VD	✗	✓	32.99	58.57	82.34	后处理效果微弱
+训练DVL+推理VD	✓	✓	38.45	63.07	83.89	完整方法，+5.98 SR
仅训练DVL	✓	✗	20.05	54.61	76.99	发射概率≠直接预测

关键发现¶

结构感知训练是关键：DVL在训练时引入带来+5.98% SR提升，远超推理时添加VD（+0.52%）或DVL（-0.38%）
PKG利用效率对比：ViterbiPlanNet从PKG获益最大（+5.98%），远超SCHEMA（+3.31%后处理）、KEPP（+2.56%条件化）、PlanLLM（+1.97%后处理）
样本效率优势：在仅用20%训练数据时，ViterbiPlanNet已超过SCHEMA用100%数据的表现
跨长度泛化强：在T=6训练、T=3测试的cross-horizon实验中，ViterbiPlanNet SR达27.77%，比次优SCHEMA（16.12%）高11.65个点
LLM/VLM基线（包括Gemini 2.5 Pro和Qwen3-30B）表现远不及训练方法，简单PKG beam search就能超过大多数LLM/VLM

亮点与洞察¶

思路极其简洁深刻：将复杂的规划问题分解为"视觉匹配"和"过程知识"两部分，让网络只学简单的发射概率，结构由知识图保证
可微动态规划的应用非常优雅，将经典算法与深度学习无缝结合，DVL不引入任何额外参数
建立并开源了统一评估基准，解决了该领域长期存在的数据分割和度量不一致问题，5种子+bootstrap置信区间的实验规范值得推广
跨长度泛化能力（cross-horizon consistency）是方法论上的重要贡献，证明结构化先验带来的是真正的泛化而非记忆

局限与展望¶

PKG质量依赖训练数据的动作共现统计，在数据稀缺或分布偏移的场景下可能不准确
仅处理离散动作空间，无法直接应用于连续控制任务
软近似在极长序列（T>6）时精度可能下降，论文主要报告T=3,4的结果
HMM的马尔可夫假设限制了对长程依赖的建模，虽然PKG部分缓解了这一问题
需要预先定义动作分类名称和构建PKG，非完全端到端的设定

评分¶

新颖性: ⭐⭐⭐⭐⭐ 可微Viterbi层的设计理念原创且深刻，将训练时的结构引导与推理时的后处理做出了本质区分
实验充分度: ⭐⭐⭐⭐⭐ 3数据集、统一评估基准、5种子bootstrap、LLM/VLM基线对比、跨长度泛化、样本效率分析，极其全面严谨
写作质量: ⭐⭐⭐⭐⭐ 概率框架的推导清晰自洽，问题建模→可微化→实验验证的逻辑链非常完整
价值: ⭐⭐⭐⭐ 方法论贡献突出，可微动态规划的范式有望推广到其他需要结构先验的序列预测任务