Decomposed On-Policy Distillation for Vision-Language Reasoning: Steering Gradients for Visual Grounding¶

会议: ICML2026
arXiv: 2606.00564
代码: https://github.com/hee-suk-yoon/Decomposed_OPD
领域: 多模态VLM / LLM推理
关键词: 在线蒸馏, 视觉接地, 梯度正交, 视觉梯度引导, VLM 推理

一句话总结¶

作者把多模态在线蒸馏的 KL 损失沿贝叶斯链拆成"语言先验"和"视觉接地"两个子目标，发现两者梯度近乎正交、标准蒸馏只是被动取平分，提出 Visual Gradient Steering（VGS）主动把更新方向偏向视觉子空间，在 Qwen3-VL 8B→2B/4B 七个多模态推理基准上平均提升 +2.37%/+1.56%。

研究背景与动机¶

领域现状：小模型获取推理能力的两条主流路径是 RLVR 和在线蒸馏（On-Policy Distillation）。在线蒸馏由教师模型对学生自己采样的轨迹做 token 级稠密监督，规避了 RLVR 稀疏奖励的冷启动问题，已经在纯文本 LLM 上验证有效。

现有痛点：把在线蒸馏直接搬到 VLM 时，业界要么完全回避（如 Qwen3-VL 显式限制只蒸馏纯文本数据来微调 LLM backbone，放弃视觉对齐），要么粗暴地把多模态条件 KL 当成一个单一目标拟合，导致视觉接地能力得不到充分迁移。

核心矛盾：作者通过 Bayes 分解 \(\log p(\tau\mid I,x)=\log p(\tau\mid x)+\log p(I\mid\tau,x)-\log p(I\mid x)\) 揭示，整体 KL 实际包含"语言先验对齐"与"视觉接地对齐"两个子目标；通过梯度几何分析发现两者在高视觉依赖 token 上几乎正交（视觉依赖最高的第 9 桶里夹角 \(\approx 92^\circ\)），标准单体损失梯度始终保持在两者之间约 \(42^\circ\)~\(50^\circ\) 的折中方向上，相当于一个静态平分线，对真正卡住的视觉子空间投入不足。

本文目标：在不打破语言先验的前提下，主动把优化方向向视觉子空间倾斜，把更新预算花在解决感知歧义而非通用语言建模上。

切入角度：作者提出"非对称成熟假设"——经过预训练 + GRPO 的 VLM 学生其实已经具备较强的语言先验，真正的瓶颈是视觉感知。如果两个梯度本来就正交，那"加权求和"在视觉极端区会被语言项无意义地稀释；显式把更新方向往视觉旋转就是免费的提升。

核心 idea：在标准 KL 之上加一个针对"视觉信息增益"的额外 KL 项 \(\gamma\ell_{\text{Vis}}\)，并对高视觉依赖 token 额外加一个语言保留正则 \(\lambda\ell_{\text{LP}}\)，再用梯度范数归一化常数 \(\eta_{\text{VGS}}(\gamma)\) 保证只改方向不改步长。

方法详解¶

整体框架¶

VGS 沿用在线蒸馏的标准设置：学生策略 \(p_S^\theta\) 在多模态输入 \((I,x)\) 下自采样轨迹 \(\tau\)，教师 \(q_T\)（GRPO 微调过的 8B Qwen3-VL）给出 token 级监督。pipeline 与标准做法的差异只发生在 loss 上：原本是一个 multimodal Reverse KL \(\ell_{\text{Standard}}(\tau)\)，现在变成三项加和 \(\ell_{\text{Standard}}(\tau)+\gamma\ell_{\text{Vis}}(\tau)+\lambda\ell_{\text{LP}}(\tau)\)，并乘以一个梯度范数归一化系数 \(\eta_{\text{VGS}}(\gamma)\)。轨迹采样、模型架构、训练框架、batch 安排都没动，工程复用成本极低。

关键设计¶

目标分解与视觉信息增益构造 \(\ell_{\text{Vis}}\):
- 功能：把单体 KL 拆出一个只关心"视觉接地"的子目标，量化学生与教师在感知层面的差距。
- 核心思路：由 Bayes 链式法则 \(\log p(I\mid\tau,x)=[\log p(\tau\mid I,x)-\log p(\tau\mid x)]+\log p(I\mid x)\)，对教师做同样分解可以构造一个"目标分布"\(q_T^*\)，它保留学生自己的语言先验、把视觉似然替换为教师的：\(q_T^*(\tau\mid I,x)\propto p_S^\theta(\tau\mid x)\cdot q_T(I\mid\tau,x)\)。在 logit 空间这等价于 \(\log q_T^*=\log p_S^\theta(\tau\mid x)+(\log q_T(\tau\mid I,x)-\log q_T(\tau\mid x))-\log Z^*\)，所有量都可由学生 / 教师在多模态 + 纯文本上下文各跑一次前向得到。最终 \(\ell_{\text{Vis}}(\tau)=\frac{1}{|\tau|}\sum_t D_{KL}(p_S^\theta(\cdot\mid\tau_{<t},I,x)\,\|\,q_T^*(\cdot\mid\tau_{<t},I,x))\) 只惩罚学生与教师"视觉信息增益"之间的差距。
- 设计动机：实证显示视觉依赖越高的 token，\(\nabla\ell_{\text{Lang}}\) 与 \(\nabla\ell_{\text{Vis}}\) 夹角从 \(\sim60^\circ\) 单调拉到 \(\sim92^\circ\)。两者既然几何独立，就必须有独立的优化抓手，而不能继续依赖单体梯度被动平均。
Visual Gradient Steering 与范数归一化 \(\eta_{\text{VGS}}(\gamma)\):
- 功能：把标准更新方向显式旋转到视觉子空间，但保持 update step 的模长不变，避免破坏学习率调度。
- 核心思路：令 \(\ell_{\text{VGS}}(\tau)=\ell_{\text{Standard}}(\tau)+\gamma\ell_{\text{Vis}}(\tau)\)，\(\gamma\ge 0\) 是 steering coefficient。为防止 \(\gamma\) 同时放大梯度模长（与学习率耦合），定义 \(\eta_{\text{VGS}}(\gamma)=\|\nabla_\theta\mathcal{L}_{\text{Standard}}\|_2/\|\nabla_\theta\mathcal{L}_{\text{Standard}}+\gamma\nabla_\theta\mathcal{L}_{\text{Vis}}\|_2\) 并应用到整体 loss，使得 steered 梯度的范数始终等于标准梯度范数。实操中作者发现该比值在训练全程稳定，于是直接固定为常数（2B 用 \(\eta=0.41\)，4B 用 \(\eta=0.36\)）以省去动态计算开销。
- 设计动机：把"方向"与"步长"解耦是 multi-task learning 的稳健性原则（参 GradNorm）；否则增大 \(\gamma\) 会同时改变两件事，使消融与 \(\gamma\) 调参彼此污染。
Language Preservation 正则 \(\ell_{\text{LP}}\):
- 功能：在高视觉依赖 token 上把视觉梯度对语言子空间的"负投影"按住，防止 catastrophic forgetting。
- 核心思路：几何分析显示在视觉依赖最极端的桶里，\(\nabla\ell_{\text{Lang}}\) 与 \(\nabla\ell_{\text{Vis}}\) 出现钝角（\(>90^\circ\)），此时纯视觉 steering 会反向拉低语言先验匹配度，训练曲线上观察到 \(\ell_{\text{Lang}}\) 显著发散。作者按 VDS（Visual Dependency Score \(\text{VDS}_t=D_{KL}(q_T(\cdot\mid\tau_{<t},I,x)\,\|\,q_T(\cdot\mid\tau_{<t},x))\)）取 top 30% token 加一个语言 KL 正则 \(\ell_{\text{LP}}(\tau)=\frac{1}{|\tau|}\sum_t \mathbf{1}[\text{VDS}_t>Q_{0.7}]\cdot D_{KL}(p_S^\theta(\cdot\mid\tau_{<t},x)\,\|\,q_T(\cdot\mid\tau_{<t},x))\)，权重 \(\lambda\approx 0.01\) 保守。
- 设计动机：只在真正会"反咬"的少数 token 上保护语言先验，避免对一般 token 加重监督而稀释视觉 steering。

损失函数 / 训练策略¶

最终训练目标为 \(\mathcal{L}_{\text{VGS-LP}}=\eta_{\text{VGS}}(\gamma)\cdot\mathbb{E}_{\tau\sim p_S^\theta(\cdot\mid I,x)}[\ell_{\text{Standard}}(\tau)+\gamma\ell_{\text{Vis}}(\tau)+\lambda\ell_{\text{LP}}(\tau)]\)。所有实验固定 \(\gamma=2.0\)、\(\lambda=0.01\)。教师由 Qwen3-VL-8B-Instruct 在 Vision-SR1-47K 上用 GRPO 训练 2 epoch 得到；学生为 Qwen3-VL-2B/4B-Instruct，强制使用统一 system prompt 把推理链与最终答案分隔开。同样的 loss 也可以无缝挂到 GRPO 训练循环上做 RL+蒸馏混合。

实验关键数据¶

主实验¶

主结果：Qwen3-VL-8B 教师在 Vision-SR1-47K 上蒸馏到 2B / 4B 学生，7 个多模态推理基准的平均 Acc@1（greedy）和 Acc@16（T=1.0）。

设置	Teacher 8B	Standard Distill Acc@1	VGS Acc@1	提升
2B 学生平均（7 benchmark）	61.37	43.74	46.10	+2.37
4B 学生平均（7 benchmark）	61.37	56.64	58.12	+1.56
2B / VisualPuzzles	43.15	28.08	31.76	+3.68
2B / LogicVista	60.01	45.53	48.88	+3.35
2B / MathVerse-VD	79.63	56.02	58.10	+2.08
4B / MathVerse-VD	79.63	71.53	74.31	+2.78
4B / MathVision	44.14	37.96	40.59	+2.63

教师-学生容量差越大，VGS 增益越显著（2B 平均 +2.37 vs 4B +1.56），与"视觉感知是真正瓶颈"的假设一致。

消融实验¶

GRPO + 蒸馏 ablation（2B 学生，Vision-SR1-47K）：

配置	平均 Acc@1	平均 Acc@16	说明
Initial Student (2B)	31.32	–	起点
纯 GRPO	44.83	45.68	单 RL baseline
GRPO + Standard-KD	45.41	45.22	加单体蒸馏
GRPO + VGS (full)	47.20	46.57	+1.79 / +1.35 over Standard-KD

关键发现¶

视觉依赖越高的 token，VGS 对 \(\ell_{\text{Vis}}\) 的下降速度越快（图 4），证实方向旋转的确把更新预算花在了视觉子空间。
关闭 LP 正则、把 \(\gamma\) 拉到 2.0，高 VDS 桶的 \(\ell_{\text{Lang}}\) 会显著上涨；加入 LP 后曲线被压回，多模态推理精度不掉，证明 LP 的选择性激活是必要的。
反向"Language Steering"实验显示，把 steering 方向旋转到语言子空间反而拉低平均精度，直接证伪了"对称投资"的朴素想法，验证了"视觉子空间才是瓶颈"的非对称假设。
\(\eta_{\text{VGS}}\) 范数归一化非常关键：去掉它后改变 \(\gamma\) 等价于同时改学习率，超参很难调。

亮点与洞察¶

把模型蒸馏问题拉回到优化几何视角：以往讨论 KL 蒸馏多停留在概率层面（前向 vs 反向 KL、mode-covering vs mode-seeking），本文转而看梯度方向的余弦关系，揭示了"标准 KL = 静态平分线"这种以前没人讲清的结构性缺陷，思想可迁移到 audio-language、video-language 等任何多条件生成的蒸馏场景。
可计算的视觉信息增益：构造目标分布 \(q_T^*\) 只用到学生 / 教师在多模态 + 纯文本两个上下文上的 logit 比值，不需要任何额外网络或额外采样，对工程友好；只要 base model 支持"图像 token 可摘除"就能直接用。
VDS 分桶分析：用 \(\text{VDS}_t=D_{KL}(q_T(\cdot\mid I,x)\,\|\,q_T(\cdot\mid x))\) 衡量 token 级视觉依赖度，是一个非常干净的度量，可作为 VLM 可解释性工具单独使用（如做训练数据筛选、注意力分析）。

局限与展望¶

实验仅覆盖 Qwen3-VL 系列（2B/4B/8B），没在 LLaVA、InternVL、Gemma 等架构上交叉验证 \(q_T^*\) 构造的稳定性；不同 base model 的 vision-text 融合方式差异较大，结论的可迁移性需进一步验证。
"纯文本上下文"在 VLM 上的意义其实需要假设模型在没有 image token 时仍能给出合法分布，对那些用学习型 image token / soft prompt 的架构（如 Q-Former 加在词嵌入之前）未必成立。
\(\gamma=2.0\)、\(\lambda=0.01\)、阈值 \(Q_{0.7}\) 都是经验值，没给出按学生大小自动调参的方案；尤其在 RL 阶段加入蒸馏时 \(\alpha\) 的设置可能与 \(\gamma\) 强耦合。
当前评测均为静态图像 + math/logic 推理任务，VGS 对真实多模态对话、长视频理解等场景的迁移性未知。

评分¶

新颖性: ⭐⭐⭐⭐⭐ Bayes 分解 + 梯度正交分析是 VLM 蒸馏文献里第一次把"语言/视觉"显式拆开看梯度几何的工作。
实验充分度: ⭐⭐⭐⭐ 七个推理 benchmark + 两个学生规模 + GRPO 混合训练，但只覆盖一个模型家族。
写作质量: ⭐⭐⭐⭐⭐ 推导清晰、几何图 (Fig.3) 与训练动力学图 (Fig.4) 自洽地服务于核心假设。
价值: ⭐⭐⭐⭐ 工程上几乎零成本就能挂到现有 on-policy 蒸馏框架，对 small VLM 训练社区是即插即用的提升。