跳转至

Decomposed On-Policy Distillation for Vision-Language Reasoning: Steering Gradients for Visual Grounding

会议: ICML2026
arXiv: 2606.00564
代码: https://github.com/hee-suk-yoon/Decomposed_OPD
领域: 多模态VLM / LLM推理
关键词: 在线蒸馏, 视觉接地, 梯度正交, 视觉梯度引导, VLM 推理

一句话总结

作者把多模态在线蒸馏的 KL 损失沿贝叶斯链拆成"语言先验"和"视觉接地"两个子目标,发现两者梯度近乎正交、标准蒸馏只是被动取平分,提出 Visual Gradient Steering(VGS)主动把更新方向偏向视觉子空间,在 Qwen3-VL 8B→2B/4B 七个多模态推理基准上平均提升 +2.37%/+1.56%。

研究背景与动机

领域现状:小模型获取推理能力的两条主流路径是 RLVR 和在线蒸馏(On-Policy Distillation)。在线蒸馏由教师模型对学生自己采样的轨迹做 token 级稠密监督,规避了 RLVR 稀疏奖励的冷启动问题,已经在纯文本 LLM 上验证有效。

现有痛点:把在线蒸馏直接搬到 VLM 时,业界要么完全回避(如 Qwen3-VL 显式限制只蒸馏纯文本数据来微调 LLM backbone,放弃视觉对齐),要么粗暴地把多模态条件 KL 当成一个单一目标拟合,导致视觉接地能力得不到充分迁移。

核心矛盾:作者通过 Bayes 分解 \(\log p(\tau\mid I,x)=\log p(\tau\mid x)+\log p(I\mid\tau,x)-\log p(I\mid x)\) 揭示,整体 KL 实际包含"语言先验对齐"与"视觉接地对齐"两个子目标;通过梯度几何分析发现两者在高视觉依赖 token 上几乎正交(视觉依赖最高的第 9 桶里夹角 \(\approx 92^\circ\)),标准单体损失梯度始终保持在两者之间约 \(42^\circ\)~\(50^\circ\) 的折中方向上,相当于一个静态平分线,对真正卡住的视觉子空间投入不足。

本文目标:在不打破语言先验的前提下,主动把优化方向向视觉子空间倾斜,把更新预算花在解决感知歧义而非通用语言建模上。

切入角度:作者提出"非对称成熟假设"——经过预训练 + GRPO 的 VLM 学生其实已经具备较强的语言先验,真正的瓶颈是视觉感知。如果两个梯度本来就正交,那"加权求和"在视觉极端区会被语言项无意义地稀释;显式把更新方向往视觉旋转就是免费的提升。

核心 idea:在标准 KL 之上加一个针对"视觉信息增益"的额外 KL 项 \(\gamma\ell_{\text{Vis}}\),并对高视觉依赖 token 额外加一个语言保留正则 \(\lambda\ell_{\text{LP}}\),再用梯度范数归一化常数 \(\eta_{\text{VGS}}(\gamma)\) 保证只改方向不改步长。

方法详解

整体框架

VGS 沿用在线蒸馏的标准设置:学生策略 \(p_S^\theta\) 在多模态输入 \((I,x)\) 下自采样轨迹 \(\tau\),教师 \(q_T\)(GRPO 微调过的 8B Qwen3-VL)给出 token 级监督。pipeline 与标准做法的差异只发生在 loss 上:原本是一个 multimodal Reverse KL \(\ell_{\text{Standard}}(\tau)\),现在变成三项加和 \(\ell_{\text{Standard}}(\tau)+\gamma\ell_{\text{Vis}}(\tau)+\lambda\ell_{\text{LP}}(\tau)\),并乘以一个梯度范数归一化系数 \(\eta_{\text{VGS}}(\gamma)\)。轨迹采样、模型架构、训练框架、batch 安排都没动,工程复用成本极低。

关键设计

  1. 目标分解与视觉信息增益构造 \(\ell_{\text{Vis}}\):

    • 功能:把单体 KL 拆出一个只关心"视觉接地"的子目标,量化学生与教师在感知层面的差距。
    • 核心思路:由 Bayes 链式法则 \(\log p(I\mid\tau,x)=[\log p(\tau\mid I,x)-\log p(\tau\mid x)]+\log p(I\mid x)\),对教师做同样分解可以构造一个"目标分布"\(q_T^*\),它保留学生自己的语言先验、把视觉似然替换为教师的:\(q_T^*(\tau\mid I,x)\propto p_S^\theta(\tau\mid x)\cdot q_T(I\mid\tau,x)\)。在 logit 空间这等价于 \(\log q_T^*=\log p_S^\theta(\tau\mid x)+(\log q_T(\tau\mid I,x)-\log q_T(\tau\mid x))-\log Z^*\),所有量都可由学生 / 教师在多模态 + 纯文本上下文各跑一次前向得到。最终 \(\ell_{\text{Vis}}(\tau)=\frac{1}{|\tau|}\sum_t D_{KL}(p_S^\theta(\cdot\mid\tau_{<t},I,x)\,\|\,q_T^*(\cdot\mid\tau_{<t},I,x))\) 只惩罚学生与教师"视觉信息增益"之间的差距。
    • 设计动机:实证显示视觉依赖越高的 token,\(\nabla\ell_{\text{Lang}}\)\(\nabla\ell_{\text{Vis}}\) 夹角从 \(\sim60^\circ\) 单调拉到 \(\sim92^\circ\)。两者既然几何独立,就必须有独立的优化抓手,而不能继续依赖单体梯度被动平均。
  2. Visual Gradient Steering 与范数归一化 \(\eta_{\text{VGS}}(\gamma)\):

    • 功能:把标准更新方向显式旋转到视觉子空间,但保持 update step 的模长不变,避免破坏学习率调度。
    • 核心思路:令 \(\ell_{\text{VGS}}(\tau)=\ell_{\text{Standard}}(\tau)+\gamma\ell_{\text{Vis}}(\tau)\)\(\gamma\ge 0\) 是 steering coefficient。为防止 \(\gamma\) 同时放大梯度模长(与学习率耦合),定义 \(\eta_{\text{VGS}}(\gamma)=\|\nabla_\theta\mathcal{L}_{\text{Standard}}\|_2/\|\nabla_\theta\mathcal{L}_{\text{Standard}}+\gamma\nabla_\theta\mathcal{L}_{\text{Vis}}\|_2\) 并应用到整体 loss,使得 steered 梯度的范数始终等于标准梯度范数。实操中作者发现该比值在训练全程稳定,于是直接固定为常数(2B 用 \(\eta=0.41\),4B 用 \(\eta=0.36\))以省去动态计算开销。
    • 设计动机:把"方向"与"步长"解耦是 multi-task learning 的稳健性原则(参 GradNorm);否则增大 \(\gamma\) 会同时改变两件事,使消融与 \(\gamma\) 调参彼此污染。
  3. Language Preservation 正则 \(\ell_{\text{LP}}\):

    • 功能:在高视觉依赖 token 上把视觉梯度对语言子空间的"负投影"按住,防止 catastrophic forgetting。
    • 核心思路:几何分析显示在视觉依赖最极端的桶里,\(\nabla\ell_{\text{Lang}}\)\(\nabla\ell_{\text{Vis}}\) 出现钝角(\(>90^\circ\)),此时纯视觉 steering 会反向拉低语言先验匹配度,训练曲线上观察到 \(\ell_{\text{Lang}}\) 显著发散。作者按 VDS(Visual Dependency Score \(\text{VDS}_t=D_{KL}(q_T(\cdot\mid\tau_{<t},I,x)\,\|\,q_T(\cdot\mid\tau_{<t},x))\))取 top 30% token 加一个语言 KL 正则 \(\ell_{\text{LP}}(\tau)=\frac{1}{|\tau|}\sum_t \mathbf{1}[\text{VDS}_t>Q_{0.7}]\cdot D_{KL}(p_S^\theta(\cdot\mid\tau_{<t},x)\,\|\,q_T(\cdot\mid\tau_{<t},x))\),权重 \(\lambda\approx 0.01\) 保守。
    • 设计动机:只在真正会"反咬"的少数 token 上保护语言先验,避免对一般 token 加重监督而稀释视觉 steering。

损失函数 / 训练策略

最终训练目标为 \(\mathcal{L}_{\text{VGS-LP}}=\eta_{\text{VGS}}(\gamma)\cdot\mathbb{E}_{\tau\sim p_S^\theta(\cdot\mid I,x)}[\ell_{\text{Standard}}(\tau)+\gamma\ell_{\text{Vis}}(\tau)+\lambda\ell_{\text{LP}}(\tau)]\)。所有实验固定 \(\gamma=2.0\)\(\lambda=0.01\)。教师由 Qwen3-VL-8B-Instruct 在 Vision-SR1-47K 上用 GRPO 训练 2 epoch 得到;学生为 Qwen3-VL-2B/4B-Instruct,强制使用统一 system prompt 把推理链与最终答案分隔开。同样的 loss 也可以无缝挂到 GRPO 训练循环上做 RL+蒸馏混合。

实验关键数据

主实验

主结果:Qwen3-VL-8B 教师在 Vision-SR1-47K 上蒸馏到 2B / 4B 学生,7 个多模态推理基准的平均 Acc@1(greedy)和 Acc@16(T=1.0)。

设置 Teacher 8B Standard Distill Acc@1 VGS Acc@1 提升
2B 学生平均(7 benchmark) 61.37 43.74 46.10 +2.37
4B 学生平均(7 benchmark) 61.37 56.64 58.12 +1.56
2B / VisualPuzzles 43.15 28.08 31.76 +3.68
2B / LogicVista 60.01 45.53 48.88 +3.35
2B / MathVerse-VD 79.63 56.02 58.10 +2.08
4B / MathVerse-VD 79.63 71.53 74.31 +2.78
4B / MathVision 44.14 37.96 40.59 +2.63

教师-学生容量差越大,VGS 增益越显著(2B 平均 +2.37 vs 4B +1.56),与"视觉感知是真正瓶颈"的假设一致。

消融实验

GRPO + 蒸馏 ablation(2B 学生,Vision-SR1-47K):

配置 平均 Acc@1 平均 Acc@16 说明
Initial Student (2B) 31.32 起点
纯 GRPO 44.83 45.68 单 RL baseline
GRPO + Standard-KD 45.41 45.22 加单体蒸馏
GRPO + VGS (full) 47.20 46.57 +1.79 / +1.35 over Standard-KD

关键发现

  • 视觉依赖越高的 token,VGS 对 \(\ell_{\text{Vis}}\) 的下降速度越快(图 4),证实方向旋转的确把更新预算花在了视觉子空间。
  • 关闭 LP 正则、把 \(\gamma\) 拉到 2.0,高 VDS 桶的 \(\ell_{\text{Lang}}\) 会显著上涨;加入 LP 后曲线被压回,多模态推理精度不掉,证明 LP 的选择性激活是必要的。
  • 反向"Language Steering"实验显示,把 steering 方向旋转到语言子空间反而拉低平均精度,直接证伪了"对称投资"的朴素想法,验证了"视觉子空间才是瓶颈"的非对称假设。
  • \(\eta_{\text{VGS}}\) 范数归一化非常关键:去掉它后改变 \(\gamma\) 等价于同时改学习率,超参很难调。

亮点与洞察

  • 把模型蒸馏问题拉回到优化几何视角:以往讨论 KL 蒸馏多停留在概率层面(前向 vs 反向 KL、mode-covering vs mode-seeking),本文转而看梯度方向的余弦关系,揭示了"标准 KL = 静态平分线"这种以前没人讲清的结构性缺陷,思想可迁移到 audio-language、video-language 等任何多条件生成的蒸馏场景。
  • 可计算的视觉信息增益:构造目标分布 \(q_T^*\) 只用到学生 / 教师在多模态 + 纯文本两个上下文上的 logit 比值,不需要任何额外网络或额外采样,对工程友好;只要 base model 支持"图像 token 可摘除"就能直接用。
  • VDS 分桶分析:用 \(\text{VDS}_t=D_{KL}(q_T(\cdot\mid I,x)\,\|\,q_T(\cdot\mid x))\) 衡量 token 级视觉依赖度,是一个非常干净的度量,可作为 VLM 可解释性工具单独使用(如做训练数据筛选、注意力分析)。

局限与展望

  • 实验仅覆盖 Qwen3-VL 系列(2B/4B/8B),没在 LLaVA、InternVL、Gemma 等架构上交叉验证 \(q_T^*\) 构造的稳定性;不同 base model 的 vision-text 融合方式差异较大,结论的可迁移性需进一步验证。
  • "纯文本上下文"在 VLM 上的意义其实需要假设模型在没有 image token 时仍能给出合法分布,对那些用学习型 image token / soft prompt 的架构(如 Q-Former 加在词嵌入之前)未必成立。
  • \(\gamma=2.0\)\(\lambda=0.01\)、阈值 \(Q_{0.7}\) 都是经验值,没给出按学生大小自动调参的方案;尤其在 RL 阶段加入蒸馏时 \(\alpha\) 的设置可能与 \(\gamma\) 强耦合。
  • 当前评测均为静态图像 + math/logic 推理任务,VGS 对真实多模态对话、长视频理解等场景的迁移性未知。

相关工作与启发

  • vs On-Policy Distillation (Agarwal et al., 2024):他们提出 Reverse KL + on-policy 采样的纯文本蒸馏框架,本文是其多模态延伸;区别是直接攻击单体 KL 的几何缺陷,而不是改 KL 类型。
  • vs GradNorm / PCGrad / GradVac 等 multi-task gradient surgery:传统做法是 per-task 梯度后做投影 / 重加权,本文不需要 per-task 梯度(视觉与语言项共享同一批 token),开销几乎为零,且方向修正是显式可解释的(始终向 \(\nabla\ell_{\text{Vis}}\) 倾斜)。
  • vs RLVR / GRPO:RL 提供稀疏的 outcome 奖励,蒸馏提供稠密的 token 级监督,两者本文是互补关系;GRPO + VGS 在 length 上得到了与教师对齐的隐式正则化(图 6),相比纯 GRPO 的 length explosion 更稳定。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Bayes 分解 + 梯度正交分析是 VLM 蒸馏文献里第一次把"语言/视觉"显式拆开看梯度几何的工作。
  • 实验充分度: ⭐⭐⭐⭐ 七个推理 benchmark + 两个学生规模 + GRPO 混合训练,但只覆盖一个模型家族。
  • 写作质量: ⭐⭐⭐⭐⭐ 推导清晰、几何图 (Fig.3) 与训练动力学图 (Fig.4) 自洽地服务于核心假设。
  • 价值: ⭐⭐⭐⭐ 工程上几乎零成本就能挂到现有 on-policy 蒸馏框架,对 small VLM 训练社区是即插即用的提升。