SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based Cold Start¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=oNmMv7Lcj5
代码: 待确认
领域: 多模态VLM
关键词: 多模态推理, 偏好冷启动, 自蒸馏, DPO, GRPO

一句话总结¶

SPECS 重新设计多模态大模型进入 RLVR 之前的冷启动阶段：先用自蒸馏构造只区分输出范式的偏好对，再用 DPO+SFT loss 做格式预对齐，最后交给 GRPO 学深层推理，从而比传统 SFT 冷启动获得更好的泛化、训练稳定性和多模态推理性能。

研究背景与动机¶

领域现状：DeepSeek-R1 之后，越来越多工作把带可验证奖励的强化学习（RLVR）搬到视觉语言模型上，形成一批面向多模态推理的 MLLM-r1 方法。它们通常不会直接从 base VLM 开始做 RL，而是先做一个冷启动，让模型至少会输出可读的推理格式、遵守答案格式，并具备初步的复杂题求解能力。

现有痛点：主流冷启动做法是 SFT，即把高质量推理轨迹当成标准答案让模型模仿。这个选择短期很有效，因为模型很快学会训练集里的推理模板和答案写法；但它也把“怎么写格式”“怎么组织推理”“具体题怎么解”绑在同一个交叉熵目标里。模型可能在训练分布上收敛很快，却对稍微不同的输出指令、题型或格式要求泛化较差，后续 RL 也更容易沿着已经模仿出来的窄轨道更新。

核心矛盾：冷启动本来应该给 RL 一个更好的初始策略，但 SFT 式冷启动如果过早学习具体解题内容，就可能牺牲探索空间。多模态推理中的答案格式往往可以浅层迁移，而真正的视觉理解、数学推理、跨模态证据整合需要在 RL 阶段通过奖励继续打磨；把两类目标混在一起，会让冷启动阶段承担过多任务。

本文目标：作者想回答两个问题：第一，冷启动阶段到底该用 SFT 还是偏好学习，哪一种更有利于泛化和后续 RL；第二，冷启动数据是否一定要来自更强教师模型或人工标注，能不能由模型自身生成足够匹配的偏好信号。

切入角度：论文从“泛化能力能否量化”入手，提出 Generalization Factor（GF）来同时衡量 ID 和 OOD 的收益。实验发现 DPO 及 DPO+SFT loss 在冷启动阶段比 SFT 更能保持 OOD 表现，于是作者把冷启动重新定义成一种浅层偏好对齐：只让模型学会正确的回答结构和推理范式，不让它在这一步过度记忆具体答案内容。

核心 idea：用自蒸馏生成“答案都正确但格式一好一坏”的偏好对，让 DPO 冷启动只学习可迁移的输出范式，再把复杂推理能力留给最终 GRPO 优化。

方法详解¶

整体框架¶

SPECS 的整体流程可以理解为“先造一个会探索的自己，再用自己生成格式偏好，最后把推理交给 RL”。它不是把 SFT 换成另一个同样模仿内容的预训练步骤，而是把冷启动目标收窄到格式、结构、风格等浅层可迁移标准：chosen 和 rejected 尽量都保留正确答案，主要差异来自输出范式是否满足要求。

训练分三段。第一段先对 base VLM 做一小段 GRPO，得到 Ours-zero，也就是一个比 base 更会探索和生成推理轨迹的种子模型；随后用它和 base model 生成响应，并经过答案一致性过滤与格式污染，构造自蒸馏偏好数据。第二段用这些偏好对训练 DPO 冷启动模型，同时在 chosen 响应上加 SFT loss 作为约束，得到格式感知的 Warmup Model。第三段再以这个 Warmup Model 为起点做最终 GRPO，让奖励主要推动答案正确性和推理质量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["Base VLM"] --> B["自蒸馏偏好数据：<br/>先探索再造偏好"]
    B --> C["DPO 冷启动预对齐：<br/>只学格式偏好"]
    C --> D["Warmup Model"]
    D --> E["最终 GRPO：<br/>集中优化推理"]
    E --> F["Final Model"]

关键设计¶

1. GF：把冷启动泛化能力变成可比较的量

论文没有直接假设“SFT 会过拟合、DPO 会泛化”，而是先设计了一个衡量冷启动泛化的指标。作者把训练分布内任务记为 ID，把格式或任务要求发生变化的任务记为 OOD，分别计算相对 base model 的性能增益 \(G_{ID}(n)\) 和 \(G_{OOD}(n)\)。GF 使用类似 \(F_\beta\) 的形式合并二者：\(\Gamma(n)=(1+\beta^2)\frac{G_{ID}(n)G_{OOD}(n)}{\beta^2G_{ID}(n)+G_{OOD}(n)}\)，其中论文通常取 \(\beta=2\) 来更重视 OOD 收益。

这个指标的关键不是数学形式多复杂，而是它惩罚“只在训练格式上变强”的冷启动。SFT 在 ID 上最快收敛，但如果 OOD 收益很低，GF 会被拉低；DPO 起步慢一些，却能保持更高 OOD 表现。这个观察直接支撑了 SPECS 的选择：冷启动阶段不应只看训练集拟合速度，而要看它会不会给后续 RL 留出更广的泛化和探索空间。

2. 自蒸馏偏好数据：用模型自身能力构造贴近学生分布的格式偏好

传统合成冷启动数据常依赖更强教师模型，但教师和学生能力差距太大时，生成分布可能和学生当前能力不匹配。SPECS 先用短程 GRPO 把 base VLM 训练成 Ours-zero，这一步目标不是冲最终分数，而是让模型具备更好的探索和初步推理能力。随后 Ours-zero 与 base model 在同一批多模态题目上生成响应，系统要求它们使用类似 <think>...</think><answer>...</answer> 的结构。

chosen 响应不是简单挑更长或更像教师的回答，而是用外部评估器检查“推理过程和最终答案是否一致”，只保留答案与推理一致的样本。rejected 响应则被设计成答案也正确、但输出格式被破坏的样本，例如删掉全部标签、只删 <answer> 标签、只删 <think> 标签，或者把答案标签替换成普通 Answer: 文本。这样构成的偏好对把内容正确性尽量控制住，让偏好信号主要落在格式和推理范式上。

3. DPO 冷启动预对齐：让模型学相对偏好而不是死记 chosen 文本

在冷启动阶段，SPECS 用 DPO 直接优化 chosen 相对 rejected 的概率优势。标准 DPO loss 可以写成 \(L_{DPO}=-\mathbb{E}[\log\sigma(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)}-\beta\log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)})]\)。这里 chosen 和 rejected 都围绕同一个问题构造，且尽量都包含正确答案，因此模型被鼓励学习“哪种表达结构更符合偏好”，而不是把某个完整推理轨迹逐 token 复制下来。

论文还加入 chosen 样本上的 SFT loss，得到 \(L_{hybrid}=L_{DPO}+\lambda L_{SFT}\)，实验中 \(\lambda=1\)。这个正则项的作用是防止纯 DPO 只拉大 chosen/rejected margin，却把 chosen 本身的概率也压低。换句话说，DPO 给方向，SFT loss 稳住高质量文本分布；两者合起来更适合当 RL 前的 warm-up，而不是变成另一个只追求训练格式拟合的 SFT。

4. 最终 GRPO：把冷启动学会的格式让位给深层推理优化

SPECS 的最后一段仍然使用 GRPO 做 RLVR，但起点已经不是 base model 或 SFT model，而是 DPO 预对齐后的 Warmup Model。由于模型在冷启动中已经比较稳定地遵守输出结构，RL 阶段的 credit assignment 更容易集中到答案正确性、视觉证据使用和推理路径质量上，而不是反复为标签格式、答案包装这类浅层问题付出更新。

最终奖励由格式奖励和准确率奖励相加：\(R_{total}(o,q)=R_{format}(o)+R_{acc}(o,q)\)。格式正确给固定 \(0.5\)，答案正确性则按题型判断：选择题和数值题用规则评估，短答题用 GPT-4o 作为外部 judge。这个设计和前面的解耦目标是一致的：冷启动先把格式纪律推到一个可用水平，最终 RL 再用可验证奖励把模型推向更高的多模态推理上限。

一个完整示例¶

假设训练题是一道视觉几何题，系统要求模型把推理放在 <think> 标签里，把最终答案放在 <answer> 标签里。base VLM 可能直接写出自然语言答案，或者虽然算出了正确数值，却没有按要求闭合标签；Ours-zero 经过短程 GRPO 后更可能生成完整推理链和正确答案，但仍可能存在少量“推理说 4、答案写 3”的不一致样本。

SPECS 会先让 Ours-zero 生成候选 chosen，然后用评估器检查推理和答案是否一致，只留下“推理过程支持最终答案”的回答。对于 rejected，它不会故意选择答案错误的回答，而是从答案正确的响应里构造格式错误版本：例如去掉 <answer> 标签，或把答案段改成 Answer: 12。于是同一个问题得到一对偏好数据：chosen 的答案正确且格式完整，rejected 的答案也正确但格式不合规。

DPO 看到这对样本时，学习目标就很清晰：不是“这道题必须背成 chosen 的每个 token”，而是“在答案同样正确时，结构化推理和答案包装更应该被偏好”。等到最终 GRPO 阶段，模型已经不用从零学标签规则，可以把 rollout 的探索预算更多花在图像对象计数、几何关系、数学运算和跨模态证据核对上。

损失函数 / 训练策略¶

训练数据分配上，Stage 1 和 Stage 3 的 GRPO 使用 Orsta47K 与 virl39K，Stage 2 的冷启动使用约 9K 条自蒸馏偏好数据。基础模型是 Qwen2.5-VL-7B，GRPO 训练基于 MM-EUREKA 框架，DPO 与对照 SFT 训练基于 LlamaFactory。

GRPO 阶段 rollout 和训练 batch size 都设为 128，每个样本生成 8 个 rollout，学习率为 \(1\times10^{-6}\)，最大输出长度为 10,240 tokens，并采用类似 DAPO 的 clipping 设置，不加 KL penalty。DPO 阶段 batch size 为 64，学习率同样是 \(1\times10^{-6}\)，最大输出长度扩展到 16,384 tokens，混合损失中的 \(\lambda\) 设为 1。

作者还比较了 SFT 和 DPO 的训练开销。在约 9K 数据、相同训练参数下，DPO 相比 SFT 的运行时间只多约 498 秒，吞吐从 1.035 samples/s 降到 0.979 samples/s。这个结果说明 SPECS 的收益并不是靠显著增加训练成本换来的，冷启动目标改变才是主要因素。

实验关键数据¶

主实验¶

SPECS 在 MEGA-Bench Core 上和通用 VLM、推理型 VLM 做比较，基础模型是 QwenVL-2.5-7B。Ours-7B 在总体分数和多个子领域上都超过 backbone，尤其是 Science 类别提升较大。

模型	MEGA-Bench Core	Knowledge	Mathematics	Perception	Science	Metrics
QwenVL-2.5-7B	38.84	27.67	41.24	28.93	41.64	35.07
Orsta-7B	41.65	31.48	43.84	32.82	41.66	38.31
Ours-zero	42.44	29.87	43.77	32.80	47.32	37.96
Ours-7B	42.64	31.71	44.58	34.14	51.87	39.17
Ours - Backbone	+3.8	+4.0	+3.3	+5.2	+10.2	+4.1

在其他多模态理解和数学推理基准上，SPECS 也带来稳定收益。相对 QwenVL-2.5-7B，MathVista 提升 \(12.2\)，MathVerse 提升 \(10.5\)，说明这种冷启动方式不只是改善格式合规，也确实有助于后续 RL 学到更强的多模态推理能力。

模型	MMMU	MathVision	MathVista	MathVerse	Overall
QwenVL-2.5-7B	54.2	25.40	63.70	38.20	45.38
MM-Eureka-7B	55.55	26.90	73.00	47.58	50.76
VL-Rethinker-7B	56.70	29.70	73.60	48.98	52.25
Orsta-7B	54.33	25.76	70.20	32.10	45.60
Ours-zero	54.30	26.88	72.90	47.33	50.35
Ours-7B	56.78	29.50	75.90	48.73	52.73
Ours - Backbone	+2.5	+4.1	+12.2	+10.5	+7.3

消融实验¶

自蒸馏和解耦数据策略是 SPECS 的两个核心消融点。表中斜杠左侧是冷启动后分数，右侧是冷启动+RL 后分数。可以看到，使用外部 Qwen32B/72B 教师并不一定更好，自蒸馏最终平均分最高；解耦数据在冷启动后分数略低于 coupled data，但经过 RL 后上限更高。

配置	MEGA-Bench	MMMU	MathVista	MathVision	MathVerse	AVG
Qwen2.5-VL-7B	35.07	54.20	63.70	25.40	38.20	43.31
Qwen32B Distillation	27.04 / 29.87	51.44 / 56.67	66.90 / 71.50	25.53 / 28.03	43.53 / 46.07	42.89 / 46.43
Qwen72B Distillation	34.00 / 37.30	53.89 / 58.56	67.50 / 73.30	25.62 / 28.91	43.53 / 46.83	44.90 / 48.98
Base model Distillation	35.37 / 37.92	53.11 / 56.11	67.90 / 74.40	25.55 / 28.68	43.40 / 46.82	45.07 / 48.79
Self Distillation	37.52 / 39.17	54.89 / 56.78	72.00 / 75.90	25.75 / 29.50	46.19 / 48.73	47.27 / 50.02
Coupled Data	37.02 / 38.76	55.44 / 55.44	71.10 / 73.10	27.37 / 28.65	47.46 / 47.46	47.67 / 48.68
Decoupled Data	37.52 / 39.17	54.89 / 56.78	72.00 / 75.90	25.75 / 29.50	46.19 / 48.73	47.27 / 50.02

另一个关键消融是冷启动方法本身。DPO-based GRPO 在所有列出的基准上都优于 SFT-based GRPO，平均分从 47.65 提升到 50.02。论文还报告 DPO-based GRPO 的 policy loss 曲线更平滑，format reward 更稳定，说明它和后续 reward-driven 优化目标更一致。

冷启动方式	MEGA-Bench	MMMU	MathVista	MathVision	MathVerse	AVG
Qwen2.5-VL-7B-Instruct	35.07	54.20	63.70	25.40	38.20	43.31
SFT-based GRPO	37.52	54.44	74.10	28.61	43.60	47.65
DPO-based GRPO	39.17	56.78	75.90	29.50	48.73	50.02

关键发现¶

DPO 冷启动的优势不是只体现在最终分数上，也体现在更高的 OOD 泛化、Pass@K 潜力和 rollout 探索能力上。附录中 RBF 统计显示 ours 在 120、240、480 sample size 下都高于 base 和 SFT，说明生成分布更宽，有利于 RL 搜索更好的解。
自蒸馏比强教师蒸馏更适合这里的问题。原因不是教师不强，而是强教师输出分布可能离 7B 学生太远；SPECS 从 Ours-zero 中取 chosen，更贴近学生自身能力边界，偏好信号更可学。
解耦数据的冷启动即时分数不一定最高，但 RL 后效果更好。这说明冷启动阶段过早学习“答案正确性差异”可能会抢走 RL 阶段的任务，而只学格式偏好反而给最终推理优化留下空间。
chosen response 过滤有实际价值。去掉验证时平均分为 48.13，加入验证后为 50.02，说明“推理和答案不一致”的少量样本足以干扰冷启动质量。

亮点与洞察¶

SPECS 最巧的地方是把冷启动从“先教模型解题”改成“先教模型怎么表达可被 RL 使用的推理”。这让 DPO 的偏好信号更干净，也避免了 SFT 把具体题目模式和格式规则绑死。
GF 是一个有用的诊断工具。很多冷启动方法只报告下游最终分数，但 GF 迫使研究者看 ID 和 OOD 的平衡，能更早发现 SFT 型方法在指令格式迁移上的脆弱性。
自蒸馏的选择很务实。与其找一个过强 teacher 生成学生难以吸收的长链条，不如先用短程 RL 把学生推到可探索区域，再让它自己产生贴近能力分布的候选数据。
“答案都正确但格式不同”的偏好对很适合迁移到其他 RLVR 场景。比如文本数学、代码推理或 agent 工具调用冷启动，都可以把偏好差异限制在结构化输出、工具调用协议或检查点格式上，把真正的任务优化留给 RL。
DPO+SFT loss 的混合目标给了一个稳定折中。纯 DPO 可能过度追求 margin，SFT loss 则把 chosen 分布拉住；这对冷启动这种短训练阶段尤其重要。

局限与展望¶

实验主要集中在多模态 VLM 推理，尚未证明同样流程在纯文本数学、代码推理或长程 agent 任务中也能稳定收益。论文结论更适合先理解为“多模态 RLVR 冷启动”的证据。
OOD 设置主要围绕输出格式变化和若干 benchmark 泛化，真实部署中的 OOD 可能包含视觉域变化、题目语言变化、工具环境变化等更复杂因素。GF 指标本身有价值，但 OOD 分布怎么选仍会影响结论。
自蒸馏流程仍依赖外部模型做 chosen response 一致性验证，短答题准确性评估也使用 GPT-4o judge。虽然这些调用不是强教师蒸馏，但仍引入了外部评估器的偏差和成本。
冷启动数据强调格式偏好，可能对需要显式学习任务策略的场景不够充分。若某些任务的“浅层格式”和“深层策略”无法清楚分开，解耦数据可能需要加入更细的偏好维度。
论文使用 Qwen2.5-VL-7B 作为主 backbone，模型尺度和架构变化后的规律还需要更多验证。特别是更小模型可能缺乏 Ours-zero 自蒸馏所需的基础探索能力，更大模型则可能对冷启动方式不那么敏感。

评分¶

新颖性: ⭐⭐⭐⭐☆ 不是发明 DPO 或 GRPO，但把多模态 RLVR 冷启动明确重构为“自蒸馏偏好+目标解耦”，问题定义很清楚。
实验充分度: ⭐⭐⭐⭐☆ 覆盖主流多模态与数学推理基准，并有自蒸馏、解耦数据、SFT/DPO、验证器等消融；若能加入更多 backbone 和真实 OOD 会更完整。
写作质量: ⭐⭐⭐⭐☆ 方法链条和实验结论比较直观，GF 也帮助组织叙事；个别表格命名和文字细节略粗糙，但不影响理解核心贡献。
价值: ⭐⭐⭐⭐⭐ 对正在做 MLLM-r1 / RLVR 的研究很有参考价值，因为它指出冷启动不是简单“先 SFT 一下”，而是会决定后续 RL 的探索空间和训练上限。