Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Multi-Stream Environments¶

会议: ICML 2026
arXiv: 2510.04142
代码: https://github.com/XiaoyuYoung/APO (有)
领域: 医学图像 / 多模态VLM / 对齐RLHF
关键词: 多源对齐, 概念漂移, 偏好优化, 胸片诊断, Plackett-Luce

一句话总结¶

本文把多个 MLLM 之间的推理"漂移"重新解释成 DPO 中的负样本约束，用 Plackett-Luce 偏好损失同时压制 N 个 source model 的发散轨迹，让 7B 学生模型在不需要 ground-truth 报告的前提下，仅用 10% 的 MIMIC-CXR 就在胸片分类与报告生成任务上超过所有 source teacher。

研究背景与动机¶

领域现状：把多个大模型当作 reasoning 老师，让一个学生模型同时蒸馏多份 CoT 轨迹，是当前多源对齐和"集体智能"方向的标准玩法。在医学问答这种专业领域，靠多老师互补几乎是默认配方。

现有痛点：作者发现，不同 source MLLM 的推理分布天生发散——比如 Qwen-VL-Max 偏向精确简短，GPT-4o 偏向召回率高、罗嗦。把这些异质轨迹直接拼起来去 SFT，学生不会自动吸取各家长处，反而把所有人的 bias 一股脑学下来，导致幻觉和语义不一致。

核心矛盾：源模型之间的多样性既是收益（覆盖更广）也是风险（互相冲突）。现有工作把冲突当噪声平均掉，但实际上这些冲突区域才包含最有信息量的"决策边界"，平均化反而把信息抹掉了。

本文目标：在 source 模型 reasoning 轨迹不停漂移、且没有 ground-truth 监督的情况下，让学生模型学到一个鲁棒的 reasoning manifold；同时还得证明这种漂移能被显式利用而不是单纯当噪声处理。

切入角度：把多源 reasoning 的演化套进 concept drift 理论框架——把 CoT 的自回归步骤映射成漂移理论里的"时间轴"，于是多模型之间的发散就成了一个非稳态的多流环境。在这个视角下，发散区域其实定义了"应该避开的东西"。

核心 idea：用 source 模型之间的共识做正样本，用每个 source 自己漂出去的轨迹做负样本，扩展 DPO 到 Plackett-Luce 多负样本形式，让 drift 从噪声变成"主动 unlearn 的监督信号"。

方法详解¶

整体框架¶

整套 APO 走两阶段。第一阶段叫 Supervised Bootstrapping with Consensus Synthesis：先用所有 source 模型的推理轨迹做监督蒸馏，把目标模型 \(\pi_\theta\) 投影到 source 集合的能力并集里，得到 \(\hat{\pi}_{st}\)；然后用 \(\hat{\pi}_{st}\) 自己做 in-context aggregator，把同一题目的 N 条 source 轨迹 \(\mathcal{T}=\{\tau^1,\ldots,\tau^N\}\) 作为 context，让模型生成一条自洽的共识轨迹 \(t^+ \sim \hat{\pi}_{st}(\cdot|v,l,\text{Context}=\mathcal{T})\)。第二阶段叫 Constraint-Aware Optimization：用 \(t^+\) 当正样本、N 条原始 source 轨迹当负样本，做 Plackett-Luce 偏好优化。推理时直接用最终 \(\pi_\theta\) 即可，不再需要 source 老师。

关键设计¶

概念漂移视角下的多流推理建模:
- 功能：把多老师 reasoning 中的发散现象形式化成一个非稳态随机过程，给出"为什么不能简单蒸馏"的理论解释。
- 核心思路：假设 N 个 source 模型条件独立生成 CoT，把联合分布因子化为 \(P_j(\mathcal{S}_j)=\prod_{u=1}^N P(t_{<j}^u|v,l) \cdot P(z_j^u|t_{<j}^u,v,l)\)，其中前者是历史累计发散、后者是当前步瞬时漂移。当 \(P_j(\mathcal{S}) \neq P_{j+\Delta}(\mathcal{S})\) 成立时就有 concept drift，意味着学生看到的监督信号本身就在飘。
- 设计动机：传统蒸馏假设老师给出的是稳定 ground-truth；而这里证明老师之间随推理步发展会出现非稳态分歧，naive SFT 必然继承所有人的 bias，必须换框架。
Consensus Synthesis 通过 in-context 提取共识:
- 功能：在没有 ground-truth label 的前提下，自动构造一条 "preferred trajectory" \(t^+\) 作为后续偏好优化的正锚点。
- 核心思路：bootstrap 后的 \(\hat{\pi}_{st}\) 已经吸收了 source 的并集知识，但还带漂移。把同一样本下 N 条 source 轨迹拼成上下文喂给 \(\hat{\pi}_{st}\)，让它扮演"加权聚合者"——保留各家共同支持的 token，过滤掉缺乏 cross-model 支持的 incoherent 部分。本质上是利用 in-context 学习能力做隐式投票。
- 设计动机：替代昂贵的人工标注。共识不是简单 majority vote 那种 token 级平均，而是带语义理解的轨迹级精炼，由学生自己生成，因此可以无监督迭代。
Plackett-Luce 多负样本 APO 损失:
- 功能：把 DPO 从二元 pairwise 推广到一正 N 负的多约束形式，同时压制所有 source 模型的漂移模式。
- 核心思路：用 bootstrap 后的 \(\hat{\pi}_{st}\) 作为 reference policy，定义隐式奖励 \(r(v,l,t)=\beta \log \frac{\pi_\theta(t|v,l)}{\hat{\pi}_{st}(t|v,l)}\)；偏好概率扩展为 \(P(t^+ \succ \mathcal{T}|v,l)=\frac{\exp(r(v,l,t^+))}{\exp(r(v,l,t^+))+\sum_{u=1}^N \exp(r(v,l,\tau^u))}\)；最终 loss 为 \(-\mathbb{E}[\log P(t^+ \succ \mathcal{T}|v,l)]\)。优化方向是把 \(t^+\) 概率往上推、把每条 \(\tau^u\) 概率同时往下压。
- 设计动机：standard DPO 一次只能用一对正负，而源漂移天生是 N 对 N 的多模冲突；Plackett-Luce 形式可以一次性把整组负样本作为竞争假设处理，把"主动遗忘 N 个 bias"作为一阶训练目标，比逐对 DPO 更高效，也更贴合 drift-as-constraint 的几何直觉。

损失函数 / 训练策略¶

两个阶段串行训练：阶段 1 是 KL 最小化的 SFT \(q^* = \arg\min_q \sum_u \mathbb{D}_{\text{KL}}(\pi_u || q)\)，阶段 2 是上面的 APO 目标。模型用 Qwen2.5-VL 7B，每阶段只跑 1 epoch、batch size = 2。CXR-MAX 数据集只用 1/10 MIMIC-CXR（约 17 万条多老师 reasoning trajectory，14 种胸部病种），不使用 radiologist report，强调完全靠 multi-teacher 漂移监督。

实验关键数据¶

主实验¶

数据集	任务	指标	本文 7B	之前 SOTA	提升
MS-CXR-T	多标签分类（5 类平均）	Top-1 Acc	0.78	0.69 (CoCa-CXR)	+0.09
MS-CXR-T	Pneumothorax	Top-1 Acc	0.96	0.73	+0.23
MS-CXR-T	Consolidation	Top-1 Acc	0.84	0.70	+0.14
MIMIC-CXR	报告生成	BLEU-1	0.56	0.43 (CPO)	+0.13
MIMIC-CXR	报告生成	ROUGE-L	–	0.42 (CPO)	提升

注意：本文只用 10% 数据 + 没用 radiologist report，对比方法用全量 + 报告。

消融实验¶

配置	关键现象	说明
仅 Supervised Bootstrap	继承 source bias，幻觉显著	验证"naive 蒸馏 = 学一堆 bias"的 Observation 1.2
Bootstrap + DPO（pairwise）	部分提升但不及多负样本	说明 Plackett-Luce 多负约束的必要性
完整 APO（PL 多负样本）	平均 0.78	drift-as-constraint 比单独 consensus 训练更稳
Source 老师本身	平均低于学生 7B	学生超过老师，证明 ensemble + 反向约束的合力效果

关键发现¶

Pneumothorax 大幅领先（+0.23）：这类病症胸膜线非常细微，单个 source 模型都不确定，互相之间漂移最大，APO 把这些不确定区域当负约束压下去后，反而锐化了对关键视觉线索的敏感度。
Edema 略低：高方差漂移类被 APO 当成"该避开"区域，模型趋向保守，牺牲了一些 recall 换取安全性，作者承认这是 trade-off。
7B 学生超越所有 source teachers（包括 GPT-4o、Qwen-VL-Max）：说明 consensus + 显式 unlearn drift 的组合，确实比任何单老师的"标注质量"更强。

亮点与洞察¶

drift-as-constraint 这个视角很巧：把 multi-teacher 蒸馏中最让人头疼的"老师之间打架"问题，从"该如何调和"翻转为"正好用作显式 negative constraint"，一招同时解决了无监督和鲁棒性两个难题。
从 DPO 走到 Plackett-Luce 是顺水推舟：DPO 框架天然要正负对，而 multi-source 场景天生就是 1:N 的偏好，PL 扩展是几乎"应该这样"的推广，但作者第一个把这套理论嫁接到 multi-teacher 蒸馏上。
自监督 alignment 思路可迁移：任何"多个老师吵架但缺金标"的场景（多个 LLM judge 互评、跨模型 reward 合成、多 retriever 排序）都能套这套框架——consensus 当正，individual divergence 当 N 个负。

局限与展望¶

依赖 consensus 可提取性：当老师们的轨迹几乎没有共识时（极端高方差任务），in-context 提取出来的 \(t^+\) 本身就不可信，APO 训练信号会塌。
Plackett-Luce 损失中所有 source 同权处理：实际上 GPT-4o 和小模型的可信度不一样，未来可考虑给负样本加权，或者按动态置信度调整。
实验集中在胸片：是否在更广义的 multi-source reasoning 任务（数学、代码）上也成立，尚需验证。
CXR-MAX 数据集本身依赖现有 MLLM 推理：随着 MLLM 升级，漂移模式会变，benchmark 可能需要持续滚动更新。

评分¶

新颖性: ⭐⭐⭐⭐⭐ drift-as-constraint 的视角翻转 + DPO → Plackett-Luce 的延展，思路非常漂亮
实验充分度: ⭐⭐⭐⭐ MS-CXR-T 上多病种横向对比 + 报告生成多指标，但消融可再细些
写作质量: ⭐⭐⭐⭐⭐ 理论铺陈与方法过渡严丝合缝，公式与 Observation 互相呼应
价值: ⭐⭐⭐⭐⭐ 对多 teacher 蒸馏 / 无金标对齐 / 医学 VQA 三个方向都有直接启发，CXR-MAX 也是稀缺资源