\(\varphi\)-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models¶
会议: CVPR2026
arXiv: 2602.22601
代码: 待确认
领域: LLM对齐
关键词: 持续学习, DPO, 公平性, 灾难性遗忘, large multimodal model, focal loss
一句话总结¶
提出 \(\varphi\)-DPO,将 DPO 作为持续学习范式(以前一步模型为参考策略),并引入受 focal loss 启发的公平性调制因子 \((1-p)^\gamma\) 来平衡不同数据组间的梯度贡献,在理论上证明 \(\gamma \to \infty\) 时梯度偏差趋于零,在 CoIN 和 MLLM-CL 基准上达到 SOTA。
背景与动机¶
大型多模态模型(LMM)在实际部署中需要不断学习新任务,持续学习(Continual Learning, CL)是实现这一目标的关键能力。然而,LMM 的持续学习面临双重挑战:
挑战一:灾难性遗忘¶
这是持续学习的经典问题——学习新任务时旧任务性能退化。现有缓解方法包括: - 经验回放(Experience Replay):存储旧任务数据用于复习,但存储开销大,且可能违反隐私约束 - 正则化方法(EWC, LwF 等):通过参数约束限制旧知识的覆写,但约束过强会限制新任务学习 - 知识蒸馏:用旧模型的输出作为软标签指导新模型,但需要额外的前向传播开销
挑战二:公平性问题¶
这是本文新发现的一个被忽视的问题——持续学习中的数据不平衡导致的公平性退化:
- 不同数据组大小差异大:持续学习的不同阶段数据量差异悬殊(如第一阶段 10 万样本,第二阶段仅 1 万样本),经验回放时旧数据远多于新数据
- 梯度被支配:数据量大的组贡献更多梯度,数据量小的组被"淹没",导致模型在小组上表现差
- 群体公平性:对于不同的用户群体或数据来源,模型性能的差异构成潜在的公平性风险
传统 CL 方法几乎不考虑公平性,而公平性方法(如 DRO、FairBatch)不考虑遗忘。\(\varphi\)-DPO 的动机正是同时解决这两个问题。
核心洞察:DPO 天然适合持续学习¶
标准 DPO 的损失函数依赖一个参考策略 \(\pi_{\text{ref}}\),其作用是防止优化后的策略偏离参考太远。作者发现,如果将 \(\pi_{\text{ref}}\) 设定为上一持续学习步骤的模型 \(\pi_{t-1}\),那么 DPO 本身就隐式地实现了知识蒸馏效果——KL 散度约束自然地限制了新模型与旧模型的偏差,从而缓解遗忘。
核心问题¶
如何将DPO 改造为同时解决持续学习中灾难性遗忘和公平性退化的统一框架?
方法详解¶
DPO 作为持续学习范式¶
在持续学习的第 \(t\) 步,模型从 \(\pi_{t-1}\) 更新到 \(\pi_t\)。标准 DPO 损失为:
其中 \(y_w\) 是 preferred 回答,\(y_l\) 是 rejected 回答,\(\beta\) 为温度参数。参考策略 \(\pi_{t-1}\) 是上一步的模型,这意味着 DPO 隐式地惩罚新策略偏离旧策略太远。
理论连接:DPO 与知识蒸馏¶
作者在 Lemma 1-2 中证明了 DPO 损失与 KL 散度的上下界关系:
其中 \(c_1, c_2, C\) 是与 \(\beta\) 相关的常数。这表明最小化 DPO 损失等价于隐式最小化新旧模型的 KL 散度,即进行了知识蒸馏。这为"DPO 天然适合 CL"提供了理论基础。
\(\varphi\)-DPO:公平性调制¶
尽管 DPO 能缓解遗忘,但不能处理数据不平衡导致的公平性问题。受 focal loss 启发,\(\varphi\)-DPO 引入调制因子:
其中 \(p_{w,l} = \sigma\left(\beta \log\frac{\pi_\theta(y_w|x)}{\pi_{t-1}(y_w|x)} - \beta \log\frac{\pi_\theta(y_l|x)}{\pi_{t-1}(y_l|x)}\right)\) 是模型对当前偏好对的"置信度"。
调制机制的直觉¶
- 当模型对某个偏好对已经很自信(\(p_{w,l}\) 接近 1)时,\((1-p_{w,l})^\gamma\) 接近 0,梯度贡献被下调——模型对"已学好"的样本不再浪费梯度
- 当模型对某个偏好对不自信(\(p_{w,l}\) 接近 0)时,\((1-p_{w,l})^\gamma\) 接近 1,梯度贡献保持不变——模型集中精力学习"困难"样本
- \(\gamma\) 越大,梯度重分配越激进
公平性理论保证(Lemma 3)¶
设不同数据组 \(g \in \{1, \ldots, G\}\),每组的梯度偏差为:
作者证明:当 \(\gamma \to \infty\) 时,\(B_\gamma(\theta) \to 0\),即无论数据分布多么不平衡,足够大的 \(\gamma\) 都能使各组的梯度贡献趋于相等。直觉上,这是因为大 \(\gamma\) 值会让模型只关注"各组中最困难的样本"——而各组最困难样本的数量是均衡的。
偏好对构建¶
本文针对 CoIN 和 MLLM-CL 两个持续学习基准构建偏好对:
- Preferred 回答 \(y_w\):人工标注的 ground truth 回答
- Rejected 回答 \(y_l\):
- 用 LLM(如 GPT-4)基于 ground truth 生成"合理但错误"的回答(如事实错误、细节偏差)
- 人工验证确保 rejected 回答确实劣于 preferred
- 每个 \((x, y_w, y_l)\) 三元组附带组别标签 \(g\),用于计算公平性指标
与其他 CL 方法的联合使用¶
\(\varphi\)-DPO 与经验回放自然兼容:回放缓冲区中的旧数据和新数据分属不同组,公平性调制因子自动平衡两者的梯度贡献。
实验关键数据¶
CoIN Benchmark(分 8 个任务阶段)¶
| 方法 | Final Avg Acc ↑ | Forgetting ↓ | Fairness (Worst-group Gap) ↓ |
|---|---|---|---|
| Sequential FT | 34.2 | 42.1 | 18.3 |
| EWC | 48.7 | 28.5 | 14.2 |
| LwF | 51.3 | 25.2 | 13.8 |
| Experience Replay | 55.8 | 20.1 | 11.5 |
| DPO (as CL) | 58.2 | 16.4 | 9.7 |
| \(\varphi\)-DPO | 63.1 | 12.3 | 4.2 |
MLLM-CL Benchmark¶
| 方法 | Domain Avg ↑ | Ability Avg ↑ | Backward Transfer ↑ | Worst-group Acc ↑ |
|---|---|---|---|---|
| Sequential FT | 41.5 | 38.2 | -15.3 | 22.1 |
| LwF | 52.1 | 49.8 | -8.7 | 35.4 |
| Experience Replay | 56.3 | 53.1 | -5.2 | 40.8 |
| DPO (as CL) | 59.7 | 56.8 | -3.1 | 45.2 |
| \(\varphi\)-DPO | 65.2 | 62.4 | -1.4 | 55.6 |
消融实验¶
- \(\gamma\) 的影响:\(\gamma=0\)(退化为标准 DPO)→ \(\gamma=1\) → \(\gamma=2\) → \(\gamma=5\),公平性指标单调改善;\(\gamma \geq 5\) 后趋于饱和
- DPO vs SFT 作为 CL 范式:DPO 的 forgetting 比 SFT + KD 低 4.1%,验证了 DPO 的隐式蒸馏效应
- 参考策略选择:\(\pi_{t-1}\) vs \(\pi_0\)(初始模型):使用 \(\pi_{t-1}\) 效果更好(forgetting 低 5.2%),因为它更好地保留了最近学到的知识
- \(\beta\) 敏感性:\(\beta \in [0.05, 0.2]\) 范围内表现稳定,\(\beta = 0.1\) 最优
亮点¶
- 持续学习的新视角:首次将 DPO 作为持续学习范式,证明 DPO 天然具有知识蒸馏效应,理论推导优雅
- 双重问题的统一解决:一个框架同时处理遗忘和公平性,而非分别用两个方法拼凑
- 公平性的理论保证:Lemma 3 提供了 \(\gamma \to \infty\) 时梯度偏差趋于零的严格证明,而非仅凭经验
- focal loss 思想的巧妙迁移:将原本用于目标检测中类别不平衡的 focal loss 思想迁移到持续学习的组间不平衡问题,跨领域迁移自然合理
- 轻量级改动:相比标准 DPO 仅增加了一个调制因子 \((1-p)^\gamma\),实现几乎零额外成本
局限与展望¶
- \(\gamma\) 的自适应选择:目前 \(\gamma\) 是手动设定的超参数,理想情况下应根据各组的不平衡程度自适应调整
- 偏好对的质量依赖:rejected 回答由 LLM 生成 + 人工验证,可扩展性受限于标注成本
- 长序列 CL 的验证不足:目前最多测试 8 个阶段的持续学习,更长序列(如 50+ 阶段)下 \(\pi_{t-1}\) 参考策略的累积偏差未被研究
- 单一 \(\gamma\) 适用所有组:所有组共享同一个 \(\gamma\),而实际中不同组可能需要不同程度的调制
- 与参数高效微调的结合:当前使用全量微调,与 LoRA 等 PEFT 方法结合时,DPO 的隐式蒸馏效果是否依然成立有待验证
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ DPO 作为 CL 范式 + focal 公平性调制,双重创新点均有理论支撑
- 实验充分度: ⭐⭐⭐⭐ 两个 CL 基准 + 消融完整,但持续学习步数有限
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰,motivation 阐述充分
- 价值: ⭐⭐⭐⭐⭐ 开辟"DPO for CL"新方向,公平性视角独到