跳转至

IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=n9wS0Hdvri
代码: https://github.com/ming-bot/IDEAL
领域: LLM 对齐 / SFT 数据配比
关键词: 数据混合, 监督微调, 多能力对齐, 影响函数, 双层优化, K-FAC

一句话总结

IDEAL 把"SFT 各领域数据该配多少量"建模成一个双层优化问题,用二阶(Hessian)梯度信息算出每个领域数据应该上采样还是下采样,迭代两轮就能让数学/代码/推理/指令跟随四项能力整体均衡提升约 7%。

研究背景与动机

领域现状:LLM 通过在多领域指令数据上做 SFT 获得通用能力,而当把数学、代码、推理、指令跟随等异构任务混在一起训练时,各领域数据的"配比量"直接决定了最终模型的能力上限。

现有痛点:天真地把多领域数据简单拼起来训练,往往比单任务专精还差——会出现"木桶效应",整体被最弱的那一项拖住。已有的自动配比方法(DoReMi、DOGE、Data Mixing Law)大多源自预训练场景,依赖训练一个小代理模型 + 全局权重搜索,既忽略了 SFT 阶段"数据-任务对齐直接引发跨领域干扰"的独特动态,又需要昂贵的超参扫描。

核心矛盾:另一条路线是影响函数(influence function)做数据选择,但它聚焦单个样本、按实例打分,无法处理"调整整个数据集分布"这种领域级配比问题。于是"如何在多能力 SFT 中有原则地解决数据冲突"始终是开放问题。

本文目标:在已有高质量多领域数据的前提下,找到一个最优的领域配比——注意这里的"均衡"不是各领域数据等量,而是让所有能力都能正常发育的最优分布。

核心 idea[模型感知的梯度引导配比] 引入一个领域级超参数 \(\beta\in\mathbb{R}^n\) 控制每个领域数据相对原始量的重复/削减比例,把"找最优配比"写成以参考集损失为外层目标的双层优化,再用二阶信息一步算出 \(\beta\) 的最优下降方向,迭代上/下采样逼近均衡。

方法详解

整体框架

给定基座模型 \(M_0\) 和按领域切分的训练集 \(\{D_1,\dots,D_n\}\),IDEAL 通过一个外部参考集 \(D_\text{ref}\) 作为多任务性能的统一度量。每轮先在当前配比下把模型训到收敛,再用二阶梯度算出每个领域的调整系数 \(\beta\),据此对各领域数据做上采样(\(\beta_i>0\),重复数据)或下采样(\(\beta_i<0\),削减数据),重构训练集后进入下一轮,通常 2 轮即可达到均衡。

flowchart LR
    A[基座 M0 + 初始配比 Dtr] --> B[训练至收敛得 Mt]
    B --> C[在参考集 Dref 评估]
    C --> D[二阶梯度算 β<br/>K-FAC 近似 Hessian逆]
    D --> E[各领域上/下采样<br/>Di ← 1+βi · Di]
    E --> F{满足停止条件?}
    F -- 否 --> B
    F -- 是 --> G[输出均衡模型]

关键设计

1. 把配比写成双层优化,用链式法则求外层梯度:受 Muennighoff 等人"重复已有数据至多 4 次≈引入等量新数据"的发现启发,IDEAL 用 \(\beta_i\) 控制领域 \(i\) 重复数据的比例,重新定义最优参数为 \(\theta^*=\frac{1}{N+\sum_i\beta_i|D_i|}\arg\min_\theta\big(L(D_\text{tr},\theta)+\sum_i\beta_i L(D_i,\theta)\big)\)。外层目标是最小化参考集损失 \(Q(\beta):=L(D_\text{ref},\theta^*)\),对某个 \(\beta_j\) 求导用链式法则拆成 \(\frac{\partial Q}{\partial\beta_j}=\frac{\partial L(D_\text{ref},\theta^*)}{\partial\theta^*}^\top\frac{\partial\theta^*}{\partial\beta_j}\)。在初始状态 \(\beta=(0,\dots,0)\) 处,利用隐函数定理可解得 \(\frac{\partial\theta^*}{\partial\beta_j}=-\big[\nabla^2 L(D_\text{tr},\theta^*)\big]^{-1}\nabla L(D_j,\theta^*)\),于是配比方向最终由"参考集梯度 × Hessian 逆 × 领域梯度"这个二阶量决定。

2. 用 K-FAC 把 Hessian 逆算得动:对 8B 模型直接求 Gauss-Newton Hessian 的逆是不可行的,IDEAL 借 K-FAC 理论把 Hessian 按 MLP 层近似成块对角,每层用 Kronecker 积分解 \(H_l=\mathbb{E}(x_l x_l^\top)\otimes\mathbb{E}(\delta_l\delta_l^\top)=X_l\otimes\Delta_l\)\(x_l\) 是层输入、\(\delta_l\) 是反传误差),再对 \(X_l,\Delta_l\) 各做特征分解 \(X_l=Q_{X_l}\Lambda_{X_l}Q_{X_l}^\top\) 来释放显存。这样 iHVP(逆 Hessian-向量积)的计算从全局矩阵求逆降为逐层的小矩阵运算,使二阶方法首次能在大模型 SFT 上落地。

3. 按特征值方差挑"重要层"并用 γ 缩放补偿幅度:特征分解后的 \(\Lambda\) 度量了伪梯度在各 K-FAC 特征向量上的方差,方差越低的 MLP 层越稳定,IDEAL 只保留这些"重要层"参与计算以进一步省显存。但只算部分层会让最终 \(\beta\) 幅度偏小,于是引入动态缩放向量 \(\gamma\)\(\beta\) 中绝对值最大者线性放大到预设值 \(m\)\(\alpha=\frac{\partial Q(\beta)}{\partial\beta}\big|_{\beta=0}\)\(\beta=-\gamma\odot\alpha\)\(\gamma=\frac{m}{\max|\alpha|}\),既保留各领域调整方向的相对关系,又把整体步长控制在可控范围(实验取 \(m=0.15\))。

4. 上/下采样实现配比、随机采样降耦合:拿到 \(\beta\) 后,IDEAL 按 \(D_{i,t+1}\leftarrow(1+\beta_i)D_{i,t}\) 对各领域做上采样(重复)或下采样(删减),用随机采样而非任何选择算法来增删数据。这一刻意的选择既节省算力、加快处理,又最大限度地把 IDEAL 的增益与"样本选择质量"解耦——保证提升来自配比本身而非数据选择,从而把整体算法收敛在初始分布附近做小幅搜索,稳定性优于 DoReMi/DOGE 的大幅波动。

实验关键数据

设置:基座 LLaMA3.1-8B 全参微调,四领域(数学/代码/推理/指令跟随),评测用 GSM8K / HumanEval / BBH / IFEval,OpenCompass 平台,每实验重复 5 次取均值,\(m=0.15\)、采样因子 \(\sigma=0.5\)

主实验(Overall 平均分)

方法 Epoch=1 Overall Epoch=3 Overall
Base Model 39.55
最佳 Specific SFT 47.17 49.86
Joint SFT (D0) 54.79 55.35
Random (最佳) 55.64 55.97
DoReMi (最佳) 55.17 56.25
DOGE (最佳) 54.71 56.87
IDEAL (D2) 57.87 59.23

Epoch=1 时 IDEAL 把 HumanEval(代码)从 Joint 的 41.26 拉到 50.61(+9.35),且不牺牲其它任务。

扩展实验(5 领域 + 8 benchmark,Epoch=3)

新增 MATH / ARC-C / MBPP / TruthfulQA 与 TrustAI 领域,并加入 D0(FULL)(约 66k 全量数据)对照,验证 IDEAL 在均衡初始分布的更难设定下仍能稳健提升。

关键发现

  • 初始分布天然次优:Joint SFT 虽优于多数 Specific SFT,但存在木桶效应;Random 虽能撞出不同结果却缺乏稳定性。
  • 2 轮即达均衡:IDEAL 第二轮显著增大代码数据量、略减数学/指令数据,呈现"定向增强弱项"的能力,且数据量变化比 DoReMi/DOGE 更平滑。
  • HumanEval 随训练时长退化:训 3 epoch 在多数领域更好,但 HumanEval 反而不如 Epoch=1 最优——次优配比引入的数据冲突会被更长训练放大。
  • 不同 epoch 优化优先级不同:Epoch=3 下四领域都倾向"加数据"(更多梯度更新对抗记忆化),Epoch=1 则更倾向局部微调各领域数据量。

亮点与洞察

  • 把"数据配多少"从工程玄学变成有理论保证的优化问题:用双层优化 + 隐函数定理把领域配比的最优方向解析出来,不再靠人工 reweight 或规则课程学习。
  • 二阶方法在大模型上"算得动"是真正的工程贡献:K-FAC 块对角 + 特征分解 + 重要层筛选 + γ 缩放,一整套把 iHVP 降到可行的组合拳。
  • 刻意用随机采样而非数据选择,在方法层面把"配比增益"与"选择增益"干净地解耦,让结论更可信。
  • "均衡≠等量" 的洞察很关键——最优分布往往在初始分布附近做小幅非对称调整。

局限与展望

  • 仅在 LLaMA3.1-8B 全参微调上验证,配比的最优性是否随模型规模/架构迁移(虽有附录补充但主结论基于 8B)仍需更多验证。
  • 每轮都要把模型训到收敛再算 \(\beta\),迭代 2 轮意味着 2~3 次完整 SFT,总开销不低;β 的最优性也依赖参考集 \(D_\text{ref}\) 的代表性。
  • 领域是人工预先切分的(math/code/…),对领域边界模糊或长尾领域的适用性未讨论。
  • 训练超参(lr、batch、epoch)声明"未必最优"但全程固定,配比与超参的联合优化是自然的下一步。

相关工作与启发

  • 数据混合:DoReMi(Group DRO 训代理模型)、DOGE(最小化反传梯度差异定权重)、Data Mixing Law(拟合配比-验证损失关系)——这些多源自预训练、需全局权重搜索且忽略分布连续性,IDEAL 的"梯度引导迭代式小幅精修"是对其的针对性改进。
  • 数据选择:LESS(一阶梯度对齐目标分布)、SelectIT(用 LLM 内部不确定性选数据)等聚焦实例级,与 IDEAL 的领域级配比正交、可互补。
  • 影响函数:Koh & Liang 的经典框架与 MATES 等代理模型估分方法,启发了 IDEAL 用二阶信息度量"领域数据→参考集性能"的影响,但 IDEAL 把粒度从单样本提升到了领域分布。

评分

  • 新颖性: ⭐⭐⭐⭐ 把 SFT 数据配比建成双层优化、用二阶/影响函数视角从样本级提升到领域级,并真正在 8B 上跑通二阶计算,思路扎实且填补了 SFT 阶段配比的空白。
  • 实验充分度: ⭐⭐⭐⭐ 四领域主实验 + 五领域八基准扩展 + 多 baseline(Specific/Joint/Random/DoReMi/DOGE)+ 重复 5 次取均值,分析细致;稍欠多基座/多规模的系统对照。
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰、公式推导完整、发现分析有洞察,K-FAC 部分对读者门槛偏高但整体可读。
  • 价值: ⭐⭐⭐⭐ 给"多能力 SFT 该怎么配数据"提供了实用且有理论支撑的工具,整体 +7%、代码开源,对训练通用模型有直接落地意义。