IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=n9wS0Hdvri
代码: https://github.com/ming-bot/IDEAL
领域: LLM 对齐 / SFT 数据配比
关键词: 数据混合, 监督微调, 多能力对齐, 影响函数, 双层优化, K-FAC

一句话总结¶

IDEAL 把"SFT 各领域数据该配多少量"建模成一个双层优化问题，用二阶（Hessian）梯度信息算出每个领域数据应该上采样还是下采样，迭代两轮就能让数学/代码/推理/指令跟随四项能力整体均衡提升约 7%。

研究背景与动机¶

领域现状：LLM 通过在多领域指令数据上做 SFT 获得通用能力，而当把数学、代码、推理、指令跟随等异构任务混在一起训练时，各领域数据的"配比量"直接决定了最终模型的能力上限。

现有痛点：天真地把多领域数据简单拼起来训练，往往比单任务专精还差——会出现"木桶效应"，整体被最弱的那一项拖住。已有的自动配比方法（DoReMi、DOGE、Data Mixing Law）大多源自预训练场景，依赖训练一个小代理模型 + 全局权重搜索，既忽略了 SFT 阶段"数据-任务对齐直接引发跨领域干扰"的独特动态，又需要昂贵的超参扫描。

核心矛盾：另一条路线是影响函数（influence function）做数据选择，但它聚焦单个样本、按实例打分，无法处理"调整整个数据集分布"这种领域级配比问题。于是"如何在多能力 SFT 中有原则地解决数据冲突"始终是开放问题。

本文目标：在已有高质量多领域数据的前提下，找到一个最优的领域配比——注意这里的"均衡"不是各领域数据等量，而是让所有能力都能正常发育的最优分布。

核心 idea：[模型感知的梯度引导配比] 引入一个领域级超参数 \(\beta\in\mathbb{R}^n\) 控制每个领域数据相对原始量的重复/削减比例，把"找最优配比"写成以参考集损失为外层目标的双层优化，再用二阶信息一步算出 \(\beta\) 的最优下降方向，迭代上/下采样逼近均衡。

方法详解¶

整体框架¶

给定基座模型 \(M_0\) 和按领域切分的训练集 \(\{D_1,\dots,D_n\}\)，IDEAL 通过一个外部参考集 \(D_\text{ref}\) 作为多任务性能的统一度量。每轮先在当前配比下把模型训到收敛，再用二阶梯度算出每个领域的调整系数 \(\beta\)，据此对各领域数据做上采样（\(\beta_i>0\)，重复数据）或下采样（\(\beta_i<0\)，削减数据），重构训练集后进入下一轮，通常 2 轮即可达到均衡。

flowchart LR
    A[基座 M0 + 初始配比 Dtr] --> B[训练至收敛得 Mt]
    B --> C[在参考集 Dref 评估]
    C --> D[二阶梯度算 β<br/>K-FAC 近似 Hessian逆]
    D --> E[各领域上/下采样<br/>Di ← 1+βi · Di]
    E --> F{满足停止条件?}
    F -- 否 --> B
    F -- 是 --> G[输出均衡模型]

关键设计¶

1. 把配比写成双层优化，用链式法则求外层梯度：受 Muennighoff 等人"重复已有数据至多 4 次≈引入等量新数据"的发现启发，IDEAL 用 \(\beta_i\) 控制领域 \(i\) 重复数据的比例，重新定义最优参数为 \(\theta^*=\frac{1}{N+\sum_i\beta_i|D_i|}\arg\min_\theta\big(L(D_\text{tr},\theta)+\sum_i\beta_i L(D_i,\theta)\big)\)。外层目标是最小化参考集损失 \(Q(\beta):=L(D_\text{ref},\theta^*)\)，对某个 \(\beta_j\) 求导用链式法则拆成 \(\frac{\partial Q}{\partial\beta_j}=\frac{\partial L(D_\text{ref},\theta^*)}{\partial\theta^*}^\top\frac{\partial\theta^*}{\partial\beta_j}\)。在初始状态 \(\beta=(0,\dots,0)\) 处，利用隐函数定理可解得 \(\frac{\partial\theta^*}{\partial\beta_j}=-\big[\nabla^2 L(D_\text{tr},\theta^*)\big]^{-1}\nabla L(D_j,\theta^*)\)，于是配比方向最终由"参考集梯度 × Hessian 逆 × 领域梯度"这个二阶量决定。

2. 用 K-FAC 把 Hessian 逆算得动：对 8B 模型直接求 Gauss-Newton Hessian 的逆是不可行的，IDEAL 借 K-FAC 理论把 Hessian 按 MLP 层近似成块对角，每层用 Kronecker 积分解 \(H_l=\mathbb{E}(x_l x_l^\top)\otimes\mathbb{E}(\delta_l\delta_l^\top)=X_l\otimes\Delta_l\)（\(x_l\) 是层输入、\(\delta_l\) 是反传误差），再对 \(X_l,\Delta_l\) 各做特征分解 \(X_l=Q_{X_l}\Lambda_{X_l}Q_{X_l}^\top\) 来释放显存。这样 iHVP（逆 Hessian-向量积）的计算从全局矩阵求逆降为逐层的小矩阵运算，使二阶方法首次能在大模型 SFT 上落地。

3. 按特征值方差挑"重要层"并用 γ 缩放补偿幅度：特征分解后的 \(\Lambda\) 度量了伪梯度在各 K-FAC 特征向量上的方差，方差越低的 MLP 层越稳定，IDEAL 只保留这些"重要层"参与计算以进一步省显存。但只算部分层会让最终 \(\beta\) 幅度偏小，于是引入动态缩放向量 \(\gamma\) 把 \(\beta\) 中绝对值最大者线性放大到预设值 \(m\)：\(\alpha=\frac{\partial Q(\beta)}{\partial\beta}\big|_{\beta=0}\)，\(\beta=-\gamma\odot\alpha\)，\(\gamma=\frac{m}{\max|\alpha|}\)，既保留各领域调整方向的相对关系，又把整体步长控制在可控范围（实验取 \(m=0.15\)）。

4. 上/下采样实现配比、随机采样降耦合：拿到 \(\beta\) 后，IDEAL 按 \(D_{i,t+1}\leftarrow(1+\beta_i)D_{i,t}\) 对各领域做上采样（重复）或下采样（删减），用随机采样而非任何选择算法来增删数据。这一刻意的选择既节省算力、加快处理，又最大限度地把 IDEAL 的增益与"样本选择质量"解耦——保证提升来自配比本身而非数据选择，从而把整体算法收敛在初始分布附近做小幅搜索，稳定性优于 DoReMi/DOGE 的大幅波动。

实验关键数据¶

设置：基座 LLaMA3.1-8B 全参微调，四领域（数学/代码/推理/指令跟随），评测用 GSM8K / HumanEval / BBH / IFEval，OpenCompass 平台，每实验重复 5 次取均值，\(m=0.15\)、采样因子 \(\sigma=0.5\)。

主实验（Overall 平均分）¶

方法	Epoch=1 Overall	Epoch=3 Overall
Base Model	39.55	—
最佳 Specific SFT	47.17	49.86
Joint SFT (D0)	54.79	55.35
Random (最佳)	55.64	55.97
DoReMi (最佳)	55.17	56.25
DOGE (最佳)	54.71	56.87
IDEAL (D2)	57.87	59.23

Epoch=1 时 IDEAL 把 HumanEval（代码）从 Joint 的 41.26 拉到 50.61（+9.35），且不牺牲其它任务。

扩展实验（5 领域 + 8 benchmark，Epoch=3）¶

新增 MATH / ARC-C / MBPP / TruthfulQA 与 TrustAI 领域，并加入 D0(FULL)（约 66k 全量数据）对照，验证 IDEAL 在均衡初始分布的更难设定下仍能稳健提升。

关键发现¶

初始分布天然次优：Joint SFT 虽优于多数 Specific SFT，但存在木桶效应；Random 虽能撞出不同结果却缺乏稳定性。
2 轮即达均衡：IDEAL 第二轮显著增大代码数据量、略减数学/指令数据，呈现"定向增强弱项"的能力，且数据量变化比 DoReMi/DOGE 更平滑。
HumanEval 随训练时长退化：训 3 epoch 在多数领域更好，但 HumanEval 反而不如 Epoch=1 最优——次优配比引入的数据冲突会被更长训练放大。
不同 epoch 优化优先级不同：Epoch=3 下四领域都倾向"加数据"（更多梯度更新对抗记忆化），Epoch=1 则更倾向局部微调各领域数据量。

亮点与洞察¶

把"数据配多少"从工程玄学变成有理论保证的优化问题：用双层优化 + 隐函数定理把领域配比的最优方向解析出来，不再靠人工 reweight 或规则课程学习。
二阶方法在大模型上"算得动"是真正的工程贡献：K-FAC 块对角 + 特征分解 + 重要层筛选 + γ 缩放，一整套把 iHVP 降到可行的组合拳。
刻意用随机采样而非数据选择，在方法层面把"配比增益"与"选择增益"干净地解耦，让结论更可信。
"均衡≠等量" 的洞察很关键——最优分布往往在初始分布附近做小幅非对称调整。

局限与展望¶

仅在 LLaMA3.1-8B 全参微调上验证，配比的最优性是否随模型规模/架构迁移（虽有附录补充但主结论基于 8B）仍需更多验证。
每轮都要把模型训到收敛再算 \(\beta\)，迭代 2 轮意味着 2~3 次完整 SFT，总开销不低；β 的最优性也依赖参考集 \(D_\text{ref}\) 的代表性。
领域是人工预先切分的（math/code/…），对领域边界模糊或长尾领域的适用性未讨论。
训练超参（lr、batch、epoch）声明"未必最优"但全程固定，配比与超参的联合优化是自然的下一步。

评分¶

新颖性: ⭐⭐⭐⭐ 把 SFT 数据配比建成双层优化、用二阶/影响函数视角从样本级提升到领域级，并真正在 8B 上跑通二阶计算，思路扎实且填补了 SFT 阶段配比的空白。
实验充分度: ⭐⭐⭐⭐ 四领域主实验 + 五领域八基准扩展 + 多 baseline（Specific/Joint/Random/DoReMi/DOGE）+ 重复 5 次取均值，分析细致；稍欠多基座/多规模的系统对照。
写作质量: ⭐⭐⭐⭐ 问题定义清晰、公式推导完整、发现分析有洞察，K-FAC 部分对读者门槛偏高但整体可读。
价值: ⭐⭐⭐⭐ 给"多能力 SFT 该怎么配数据"提供了实用且有理论支撑的工具，整体 +7%、代码开源，对训练通用模型有直接落地意义。