Velocitune: A Velocity-based Dynamic Domain Reweighting Method for Continual Pre-training¶

会议: ACL 2025
arXiv: 2411.14318
代码: 无
领域: NLP / 预训练
关键词: 持续预训练, 域权重调整, 学习速度, Scaling Law, 数据混合

一句话总结¶

提出 Velocitune 框架，通过学习速度（learning velocity）动态调整持续预训练中各数据域的采样权重——优先加大学习较慢的域的权重，并利用 scaling law 低成本估计目标损失，在数学/代码推理和系统命令生成任务上显著优于静态混合基线。

大模型预训练数据通常由多个领域（域）混合构成，域的比例直接影响下游性能。已有方法包括：（1）启发式反复测试不同比例（成本高昂）；（2）动态调整方法如 DoReMi 用小代理模型估计最优权重。

但这些方法难以直接应用于域自适应持续预训练，原因有二：（1）持续预训练场景中通常不存在更小版本的基模型作为代理；（2）基于距离（当前 loss 与目标 loss 之差）的方法可能导致某些域被过度强调。

Velocitune 的核心思路是用"学习速度"而非"距离"来衡量各域的学习进度——关注的是相对进度而非绝对差距，从而实现更平衡的跨域学习。

两阶段：（1）目标估计阶段——用 Chinchilla scaling law 在子集上训练代理模型并外推目标 loss；（2）速度引导训练阶段——周期性计算各域学习速度并按指数加权更新域权重。

学习速度定义：V_t[i] = (ℓ_t^i - ℓ_target^i) / (ℓ_init^i - ℓ_target^i)。分子是当前评估 loss 与目标 loss 的差距，分母是初始 loss 与目标 loss 的差距，相当于归一化的剩余学习量。V 越大说明学习进度越慢。该定义的关键优势是消除了不同域初始 loss 和目标 loss 的绝对差异，实现跨域公平比较。
目标 loss 估计：利用 Chinchilla scaling law \(L(N,D) = E + A/N^α + B/D^β\)。在原始权重下用子集数据训练代理模型，保存多个 checkpoint 的评估 loss 拟合参数，然后外推到全量数据的预期 loss 作为目标。
指数加权更新：\(w_t ← w_{t-m}[i]·exp(V_t[i]) / Σ w_{t-m}[i]·exp(V_t[i])\)。学习速度 V 越大（越慢），exp(V) 越大，权重越高——实现了"补短板"的效果。
Clamp 操作：将学习速度限制在 [0,1] 范围内，防止过分极端的权重调整。

使用标准 NLL 损失。每 m 步评估一次各域的学习速度并更新权重。总训练 token 量等于一个完整 epoch。

Velocitune 全面优于基线和 DBL：在两个实验设置、三个基模型上一致提升。
DBL 方法可能适得其反：在 SystemStack 上 DBL 反而低于基线，因为基于距离的方法导致域间学习不平衡。
数据排序效应：仅使用 Velocitune 的平均权重做静态混合时，数学任务反而更好但代码任务更差，说明动态调整过程本身（数据排序效应）对结果也有贡献。
目标 loss 预测至关重要：去掉目标 loss 后性能显著下降。
权重收敛加速：Velocitune 的权重稳定速度比 DBL 快至少 1.5 倍。