Data Efficient Adaptation in Large Language Models via Continuous Low-Rank Fine-Tuning¶

会议: NeurIPS 2025
arXiv: 2509.18942
代码: GitHub
领域: 模型压缩
关键词: 持续学习, LoRA, 小波核, 知识保留, 参数高效微调

一句话总结¶

提出 DEAL 框架，通过小波核特征过滤保留 LoRA 低秩矩阵中的历史知识核心特征，结合受控知识更新模块和非对称正则化，实现 LLM 在小样本持续微调中学新不忘旧。

研究背景与动机¶

LoRA 微调的 LLM 需要通过持续学习来集成新知识。然而传统持续学习方法面临两个核心挑战：

灾难性遗忘：在新任务上微调后丧失旧任务能力

数据效率低下：小规模领域数据难以充分适配

现有解决方案的问题： - 直接编辑（ROME/MEMIT）：需额外实验定位神经元，成本高 - 堆叠适配器：增加推理开销 - 正交子空间约束（O-LoRA）：限制了跨任务的有益迁移

核心问题：能否设计一种方法，在不增加推理延迟的前提下，用少量新数据持续微调 LoRA，同时保持所有历史任务的性能？

方法详解¶

整体框架¶

DEAL 由两个核心模块组成： 1. 小波核知识保留模块：从 LoRA 低秩矩阵中提取和过滤奇异值，保留历史知识的核心表征 2. 受控知识更新模块：通过高阶正则化约束参数更新，调节新知识集成

推理阶段：更新后的低秩矩阵直接替换原 LoRA 模块，推理延迟不变。

关键设计¶

小波核特征过滤：假设低秩矩阵 \(\mathbf{Y}\)（即 \(\mathbf{A}\) 或 \(\mathbf{B}\)）可分解为任务相关核心成分 \(\mathbf{X}\) 和冗余/噪声成分 \(\mathbf{D}\)：\(\mathbf{Y} = \mathbf{X} + \mathbf{D}\)。

在白噪声假设（\(\mathbf{D}^\top \mathbf{D} = \sigma_D^2 I\), \(\mathbf{X}^\top \mathbf{D} = 0\)）下，核心特征的最小方差估计为：

\[\hat{\mathbf{X}} = \sum_{k=1}^{r_x} \frac{\sigma_k^2 - \sigma_D^2}{\sigma_k} \mathbf{u}_k \mathbf{v}_k^\top\]

由于 \(\sigma_D^2\) 未知，使用热核作为低通滤波器定义多尺度小波网络：

\[\phi_{\sigma_j^2, c_j}(\mathbf{X}) = \exp\left(-\frac{1}{2\sigma_j^2}\|\mathbf{X} - c_j\|^2\right)\]

小波神经网络提取核心特征：

\[\mathbf{H}_{:,i}^{k+1} = \delta\left(\sum_j \phi_{\sigma_j^2, c_j} \mathbf{g}_j \phi_{-\sigma_j^2, c_j} \mathbf{H}_{:,j}^k\right)\]

其中 \(\mathbf{g}_j\) 为可学习对角矩阵，\(c_j\) 为可学习中心。

受控知识更新：通过 MLP 将新知识叠加到核心特征上，生成更新后的低秩矩阵 \(\mathbf{A}'\) 或 \(\mathbf{B}'\)。

损失函数¶

\[\mathcal{L} = \text{MSE}(\mathcal{A}_{\mathbf{W}, \Delta\mathbf{W}'}(\mathbf{Q}), \mathbf{G}) + \lambda_1 \|\boldsymbol{\theta}_1\|_a^a + \lambda_2 \|\boldsymbol{\theta}_2\|_b^b\]

其中 \(\boldsymbol{\theta}_1 = \{\mathbf{g}, \mathbf{C}\}\) 是保留模块参数，\(\boldsymbol{\theta}_2 = \{\boldsymbol{\Omega}, \mathbf{B}\}\) 是更新模块参数。关键约束：\(a \geq b\)，确保保留模块的正则化强度不低于更新模块，最小化对核心特征的扰动。

实验关键数据¶

主实验¶

持续学习性能对比（Average Accuracy / ROUGE-1）：

方法	3-Task TC	4-Task Standard	15-Task Large
	AA / R-1	AA / R-1	AA / R-1
T5 + SeqLoRA	52.4 / 52.8	44.6 / 44.6	42.1 / 44.0
T5 + O-LoRA	85.2 / 87.1	71.2 / 73.3	70.8 / 80.3
T5 + PerTaskFT (oracle)	90.3 / 91.7	70.0 / 73.0	76.5 / 78.2
T5 + DEAL	87.7 / 89.3	78.5 / 82.5	73.9 / 79.1
LLaMA + SeqLoRA	54.1 / 55.9	47.6 / 54.8	45.2 / 53.2
LLaMA + O-LoRA	86.4 / 88.1	75.3 / 80.8	73.2 / 77.4
LLaMA + PerTaskFT	88.2 / 90.0	77.5 / 79.4	77.1 / 82.5
LLaMA + DEAL	88.9 / 90.2	78.9 / 81.3	74.6 / 78.9

在 4-task 上 DEAL 比 O-LoRA 提升 7.3 pp AA（T5），比 SeqLoRA 提升 33.9 pp，接近 oracle PerTaskFT。

消融实验¶

适配器更新策略：联合更新 A+B 达到最高 AA（75.6%），优于单独更新 A（72.8%）或 B（70.2%）

LoRA 秩敏感度：

秩	AA (%)
4	71.5
8	84.3
16	84.5
32	84.6

rank 8 已捕获大部分任务特定变化，继续增大收益递减。

正则化权重（\((a,b)\) 网格搜索）：

\(a\)	\(b\)	AA (%)
1	1	74.8
5	1	83.9
10	2	85.5
10	5	84.1
20	2	82.7

任务顺序鲁棒性：3 种随机排列的 AA 范围仅 73.1%-75.6%，波动 < 3 pp。

关键发现¶

DEAL 在 15-task 大规模基准上超越 SeqLoRA 29 pp 以上，显示出强扩展性
非对称正则化（\(a > b\)）是关键：保留模块需更强约束以保护历史知识
推理延迟完全不变——更新后的低秩矩阵直接替换原模块

亮点与洞察¶

小波核用于 LoRA 特征过滤是新颖且合理的设计——基于 SVD 分频的信号处理思想
推理时间不变是实际部署的关键优势，避免了堆叠适配器的推理开销问题
非对称正则化设计有明确的直觉：保护历史知识应比允许新知识更新有更高优先级
在 LLaMA-3.1-8B 上验证了对大模型的适用性

局限性¶

假设固定任务顺序和静态模型容量，未处理模糊任务边界
白噪声假设（\(\mathbf{D}^\top \mathbf{D} = \sigma_D^2 I\)）在实际低秩矩阵中可能不严格成立
小波核引入额外训练参数，虽然推理时消失但训练阶段有开销
未与 replay-based 方法对比（仅对比无记忆方法）

评分¶

⭐ 新颖性: 4/5 — 小波核特征过滤用于 LoRA 持续学习是新颖的技术路线
⭐ 实验充分度: 4/5 — 15 个数据集 + 两个模型骨干 + 完整消融
⭐ 写作质量: 3/5 — 公式推导详尽但部分符号超载，可读性一般
⭐ 价值: 4/5 — 解决了 LoRA 持续学习中的实际痛点，推理零开销