PACE: Pretrained Audio Continual Learning¶

会议: ICLR 2026
arXiv: 2602.03355
代码: 有（将随论文发布）
领域: 音频语音
关键词: 音频持续学习, 预训练模型, 参数高效微调, 分析式分类器, 灾难性遗忘

一句话总结¶

首次系统性构建音频持续学习基准，揭示预训练音频模型因底层频谱特征主导导致的上游-下游不匹配问题，提出 PACE 方法（改进首会话适应 + 自适应子空间正交 PEFT + 边界感知扰动），在 6 个音频 CL 基准上大幅超越 SOTA。

研究背景与动机¶

预训练音频模型在静态任务上表现优异，但面临数据分布持续演化的场景时容易灾难性遗忘。将视觉域的持续学习（CL）方法直接迁移到音频域面临根本性障碍：

上游-下游不匹配严重：音频骨干（如 EAT）通过谱图重建预训练，强调低层时频模式而非结构化语义，但下游 CL 需要高层判别性表示

表示漂移更剧烈：音频域相邻会话间的表示变化远超视觉域（t-SNE/CKA 量化证实），导致更严重遗忘

PEFT 方法失效：L2P、DualPrompt 等在音频上退化幅度约为视觉上的 3 倍

三个关键发现驱动方法设计：

发现	内容	影响
Finding 1	统计方法（FSA + 分析式分类器）优于 PEFT 方法	确立技术路线
Finding 2	粗粒度存在表示饱和：首会话已捕获大部分信息	需改进 FSA
Finding 3	细粒度差距更大：首会话不足以弥合语义鸿沟	需多会话适应

方法详解¶

整体框架¶

PACE 要解决的是：预训练音频骨干（如 EAT）的谱图重建目标和下游持续学习的判别需求隔得太远，导致直接迁视觉 CL 方法会剧烈遗忘。它的思路是顺着会话的推进逐步"喂"骨干、又不让新会话踩坏旧会话学到的表示。整条流水线随会话索引 \(t\) 分三段走：第一个会话（\(t=0\)）做改进首会话适应——不再只学个分类头，而是用不对称学习率把梯度逼进深层骨干、配后层 LoRA 真正调骨干，再换上免训练的分析式分类器；中间会话（\(t \in (1, T_3]\)）做自适应多会话子空间正交 PEFT，每个会话挂独立 LoRA 继续学，但把梯度投影到不干扰旧任务的子空间里；当累计适应量超过阈值 \(N_{stop}\) 就转入第三段，冻结骨干、只让分析式分类器闭式吸收新类。整个训练过程还并行挂着边界感知正则化，把新旧类纠缠的决策边界重新撑开。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["流式音频会话<br/>t = 0, 1, ..., T"] --> BB["EAT 骨干<br/>(谱图重建预训练)"]
    BB --> S1

    subgraph S1["改进首会话适应（Improved FSA，t=0）"]
        direction TB
        A1["不对称学习率<br/>压头部·放骨干"] --> A2["后层 LoRA<br/>(CKA 自动定边界层)"]
        A2 --> A3["分析式分类器<br/>(Woodbury 闭式更新)"]
    end

    S1 -->|"t ∈ (1, T₃]"| S2["自适应多会话<br/>子空间正交 PEFT"]
    S2 -->|"累计适应 > N_stop"| S3["冻结骨干<br/>仅更新分析式分类器"]
    S3 --> OUT["类增量持续分类"]

    REG["边界感知正则化<br/>(扰动选边界样本 + margin)"] -.训练时约束.-> S2
    REG -.-> S1

关键设计¶

1. 改进首会话适应（Improved FSA）：让音频骨干在第一个会话就充分适应，而不是只学个分类头

朴素 FSA 把分类头和骨干一起联合训练，结果头部很快过拟合、骨干却没怎么动，这在音频域尤其致命——前面的发现已表明音频骨干的预训练目标（谱图重建）和下游判别任务隔得太远，必须真正调骨干。PACE 因此做了三件事。其一是受限头部学习：用不对称学习率 \(\eta_{head} \ll \eta_{bb}\) 压住头部、放开骨干，并分两段走——先冻结骨干训练头部 \(E_{head}\) 轮，再冻结头部微调骨干 \(E_0\) 轮。这恰好和视觉 CL 里 LAE/SLCA "抑制骨干漂移"的思路相反，因为音频骨干需要被鼓励适应而非被锁死。其二是后层 LoRA：CKA 分析显示浅层编码的是域通用的时频模式、深层才编码任务特定语义，所以只对深层动刀——冻结前 \(L_{tune}-1\) 层，仅在 \(l \geq L_{tune}\) 的层上加 LoRA：

\[W_1^l = W_0^l + A_1^l B_1^l, \quad L_{tune} \leq l \leq L\]

边界层 \(L_{tune}\) 不手调，而是按 CKA 偏差阈值 \(\rho_{layer}\) 自动定位"语义开始分化"的那一层。其三是用分析式分类器替掉可训练头部：先用随机投影 \(W_{proj}\) 把特征打散增强判别性，再用 Woodbury 恒等式递归更新自相关矩阵

\[R_t = R_{t-1} - R_{t-1}\hat{Z}_t^\top(I + \hat{Z}_t R_{t-1} \hat{Z}_t^\top)^{-1}\hat{Z}_t R_{t-1}\]

从而闭式解出分类器权重。这样既不需要存旧样本，新会话的更新也是非破坏性的，天然回避了头部累积偏差。

2. 自适应多会话子空间正交 PEFT：单靠首会话填不平细粒度任务的语义鸿沟，就让后续会话继续学但互不干扰

发现 3 表明细粒度任务上首会话远远不够，于是 PACE 在会话 \(t \in (1, T_3]\) 引入多会话适应（MSA）：每个会话挂一组独立的 LoRA，已学会话的参数全部冻结，骨干权重写成历史增量之和

\[W_t = W_0 + \sum_{\tau=0}^{t-1} B_\tau A_\tau + B_t A_t\]

光叠加还不够，关键是新会话的更新不能踩坏旧任务的表示，所以对梯度做子空间投影约束：

\[g_{update} = P_{\mathcal{U}_t} \nabla_\theta \mathcal{L}_{ce}(g_t(f_t(\mathcal{X}_t)), \mathcal{Y}_t)\]

难点在于怎么算出这个该被保护的子空间又不存历史特征——这正是本文最巧的一手"LoRA 减法"。它把已学的 LoRA 反向减回去构建一个"遗忘模型" \(W_t^{unlearn} = W_0 - \sum_{\tau=0}^{t-1} A_\tau B_\tau\)，用它算出当前会话特征的非中心协方差矩阵 \(X_t^{ucov}\)，再做 SVD 取能量比 \(> \rho_{svd}\) 的主成分张成投影子空间。整个过程只靠参数算术近似旧任务表示，完全不必缓存历史特征。最后配一个自适应冻结开关：当累计适应量 \(\sum_{i=0}^{T_3} N_t > N_{stop}\)，说明骨干已经学够了，就转入 Stage 3 把骨干冻住、只留分析式分类器继续吸收新类。

3. 边界感知正则化：把新旧类别在特征空间里纠缠的决策边界重新撑开

持续学习里新类容易和旧类挤在边界附近，导致互相误判。PACE 先把这些"危险样本"挑出来：对每个输入做 \(N_p\) 次时频掩码扰动 \(\tilde{x}_{i,t}^k = \mathcal{Q}(x_{i,t}, r_T, r_F)\)，用一个临时模型 \(\theta_{temp}\) 去测——如果扰动后的误分类率超过阈值 \(\rho_p\)，说明这个样本靠近边界、判别不稳，就收进边界集 \(\mathcal{B}_t\)。然后对边界样本施加一个 margin 形式的正则项：

\[\mathcal{L}_{reg}(i) = \max(0, \delta + \frac{1}{|\mathcal{S}_i|}\sum_{u \in \mathcal{S}_i}\|f_t(u) - \mu(x_c)\|_2^2 - \min_{b \in \mathcal{B}_t}\|f_t(x_{i,t}) - b\|_2^2)\]

一边把样本拉向自己的类中心 \(\mu(x_c)\)，一边把它推离最近的边界点，等效于强行加大类间间距，让纠缠的决策边界重新分开。

损失函数 / 训练策略¶

FSA 阶段：交叉熵 \(\mathcal{L}_{ce}\) + 边界正则化 \(\mathcal{L}_{reg}\)
MSA 阶段：交叉熵 + 正则化 + 子空间正交梯度投影
Stage 3：仅更新分析式分类器（闭式解，无梯度训练）
预训练骨干：EAT（12 层 ViT，AudioSet-2M 自监督预训练，~5000 小时）
数据增强：SpecAugment 风格的时频遮掩

实验关键数据¶

主实验¶

表1：6 个音频 CL 基准的平均 Top-1 准确率（%）

方法	ESC-50	US8K	SC2	TIMIT-2	TIMIT-3	VocalSet
Joint Training (上界)	96.50	98.07	95.91	95.22	95.22	76.65
L2P	39.50	38.75	14.70	1.50	2.53	20.39
RanPAC (w/ FSA)	92.25	97.08	90.53	85.63	89.92	62.82
HiDe-Prompt	83.75	79.89	40.10	47.78	49.60	48.36
PACE	95.75	97.49	91.87	90.95	94.05	69.08

与联合训练上界的差距：ESC-50 仅 0.75%，US8K 仅 0.58%，TIMIT-3 仅 1.17%。

表2：消融——改进 FSA 组件（粗粒度）

策略	ESC-50	US8K	SC2
w/o FSA	92.50	96.49	81.22
Naive FSA	92.25	97.08	90.53
+ Low LR	93.75	97.35	90.95
+ Later Layer LoRA	95.75	97.49	91.87

消融实验¶

PACE 在 SSLAM 骨干上同样保持优势，验证骨干无关性。

细粒度基准上 MSA 的贡献： - FSA only → +MSA: +3.2% (TIMIT-2) - +子空间正交: +1.5% - +边界感知正则化: +0.6%

关键发现¶

音频 vs 视觉 CL 的本质差异：音频骨干强调低层频谱导致表示漂移 3× 于视觉
FSA 反直觉发现：音频 CL 需鼓励骨干适应（与视觉 CL 相反），冻结浅层+调深层是关键
分析式分类器稳定性：避免累积偏差和表示漂移传播
LoRA 减法创新用法：不需存储历史特征即可近似旧任务表示子空间

亮点与洞察¶

首个系统性音频 CL 基准：6 个基准覆盖粗/细粒度、语音/音乐/环境声
"需要适应而非冻结"：与视觉域"冻结骨干足矣"形成鲜明对比，揭示音频预训练模型独特性质
三阶段渐进式框架：FSA→MSA→冻结自然平衡可塑性与稳定性
LoRA 减法构建"遗忘模型"：利用参数算术近似历史表示子空间，优雅高效

局限与展望¶

LoRA 减法假设近似性：减去 LoRA ≠ 精确遗忘，高 rank/强适应场景可能偏差较大
边界检测依赖临时模型 \(\theta_{temp}\) 质量
自适应冻结阈值 \(N_{stop}\) 需手动设定，不同场景最优值可能不同
仅验证类增量设置，任务感知/域增量等其他 CL 设置未涉及
VocalSet 差距仍达 7.57%，细粒度音乐任务的不匹配最严重

评分¶

新颖性: ⭐⭐⭐⭐ — 首个音频 CL 基准 + 三阶段框架
技术深度: ⭐⭐⭐⭐⭐ — 子空间正交 PEFT + 边界感知正则化理论完整
实验充分度: ⭐⭐⭐⭐⭐ — 6 个基准、多骨干验证、全面消融
实用价值: ⭐⭐⭐⭐ — 音频 CL 的切实需求，但部署场景待明确