When and Where to Reset Matters for Long-Term Test-Time Adaptation¶
会议: ICLR 2026
arXiv: 2603.03796
代码: https://github.com/YonseiML/asr
领域: 音频语音
关键词: 测试时适应, 模型崩溃, 自适应重置, 选择性重置, Fisher信息, 长期域漂移
一句话总结¶
ASR提出自适应选择性重置方案,通过预测集中度 \(\mathcal{C}_t\) 动态判断何时重置(避免固定周期的次优性),通过从output层向input层渐进的层选择策略判断重置哪些层(保留有价值的适应知识),配合importance-aware正则化恢复被重置的关键知识和on-the-fly适应调整,在CCC-Hard上比SOTA提升44.12%。
研究背景与动机¶
领域现状:持续测试时适应(TTA)在非平稳域流上更新模型,但长期适应导致错误累积→模型崩溃(model collapse):模型对所有输入只预测少数几个类别。
现有痛点:(1) RDumb等方法用固定周期全量重置→周期与实际崩溃风险无关,要么太早(浪费适应知识)要么太晚(错误深度累积);(2) 全量重置灾难性地丢弃所有时间积累的知识;(3) 每次重置后都有显著的性能骤降和恢复延迟。
核心矛盾:重置太频繁→适应不充分;重置太稀→崩溃不可逆。全量重置→知识丢失;不重置→错误累积。
本文目标:(1) When: 如何动态判断何时有崩溃风险?(2) Where: 如何选择重置哪些层以最小化知识损失?(3) 如何恢复被重置但仍然重要的知识?
切入角度:利用预测集中度(prediction concentration)作为崩溃风险的proxy,利用深度网络的层次结构(靠近output的层先被label noise corruption)决定重置范围。
核心 idea:用预测集中度偏离长期基线来触发重置,按崩溃严重度从output层向input层渐进重置,用Fisher信息加权正则化恢复被重置的关键知识。
方法详解¶
整体框架¶
ASR由3个组件构成:(1) 自适应选择性重置(基于 \(\mathcal{C}_t\) vs \(\bar{\mathcal{C}}_{t-1}\));(2) Importance-aware知识恢复(Fisher信息正则化);(3) On-the-fly适应调整(基于预测不一致性 \(\phi_t\))。
关键设计¶
-
自适应重置——When:
- 预测集中度:\(\mathcal{C}_t = \sum_{c=1}^C \hat{p}_{t_c} \log(\hat{p}_{t_c})\),其中 \(\hat{p}_t = \sigma(\frac{1}{|\mathcal{B}_t|}\sum_i f_{\theta_{t-1}}(x_t^i))\)
- 大 \(\mathcal{C}_t\) → 低预测多样性 → 高崩溃风险
- 累积集中度(EMA):\(\bar{\mathcal{C}}_t = \mu_\mathcal{C} \cdot \bar{\mathcal{C}}_{t-1} + (1-\mu_\mathcal{C}) \cdot \mathcal{C}_t\)
- 触发条件:\(\mathcal{C}_t > \bar{\mathcal{C}}_{t-1}\) 时立即重置
- 初始化 \(\bar{\mathcal{C}}_0 = -\log(\alpha_0 \cdot C)\),选择 \(\alpha_0\) 使初始值足够大避免过早重置
- 实验验证:\(\mathcal{C}_t\) 与准确率的Pearson相关系数高达 0.88
-
选择性重置——Where:
- 动机:label noise corruption从网络末端开始(Bai et al., 2021; Yang et al., 2024),靠近input的层更鲁棒
- 重置比例:\(r_t = r_0 + \lambda_r \cdot (\mathcal{C}_t - \bar{\mathcal{C}}_{t-1})\)
- 从output端开始重置 \(r_t\) 比例的层,其余保留
- \(r_t\) 上限1.0,\(r_0\) 为最小重置比例
- 设计动机:崩溃越严重→corruption越深入→需要重置更多层
-
Importance-Aware知识恢复:
- 损失:\(\mathcal{L} = \mathcal{L}_u + \lambda_\mathcal{F}\sum_i \bar{\mathcal{F}}^i(\theta_{t-1}^i - \bar{\theta}^i)^2\)
- \(\bar{\mathcal{F}}^i\):累积Fisher信息矩阵,\(\bar{\theta}^i\):累积参数
- 对先前任务重要的参数(高Fisher值)被引导与累积状态对齐
- 混合累积方案:CMA在每次重置间等权累积参数和Fisher矩阵;EMA在重置触发点聚合CMA值
- 解决的困境:接近重置时参数更接近当前域但也更容易被corruption,EMA的近因偏好不适合直接用
-
On-the-fly适应调整:
- 预测不一致性:\(\phi_t = \frac{1}{|\mathcal{B}_t|}\sum_i \mathbb{I}(\arg\max(\breve{y}_t^i) \neq \arg\max(\hat{y}_t^i))\)
- 大 \(\phi_t\)(源模型与当前模型预测不一致)→ 大域差异
- 自适应调参:\(\lambda_\mathcal{F} = \lambda_0 \cdot \phi_t^2\)(域差异大→正则化强),\(\mu_\mathcal{C} = \mu_0 \cdot \phi_t + 1 - \mu_0\)(域差异大→减少集中度更新)
实验关键数据¶
CCC Benchmark(主实验,ResNet-50)¶
| 方法(基于ETA) | Easy | Medium | Hard | Mean |
|---|---|---|---|---|
| ETA | 43.24 | 19.03 | 0.32 | 20.86 |
| + RDumb | 49.47 | 39.42 | 9.77 | 32.89 |
| + COME | - | - | - | - |
| + ReservoirTTA | - | - | - | - |
| + ASR (Ours) | 最高 | 最高 | 最高 | 最高 |
CCC-Hard上比SOTA提升 44.12%。
其他Benchmark¶
- Concatenated ImageNet-C (CIN-C):所有方法中表现最佳
- ImageNet-C (20次循环):稳定适应无崩溃
- ImageNet-D109 (20次循环):同样最优
关键发现¶
- ASR作为add-on方法适用于ETA、EATA、ROID等多个基线方法
- 在challenging设置下(CCC-Hard)提升尤为显著——这正是现有方法崩溃最严重的场景
- \(\mathcal{C}_t\) 相比其他崩溃检测指标(如极高置信度、分布偏移检测)更稳定可靠
- 选择性重置vs全量重置:显著减少重置后的性能骤降和恢复延迟
消融实验¶
- 去掉自适应重置(固定周期)→性能下降
- 去掉选择性重置(全量重置)→性能骤降和恢复延迟增大
- 去掉Fisher正则化→无法恢复被重置的关键知识
- 去掉on-the-fly调整→在challenging域漂移下适应性不足
亮点与洞察¶
- 信号设计的优雅性:\(\mathcal{C}_t\) 基于batch-level的logit均值softmax的熵,既简单又有效(0.88相关性),无需额外模型或计算
- 层次重置的理论依据:利用了corruption从网络末端开始这一已知现象,将通用观察转化为实用策略
- CMA+EMA混合累积:巧妙解决了"接近重置时参数更适应当前域但更可能被corruption"的bootstrapping困境
- 即插即用:ASR可作为add-on加到任何现有TTA方法上,不需要修改基础适应算法
局限与展望¶
- 超参数(\(r_0, \lambda_r, \alpha_0, \lambda_0, \mu_0\))需要在holdout数据上确定,虽然使用的数据量很少(5%单split)
- 当前假设batch内样本来自相同域,mixed-domain batch场景有待研究
- Fisher信息估计在连续在线学习中的准确性可能随时间退化
- 对ViT-B-16的验证相对初步,更多架构和规模有待评估
- 与prompt-based TTA方法的集成值得探索
相关工作与启发¶
- vs RDumb: 固定周期全量重置是naive但effective的baseline,ASR在此基础上引入自适应性和选择性
- vs CoTTA: CoTTA用augmentation-averaged伪标签和随机参数恢复,ASR用更原则性的Fisher-based方法
- vs ROID/CMF: 权重集成方法,ASR的重置+恢复范式是互补的
- vs PeTTA: 基于参数发散的正则化,ASR的预测集中度是更直接的崩溃指标
评分¶
- 新颖性: ⭐⭐⭐⭐ 自适应+选择性重置的组合以及CMA+EMA混合累积有创新
- 实验充分度: ⭐⭐⭐⭐⭐ 4个benchmark、多个基线方法组合、详细消融、多架构验证
- 写作质量: ⭐⭐⭐⭐⭐ 动机清楚(Fig.1极为直观)、方法图解清晰(Fig.2)、统计严谨
- 价值: ⭐⭐⭐⭐⭐ CCC-Hard 44.12%提升是实质性突破,即插即用的设计具有广泛适用性