When and Where to Reset Matters for Long-Term Test-Time Adaptation¶

会议: ICLR 2026
arXiv: 2603.03796
代码: https://github.com/YonseiML/asr
领域: 音频语音
关键词: 测试时适应, 模型崩溃, 自适应重置, 选择性重置, Fisher信息, 长期域漂移

一句话总结¶

ASR提出自适应选择性重置方案，通过预测集中度 \(\mathcal{C}_t\) 动态判断何时重置（避免固定周期的次优性），通过从output层向input层渐进的层选择策略判断重置哪些层（保留有价值的适应知识），配合importance-aware正则化恢复被重置的关键知识和on-the-fly适应调整，在CCC-Hard上比SOTA提升44.12%。

研究背景与动机¶

领域现状：持续测试时适应（TTA）在非平稳域流上更新模型，但长期适应导致错误累积→模型崩溃（model collapse）：模型对所有输入只预测少数几个类别。

现有痛点：(1) RDumb等方法用固定周期全量重置→周期与实际崩溃风险无关，要么太早（浪费适应知识）要么太晚（错误深度累积）；(2) 全量重置灾难性地丢弃所有时间积累的知识；(3) 每次重置后都有显著的性能骤降和恢复延迟。

核心矛盾：重置太频繁→适应不充分；重置太稀→崩溃不可逆。全量重置→知识丢失；不重置→错误累积。

本文目标：(1) When: 如何动态判断何时有崩溃风险？(2) Where: 如何选择重置哪些层以最小化知识损失？(3) 如何恢复被重置但仍然重要的知识？

切入角度：利用预测集中度（prediction concentration）作为崩溃风险的proxy，利用深度网络的层次结构（靠近output的层先被label noise corruption）决定重置范围。

核心 idea：用预测集中度偏离长期基线来触发重置，按崩溃严重度从output层向input层渐进重置，用Fisher信息加权正则化恢复被重置的关键知识。

方法详解¶

整体框架¶

ASR由3个组件构成：(1) 自适应选择性重置（基于 \(\mathcal{C}_t\) vs \(\bar{\mathcal{C}}_{t-1}\)）；(2) Importance-aware知识恢复（Fisher信息正则化）；(3) On-the-fly适应调整（基于预测不一致性 \(\phi_t\)）。

关键设计¶

自适应重置——When:
- 预测集中度：\(\mathcal{C}_t = \sum_{c=1}^C \hat{p}_{t_c} \log(\hat{p}_{t_c})\)，其中 \(\hat{p}_t = \sigma(\frac{1}{|\mathcal{B}_t|}\sum_i f_{\theta_{t-1}}(x_t^i))\)
- 大 \(\mathcal{C}_t\) → 低预测多样性 → 高崩溃风险
- 累积集中度（EMA）：\(\bar{\mathcal{C}}_t = \mu_\mathcal{C} \cdot \bar{\mathcal{C}}_{t-1} + (1-\mu_\mathcal{C}) \cdot \mathcal{C}_t\)
- 触发条件：\(\mathcal{C}_t > \bar{\mathcal{C}}_{t-1}\) 时立即重置
- 初始化 \(\bar{\mathcal{C}}_0 = -\log(\alpha_0 \cdot C)\)，选择 \(\alpha_0\) 使初始值足够大避免过早重置
- 实验验证：\(\mathcal{C}_t\) 与准确率的Pearson相关系数高达 0.88
选择性重置——Where:
- 动机：label noise corruption从网络末端开始（Bai et al., 2021; Yang et al., 2024），靠近input的层更鲁棒
- 重置比例：\(r_t = r_0 + \lambda_r \cdot (\mathcal{C}_t - \bar{\mathcal{C}}_{t-1})\)
- 从output端开始重置 \(r_t\) 比例的层，其余保留
- \(r_t\) 上限1.0，\(r_0\) 为最小重置比例
- 设计动机：崩溃越严重→corruption越深入→需要重置更多层
Importance-Aware知识恢复:
- 损失：\(\mathcal{L} = \mathcal{L}_u + \lambda_\mathcal{F}\sum_i \bar{\mathcal{F}}^i(\theta_{t-1}^i - \bar{\theta}^i)^2\)
- \(\bar{\mathcal{F}}^i\)：累积Fisher信息矩阵，\(\bar{\theta}^i\)：累积参数
- 对先前任务重要的参数（高Fisher值）被引导与累积状态对齐
- 混合累积方案：CMA在每次重置间等权累积参数和Fisher矩阵；EMA在重置触发点聚合CMA值
- 解决的困境：接近重置时参数更接近当前域但也更容易被corruption，EMA的近因偏好不适合直接用
On-the-fly适应调整:
- 预测不一致性：\(\phi_t = \frac{1}{|\mathcal{B}_t|}\sum_i \mathbb{I}(\arg\max(\breve{y}_t^i) \neq \arg\max(\hat{y}_t^i))\)
- 大 \(\phi_t\)（源模型与当前模型预测不一致）→ 大域差异
- 自适应调参：\(\lambda_\mathcal{F} = \lambda_0 \cdot \phi_t^2\)（域差异大→正则化强），\(\mu_\mathcal{C} = \mu_0 \cdot \phi_t + 1 - \mu_0\)（域差异大→减少集中度更新）

实验关键数据¶

CCC Benchmark（主实验，ResNet-50）¶

方法（基于ETA）	Easy	Medium	Hard	Mean
ETA	43.24	19.03	0.32	20.86
+ RDumb	49.47	39.42	9.77	32.89
+ COME	-	-	-	-
+ ReservoirTTA	-	-	-	-
+ ASR (Ours)	最高	最高	最高	最高

CCC-Hard上比SOTA提升 44.12%。

其他Benchmark¶

Concatenated ImageNet-C (CIN-C)：所有方法中表现最佳
ImageNet-C (20次循环)：稳定适应无崩溃
ImageNet-D109 (20次循环)：同样最优

关键发现¶

ASR作为add-on方法适用于ETA、EATA、ROID等多个基线方法
在challenging设置下（CCC-Hard）提升尤为显著——这正是现有方法崩溃最严重的场景
\(\mathcal{C}_t\) 相比其他崩溃检测指标（如极高置信度、分布偏移检测）更稳定可靠
选择性重置vs全量重置：显著减少重置后的性能骤降和恢复延迟

消融实验¶

去掉自适应重置（固定周期）→性能下降
去掉选择性重置（全量重置）→性能骤降和恢复延迟增大
去掉Fisher正则化→无法恢复被重置的关键知识
去掉on-the-fly调整→在challenging域漂移下适应性不足

亮点与洞察¶

信号设计的优雅性：\(\mathcal{C}_t\) 基于batch-level的logit均值softmax的熵，既简单又有效（0.88相关性），无需额外模型或计算
层次重置的理论依据：利用了corruption从网络末端开始这一已知现象，将通用观察转化为实用策略
CMA+EMA混合累积：巧妙解决了"接近重置时参数更适应当前域但更可能被corruption"的bootstrapping困境
即插即用：ASR可作为add-on加到任何现有TTA方法上，不需要修改基础适应算法

局限与展望¶

超参数（\(r_0, \lambda_r, \alpha_0, \lambda_0, \mu_0\)）需要在holdout数据上确定，虽然使用的数据量很少（5%单split）
当前假设batch内样本来自相同域，mixed-domain batch场景有待研究
Fisher信息估计在连续在线学习中的准确性可能随时间退化
对ViT-B-16的验证相对初步，更多架构和规模有待评估
与prompt-based TTA方法的集成值得探索

评分¶

新颖性: ⭐⭐⭐⭐ 自适应+选择性重置的组合以及CMA+EMA混合累积有创新
实验充分度: ⭐⭐⭐⭐⭐ 4个benchmark、多个基线方法组合、详细消融、多架构验证
写作质量: ⭐⭐⭐⭐⭐ 动机清楚（Fig.1极为直观）、方法图解清晰（Fig.2）、统计严谨
价值: ⭐⭐⭐⭐⭐ CCC-Hard 44.12%提升是实质性突破，即插即用的设计具有广泛适用性