IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation¶
会议: ICLR 2026
arXiv: 2603.07926
代码: github
领域: 代码智能
关键词: test-time adaptation, singular value decomposition, mixture of experts, continual adaptation, distribution shift
一句话总结¶
提出 IMSE——将预训练 ViT 线性层通过 SVD 分解为"谱专家",仅微调奇异值实现极端参数高效的测试时适应,并通过多样性最大化损失和域感知谱码检索机制,在 TTA/CTTA/渐进 CTTA 三种场景下达到 SOTA。
研究背景与动机¶
测试时适应(TTA)旨在让源域预训练模型在线适应未知目标域,无需访问源数据。现有方法面临三个关键问题:
预训练特征利用不充分:大型预训练模型蕴含丰富的表征能力,如何在最少参数更新下充分利用这些表征仍未被充分探索。现有方法要么只调 BN 参数(适应能力有限),要么引入额外模块(增加推理开销)。
熵最小化导致特征坍缩:在无标签 TTA 场景中,熵最小化常常驱使模型利用域特定特征而非类别判别特征,反而加剧性能退化。
连续 TTA 中域知识遗忘:在 CTTA 设定下,模型不仅需要保持预训练知识,还需保留并复用先前遇到的域知识。现有方法缺乏高效的域知识保存与复用机制。
方法详解¶
整体框架¶
IMSE 包含三个核心组件,围绕"将线性层视为内在谱专家混合"这一思想展开:
- 内在谱专家混合:对每个线性层做 SVD 分解,将秩-1 分量视为独立谱专家。
- 多样性最大化损失:鼓励谱专家的多样化使用,抵抗熵最小化导致的特征坍缩。
- 域感知谱码检索(IMSE-Retrieval):在 CTTA 中存储并复用已适应的奇异值,实现快速域切换适应。
关键设计¶
谱专家与谱码¶
对第 l 层线性变换做 SVD 分解:W = U Sigma V^T = sum_i sigma_i u_i v_i^T。每个秩-1 分量被视为第 i 个谱专家。由于奇异向量相互正交,不同专家输出也正交。谱码定义为所有层奇异值的集合。
适应时仅调整奇异值(冻结正交基),既保留预训练特征提取器的子空间,又通过调整各专家贡献权重来适应新域。
专家-输入对齐统计量¶
为量化特征坍缩,定义第 i 个专家与输入的归一化对齐 a = v_i^T x / ||x||。计算均值和标准差 Std_i。低标准差表明该专家捕获域特定模式而非类别判别特征。
域感知谱码检索(CTTA 专用)¶
维护域银行,存储 [域描述符, 谱码] 对。域描述符通过 patch token 的通道均值/方差的 EMA 累积。域切换检测采用对称 KL 散度,超过阈值时存储当前谱码并检索最相似历史域的谱码初始化。
损失函数 / 训练策略¶
多样性最大化损失:L_dm = -sum_l (1/r) sum_i Std_i^(l),最大化对齐标准差。
总损失:L_IMSE = L_entmin + lambda_dm * L_dm
同时采用锐度感知最小化(SAM)增强稳定性。选择靠近分类头的后部层应用多样性约束。
实验关键数据¶
主实验¶
ImageNet-C (50k) 单域 TTA(ViT-Base,severity 5):
| 预训练策略 | 方法 | 平均准确率 (%) |
|---|---|---|
| Supervised | DPAL | 67.0 |
| Supervised | IMSE | 69.0 |
| MAE | DPAL | 65.9 |
| MAE | IMSE | 68.3 |
| CLIP | DPAL | 62.3 |
| CLIP | IMSE | 65.5 |
三种预训练策略下均超越前 SOTA DPAL,MAE/CLIP 上提升 2.4/3.2 百分点。
ImageNet-R / ImageNet-A:
| 方法 | ImageNet-R | ImageNet-A |
|---|---|---|
| DPAL | 64.8 | 49.9 |
| IMSE | 69.8 | 54.8 |
分别提升 5.0pp 和 4.9pp。
消融实验¶
CTTA 设定(ImageNet-C, 15 域连续适应):IMSE-Retrieval 比 ViDA 提升 3.4pp,可训练参数量仅为 ViDA 的 1/385。渐进 CTTA(135 域)提升 2.4pp。
关键发现¶
- 参数效率极致:仅微调奇异值即可多种预训练策略下达到 SOTA
- 多样性损失有效抗坍缩:加入 L_dm 后各专家使用更均衡
- 域银行机制实用:谱码紧凑,存储开销极小
- 跨预训练策略通用:Supervised/MAE/CLIP 均有效
亮点与洞察¶
- 🔍 谱专家视角新颖:SVD 秩-1 分量重释为"专家",无需额外架构,利用预训练权重内在结构
- 💡 特征坍缩的量化与解决:首次从谱专家对齐统计量角度量化 TTA 中的特征坍缩
- 🔄 谱码紧凑性天然适配检索:存储与检索成本极低
- ⚡ 参数量极低:比 ViDA 少 385 倍可训练参数
局限与展望¶
- SVD 分解一次性计算开销:初始 SVD 分解有一定成本
- 域描述符鲁棒性:极端域漂移或小批量时可能不够鲁棒
- 分类任务限定:拓展到检测/分割需额外设计
- 骨干兼容性:主要验证 ViT,CNN 适配性待验证
相关工作与启发¶
| 方法 | 策略 | 与 IMSE 的区别 |
|---|---|---|
| TENT | BN affine + 熵最小化 | 仅调 BN,适应能力有限 |
| SAR | 锐度感知 + 样本过滤 | IMSE 增加谱专家和多样性损失 |
| DPAL | 域提示 + 适配器 | 引入额外模块;IMSE 无额外结构 |
| ViDA | 视觉域适配器 | IMSE 参数量为其 1/385 |
| SVFT/SVDiff | 仅调奇异值 | 聚焦 LLM/Diffusion;IMSE 首次用于 TTA |
核心启发:预训练大模型权重矩阵蕴含功能分化的"内在专家"结构,通过 SVD 即可揭示和利用。
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐ |
| 实验充分性 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 实用价值 | ⭐⭐⭐⭐ |
| 总评 | ⭐⭐⭐⭐ |
扎实的 TTA 工作,谱专家视角新颖且具启发性,实验覆盖 TTA/CTTA/渐进 CTTA 三种场景和多种预训练策略,参数效率惊人。主要遗憾是任务类型限于分类。