IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation¶

会议: ICLR 2026
arXiv: 2603.07926
代码: github
领域: 代码智能
关键词: test-time adaptation, singular value decomposition, mixture of experts, continual adaptation, distribution shift

一句话总结¶

提出 IMSE——将预训练 ViT 线性层通过 SVD 分解为"谱专家"，仅微调奇异值实现极端参数高效的测试时适应，并通过多样性最大化损失和域感知谱码检索机制，在 TTA/CTTA/渐进 CTTA 三种场景下达到 SOTA。

研究背景与动机¶

测试时适应（TTA）旨在让源域预训练模型在线适应未知目标域，无需访问源数据。现有方法面临三个关键问题：

预训练特征利用不充分：大型预训练模型蕴含丰富的表征能力，如何在最少参数更新下充分利用这些表征仍未被充分探索。现有方法要么只调 BN 参数（适应能力有限），要么引入额外模块（增加推理开销）。

熵最小化导致特征坍缩：在无标签 TTA 场景中，熵最小化常常驱使模型利用域特定特征而非类别判别特征，反而加剧性能退化。

连续 TTA 中域知识遗忘：在 CTTA 设定下，模型不仅需要保持预训练知识，还需保留并复用先前遇到的域知识。现有方法缺乏高效的域知识保存与复用机制。

方法详解¶

整体框架¶

IMSE 包含三个核心组件，围绕"将线性层视为内在谱专家混合"这一思想展开：

内在谱专家混合：对每个线性层做 SVD 分解，将秩-1 分量视为独立谱专家。
多样性最大化损失：鼓励谱专家的多样化使用，抵抗熵最小化导致的特征坍缩。
域感知谱码检索（IMSE-Retrieval）：在 CTTA 中存储并复用已适应的奇异值，实现快速域切换适应。

关键设计¶

谱专家与谱码¶

对第 l 层线性变换做 SVD 分解：W = U Sigma V^T = sum_i sigma_i u_i v_i^T。每个秩-1 分量被视为第 i 个谱专家。由于奇异向量相互正交，不同专家输出也正交。谱码定义为所有层奇异值的集合。

适应时仅调整奇异值（冻结正交基），既保留预训练特征提取器的子空间，又通过调整各专家贡献权重来适应新域。

专家-输入对齐统计量¶

为量化特征坍缩，定义第 i 个专家与输入的归一化对齐 a = v_i^T x / ||x||。计算均值和标准差 Std_i。低标准差表明该专家捕获域特定模式而非类别判别特征。

域感知谱码检索（CTTA 专用）¶

维护域银行，存储 [域描述符, 谱码] 对。域描述符通过 patch token 的通道均值/方差的 EMA 累积。域切换检测采用对称 KL 散度，超过阈值时存储当前谱码并检索最相似历史域的谱码初始化。

损失函数 / 训练策略¶

多样性最大化损失：L_dm = -sum_l (1/r) sum_i Std_i^(l)，最大化对齐标准差。

总损失：L_IMSE = L_entmin + lambda_dm * L_dm

同时采用锐度感知最小化（SAM）增强稳定性。选择靠近分类头的后部层应用多样性约束。

实验关键数据¶

主实验¶

ImageNet-C (50k) 单域 TTA（ViT-Base，severity 5）：

预训练策略	方法	平均准确率 (%)
Supervised	DPAL	67.0
Supervised	IMSE	69.0
MAE	DPAL	65.9
MAE	IMSE	68.3
CLIP	DPAL	62.3
CLIP	IMSE	65.5

三种预训练策略下均超越前 SOTA DPAL，MAE/CLIP 上提升 2.4/3.2 百分点。

ImageNet-R / ImageNet-A：

方法	ImageNet-R	ImageNet-A
DPAL	64.8	49.9
IMSE	69.8	54.8

分别提升 5.0pp 和 4.9pp。

消融实验¶

CTTA 设定（ImageNet-C, 15 域连续适应）：IMSE-Retrieval 比 ViDA 提升 3.4pp，可训练参数量仅为 ViDA 的 1/385。渐进 CTTA（135 域）提升 2.4pp。

关键发现¶

参数效率极致：仅微调奇异值即可多种预训练策略下达到 SOTA
多样性损失有效抗坍缩：加入 L_dm 后各专家使用更均衡
域银行机制实用：谱码紧凑，存储开销极小
跨预训练策略通用：Supervised/MAE/CLIP 均有效

亮点与洞察¶

🔍 谱专家视角新颖：SVD 秩-1 分量重释为"专家"，无需额外架构，利用预训练权重内在结构
💡 特征坍缩的量化与解决：首次从谱专家对齐统计量角度量化 TTA 中的特征坍缩
🔄 谱码紧凑性天然适配检索：存储与检索成本极低
⚡ 参数量极低：比 ViDA 少 385 倍可训练参数

局限与展望¶

SVD 分解一次性计算开销：初始 SVD 分解有一定成本
域描述符鲁棒性：极端域漂移或小批量时可能不够鲁棒
分类任务限定：拓展到检测/分割需额外设计
骨干兼容性：主要验证 ViT，CNN 适配性待验证

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
总评	⭐⭐⭐⭐

扎实的 TTA 工作，谱专家视角新颖且具启发性，实验覆盖 TTA/CTTA/渐进 CTTA 三种场景和多种预训练策略，参数效率惊人。主要遗憾是任务类型限于分类。

方法	策略	与 IMSE 的区别
TENT	BN affine + 熵最小化	仅调 BN，适应能力有限
SAR	锐度感知 + 样本过滤	IMSE 增加谱专家和多样性损失
DPAL	域提示 + 适配器	引入额外模块；IMSE 无额外结构
ViDA	视觉域适配器	IMSE 参数量为其 1/385
SVFT/SVDiff	仅调奇异值	聚焦 LLM/Diffusion；IMSE 首次用于 TTA