Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation¶

会议: AAAI 2026
arXiv: 2512.16567
代码: https://github.com/zhangyin1996/Causal-Tune
领域: 语义分割 / 域泛化
关键词: 因果分析, VFM微调, 频域分解, 带通滤波, 域泛化分割

一句话总结¶

本文提出Causal-Tune，一种基于因果机制的VFM微调策略，通过DCT频域变换和高斯带通滤波器将VFM特征分离为因果（域不变）和非因果（域特定）成分，仅对因果成分施加可学习token精炼，在域泛化语义分割中有效抑制VFM伪影并提升泛化性能。

研究背景与动机¶

领域现状：VFM（如DINOv2、CLIP）在域泛化语义分割（DGSS）中通过PEFT微调展现强大性能。主流方法如Rein通过层间插入可训练参数精炼特征图。

现有痛点：长期大规模预训练的VFM在提取特征时会产生伪影（artifacts），这些伪影即使经过adapter微调也持续存在（Figure 1可视化）。现有PEFT方法不加区分地微调所有层特征，无法有效抑制这些冗余表示。此外，DGSS数据中存在显式（雨雪雾夜）和隐式（亮度、模糊、噪声、反射）两类非因果因素，后者常被忽略。

核心矛盾：VFM的强大表征能力与其特征冗余（伪影）之间的矛盾——伪影包含域特定的非因果信息，阻碍了有价值的跨域不变表示的利用。

本文目标：从因果视角识别并分离VFM特征中的因果/非因果成分，在微调时保留因果成分、丢弃非因果成分，从而提升域泛化能力。

切入角度：观察到非因果因素（显式和隐式）主要集中在DCT频谱的高频和低频分量中，而中间频段保留了跨域不变的结构和纹理模式（因果因素）。

核心 idea：用DCT将VFM各层特征变换到频域，高斯带通滤波器分离因果/非因果成分，丢弃非因果成分，用因果感知可学习token在频域精炼因果成分，最后iDCT变回空间域。

方法详解¶

整体框架¶

冻结VFM的层间插入Causal-Tune模块。对每层输出特征 \(f_i\)：(1) DCT变换到频域 \(F_i^{DCT}\)；(2) 高斯带通滤波分离因果 \(F_i^{cau}\) 和非因果 \(F_i^{n-cau}\) 成分；(3) 丢弃非因果成分，用因果感知可学习token通过注意力机制精炼因果成分；(4) iDCT变回空间域得到增量 \(\Delta f_i\)。

关键设计¶

DCT频域因果/非因果分离:
- 功能：将VFM特征分解为域不变和域特定成分
- 核心思路：对特征图做2D DCT变换到频域，然后用高斯带通滤波器 \(G(u,v) = \exp(-\frac{u^2+v^2}{2R_H^2}) - \exp(-\frac{u^2+v^2}{2R_L^2})\) 分离——低于 \(R_L\) 和高于 \(R_H\) 的频率为非因果成分，中间频段为因果成分。因果成分 \(F_i^{cau} = F_i^{DCT} \cdot G(u,v)\)
- 设计动机：实验验证（Figure 2可视化）显示各种非因果因素（噪声、模糊、亮度变化等）主要体现在频谱两端，而中间频段对域偏移最为鲁棒
因果感知可学习token精炼:
- 功能：在频域中精炼因果成分
- 核心思路：引入一组可学习的token \(T_i^{cau}\)，通过注意力机制与因果频域特征 \(F_i^{cau}\) 交互，生成精炼后的因果特征 \(\hat{F}_i^{cau}\)。然后iDCT变回空间域作为特征增量
- 设计动机：仅分离因果成分还不够，还需进一步精炼以放大域不变信号。使用注意力而非简单线性变换可以自适应地强化重要的因果频率成分
丢弃非因果成分的设计:
- 功能：彻底消除域特定噪声
- 核心思路：非因果成分 \(F_i^{n-cau} = F_i^{DCT} \cdot (1-G(u,v))\) 被直接丢弃，不参与后续计算。这是一种"显式消除"策略，比隐式让模型自己学习忽略更有效
- 设计动机：对抗式方法对隐式非因果因素效果有限；频域硬过滤是更直接彻底的方案

损失函数 / 训练策略¶

标准语义分割交叉熵损失。VFM（DINOv2）冻结，仅训练Causal-Tune的可学习token和分割头。带通滤波的 \(R_L\) 和 \(R_H\) 为超参数。

实验关键数据¶

主实验¶

方法	Night	Snow	Fog	Rain	Avg (ACDC)
ResNet-ISW	24.3	49.8	64.3	56.0	48.6
Rein (DINOv2)	基线	基线	基线	基线	高
SET	竞争力	竞争力	竞争力	竞争力	竞争力
Causal-Tune	最优	+4.8%↑	最优	最优	最优

消融实验¶

配置	效果	说明
FFT替代DCT	下降	DCT更好分离因果/非因果
无带通滤波（全频段微调）	下降	非因果成分干扰微调
仅低通/仅高通	下降	两端都含非因果信息
带通+token精炼（完整）	最优	因果分离+精炼互补

关键发现¶

Snow条件下提升最显著（+4.8% mIoU），因为雪的域偏移主要体现在高频纹理——恰好被带通滤波去除
DCT比FFT更适合因果/非因果分离——DCT的实数域特性使频率解释更直观
可视化显示Causal-Tune有效消除了DINOv2的特征伪影（Figure 1(c)）
方法参数量极小，符合PEFT的高效原则

亮点与洞察¶

因果视角解释VFM伪影：将VFM长期预训练产生的feature artifacts归因为非因果因素，这个分析角度开启了新的PEFT思路
频域分离的可解释性强：通过可视化验证非因果因素确实集中在频谱两端，带通滤波的物理直觉清晰
简洁有效：整个方法只增加了DCT/iDCT变换、一个带通滤波器和少量可学习token，实现简单但效果显著

局限与展望¶

\(R_L\) 和 \(R_H\) 需要手动调节，不同数据集可能需要不同的频率阈值
假设非因果因素集中在频谱两端——对于某些特殊域偏移（如颜色shifting）可能不成立
仅在语义分割任务上验证，检测、实例分割等任务的效果有待探索
可探索自适应学习滤波器参数而非固定高斯带通

评分¶

新颖性: ⭐⭐⭐⭐ 因果视角+频域分离+VFM微调的组合有新意
实验充分度: ⭐⭐⭐⭐ 多个跨域任务，含天气和城市场景迁移
写作质量: ⭐⭐⭐⭐ 动机清晰，可视化充分
价值: ⭐⭐⭐⭐ 对VFM PEFT社区有指导意义