Anomaly-Related Residual Fields for Cross-domain Anomaly Detection¶

会议: CVPR 2026
论文: CVF Open Access
代码: 未公开
领域: 异常检测 / 跨域迁移
关键词: 跨域异常检测, 扩散模型残差, 残差演化场, 域对齐, 无标签迁移

一句话总结¶

针对扩散模型残差里"噪声大、单看幅值无法区分异常"的难题，本文提出残差演化场（REF）：从扩散反向过程的残差时空轨迹中分离出"持续不被吸收的非平稳异常信号"，再用跨域场对齐（CFA）把有标签源域学到的检测器迁移到无标签目标域，在 9 个跨域迁移任务上平均 AUROC 95.22%，比最强基线高 13 个百分点。

研究背景与动机¶

领域现状：无标签图像异常检测的主流是用扩散模型学一个"正常流形"。因为扩散模型能很好地建模正常样本的内在变化（intra-normal variability），很多方法据此从"预测残差"（输入与去噪重建之间的差）里找异常——常见假设是：偏离流形的异常更难被生成，于是会产生更大的预测误差。

现有痛点：问题在于残差大不等于异常。扩散反向过程本身带随机性，加上正常图像里复杂但合法的局部结构，都会制造大残差。于是"残差幅值"作为异常判据是 non-diagnostic（无诊断力）的——异常区域的残差和正常区域的残差强烈重叠，都很随机。直接在残差上训练检测器，等于把大量噪声注进表示里，跨域泛化能力随之崩掉。

核心矛盾：异常信号是微弱且容易被 intra-normal 变化淹没的；而现有迁移方法只在小域偏移下可靠，一旦正常流形本身在源域/目标域之间差异很大，对齐操作反而会把本就微弱的异常方向一起抹平。既要去掉残差里的随机噪声、又不能在跨域对齐时损失异常敏感方向，二者构成矛盾。

切入角度：作者不看残差的瞬时幅值，而看残差在反向扩散时间轴上的演化行为。理论分析（Supp.）给出一个关键观察：在学到的正常动力学下，符合 intra-normal 统计的残差会随反向步骤被逐渐"吸收"、收敛到平稳（stationary）；而异常区域的残差携带一个额外的非平稳分量，它持续存在、不被吸收。也就是说，异常不在"残差有多大"，而在"残差随时间稳不稳定、能不能持久"。

核心 idea：把残差组织成一个时空向量场，用"能量（energy）+ 非平稳性（non-stationarity）"这两类统计量去检测那个隐藏的、与异常对齐的持续信号，再把这个场空间跨域对齐，从而实现无标签的跨域复用。

方法详解¶

整体框架¶

整个方法在两个域上对称运行：源域有标签、监督训练检测器；目标域无标签、靠对齐复用检测器。给定一张图像，先在它上面跑一个扩散 score 网络，沿反向扩散时间 \(t=1,\dots,T\) 为每个 patch 抽出三种残差向量 \((R_t, M_t, Q_t)\)，把它们随时间堆成序列喂给一个轻量 Field Transformer，得到时间注意力 \(\alpha_t\) 和一个 7 维的 REF 签名（能量 + 非平稳指数 + 方向变率），再用一个检测头映射成 patch 异常概率。源域用标签监督整套（gϕ, fψ）并估计正常 patch 的特征均值/协方差作为校准锚点；目标域抽出同样的 REF 特征后，用 CFA 在时间、方向、二阶统计三个维度把目标场空间对齐到源场空间，从而无需目标标签直接复用源域检测器。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像<br/>(源域有标签 / 目标域无标签)"] --> B["扩散 score 网络<br/>+ Tweedie 投影 Pt"]
    B --> C["残差演化场 REF<br/>逐 patch 抽 R/M/Q 三向量"]
    C --> D["Field Transformer + 自适应时间<br/>能量 EX / 非平稳 NSX / 方向变率 DV → 7D 签名"]
    D -->|源域: 有标签| E["监督检测头 (gϕ, fψ)<br/>+ 平稳性正则 + 空间先验"]
    D -->|目标域: 无标签| F["跨域场对齐 CFA<br/>时间 + 方向子空间 + 二阶对齐"]
    F --> E
    E --> G["patch 异常概率 ŷ(P)<br/>→ 像素异常图 A(u)"]

关键设计¶

1. 残差演化场 REF：用三种残差向量 + 平稳性统计把"持续的异常信号"从噪声里抠出来

痛点是单看残差幅值无法区分异常。REF 的做法是为每个像素 \(u\)、每个扩散时刻 \(t\) 抽三种互补的残差量。设 score 网络为 \(S_\theta(y,t)\)、同时刻 Tweedie 投影为 \(P_t(y)=y+\sigma_t^2 S_\theta(y,t)\)（把噪声状态拉回流形的估计）、\(v_t(u)=S_\theta(P_t(y_t),t)(u)\) 为参考方向：

\[R_t(u) = S_\theta(y_t,t)(u) - S_\theta(P_t(y_t),t)(u),\quad M_t(u) = S_\theta(y_t,t)(u) - \Pi_{v_t}[S_\theta(y_t,t)(u)],\quad Q_t(u) = \Phi_{t\to T}(y_t)(u) - \Phi_{t\to T}(P_t(y_t))(u)\]

其中 \(\Pi_v[w]=\frac{\langle w,v\rangle}{\|v\|^2}v\) 是到 \(v\) 的正交投影，\(\Phi_{t\to T}\) 是 probability-flow ODE 从 \(t\) 积分到 \(T\) 的解。直观上：\(R\) 是幅值残差（偏离流形多远），\(M\) 是方向偏移（残差里垂直于正常方向的那部分，承载异常的"朝向"），\(Q\) 是路径累积漂移（沿反向轨迹积出来的累积差，刻画"持续性"）。

关键不是这三个向量本身，而是它们在 patch \(P\) 上的时间加权能量与非平稳指数：

\[E_X(P) = \sum_{t=1}^{T}\|\bar X_t(P)\|_2^2\, w_t,\qquad NS_X(P) = \frac{\sum_{t=1}^{T-1}\|\bar X_{t+1}(P)-\bar X_t(P)\|_2^2\, w_t}{\sum_{t=1}^{T}\|\bar X_t(P)\|_2^2\, w_t + \epsilon_{\text{rid}}}\]

\(X\in\{R,M,Q\}\)，\(\epsilon_{\text{rid}}\) 是分母防爆的小岭常数。理论侧（Supp. S.2–S.6）证明：在正常动力学下残差是收缩、不累积的（存在收缩因子 \(\kappa_t\in(0,1)\) 使 \(E\|\bar R_{t+1}\|^2\le \kappa_t' E\|\bar R_t\|^2 + B_t'\)），所以正常区域 \(E_X\) 小、\(NS_X\) 小（趋于平稳）；而异常区域因为 \(\gamma_A\Delta s\)（异常责任度 × 正常/异常 score 之差）随时间变化，会强制打破平稳性、让 \(M\) 和 \(Q\) 持续不衰减。⚠️ 完整推导在补充材料，正文只给操作性结论，以原文为准。这样异常判据从"幅值大小"换成了"在时间轴上稳不稳、持不持久"——这正是把异常信号从随机噪声里分离出来的关键。

2. Field Transformer + 自适应时间注意力：把固定时间权重换成可学的、聚成 7 维签名

固定的时间权重 \(w_t\) 对所有 patch 一视同仁，但不同 patch 的"信息量大的时刻"不一样。本文把残差序列 \(\{\text{vec}(\bar R_t,\bar M_t,\bar Q_t)\}_{t=1}^T\) 加时间位置编码后喂给轻量 Field Transformer \(g_\phi\)，输出两样东西：归一化的时间注意力 \(\alpha_t(P)=\text{softmax}(\text{logits}_t)\)（\(\sum_t\alpha_t=1\)）和 patch 嵌入 \(h(P)\)。用 \(\alpha_t\) 替换掉上面公式里的 \(w_t\)，得到自适应能量 \(E_X^{\text{att}}\) 和自适应非平稳 \(NS_X^{\text{att}}\)；再加上方向变率 \(DV(P)=\sum_t \frac{\|\bar M_{t+1}-\bar M_t\|^2}{\|\bar M_t\|^2+\epsilon_{\text{rid}}}\alpha_t\)。最终把 \([h(P);\,E_R^{\text{att}},E_M^{\text{att}},E_Q^{\text{att}},NS_R^{\text{att}},NS_M^{\text{att}},NS_Q^{\text{att}},DV]\)（即那 7 维 REF 签名）拼起来送进检测头 \(f_\psi\to \hat y(P)\in[0,1]\)。多视角统计 \(Z=[E_R,E_M,E_Q,NS_R,NS_M,NS_Q,DV]\) 联合起来比任何单一分量信噪比更高（Supp. S.6）。当只有图像级标签时，用 MIL 聚合 \(\hat y_{\text{img}}=1-\prod_P(1-\hat y(P))\) 训练。

3. 跨域场对齐 CFA：在场空间做时间 / 方向 / 二阶三重对齐，把异常方向保住再迁移

痛点是大域偏移下直接对齐会抹掉异常敏感方向。CFA 不在原始图像/特征空间对齐，而在低维 REF 场空间对齐——理论上 REF 算子对域差有收缩性（per-time 的 1-Wasserstein 满足 \(W_1(F_t\#P_S, F_t\#P_T)\le L_{F,t}W_1(P_S,P_T)\) 且 \(\sum_t w_t L_{F,t}<1\)），所以在场空间对齐能在压缩域差的同时保留异常响应模式。CFA 含三项无监督损失：时间对齐学一个单调重参数化 \(\psi\) 使目标域各时刻残差均值匹配源域 \(L_{\text{time}}=\sum_t\|E_{P\sim D_T}\bar R_t - E_{P\sim D_S}\bar R_{\psi(t)}\|^2\)；二阶对齐用 whiten-recolor 把目标特征 \(Z_T'=\Sigma_S^{1/2}\Sigma_T^{-1/2}(Z_T-m_T)\) 重新着色，再用 CORAL 损失 \(L_{\text{cor}}=\|\Sigma_{Z_T'}-\Sigma_{Z_S}\|_F^2+\eta\|EZ_T'-EZ_S\|^2\) 匹配二阶矩；方向对齐对堆叠的 \(\{\bar M_t\}\) 取 top-r 左奇异向量 \(U_T,U_S\)，用正交 Procrustes 旋转 \(R\)（\(R^\top R=I\)）使 \(L_{\text{sub}}=\|U_T R - U_S\|_F^2\) 最小，专门把异常的"朝向子空间"对齐过去。三者合成 \(L_T=L_{\text{time}}+\lambda_{\text{cor}}L_{\text{cor}}+\lambda_{\text{sub}}L_{\text{sub}}\)，优化完把 \(\psi\)、whiten-recolor、Procrustes 旋转作用到目标特征上，直接跑源域检测器即可，无需任何目标标签。理论上这给出一个目标风险界 \(\varepsilon_T\le\varepsilon_S+d_{H\Delta H}+\lambda^\star\)，其散度项被 REF 收缩和 CFA 进一步压小。

损失函数 / 训练策略¶

源域目标 \(L_S=L_{\text{sup}}+\lambda_{\text{stat}}L_{\text{stat}}+\lambda_{\text{sp}}L_{\text{sp}}\)：\(L_{\text{sup}}\) 是 patch/图像级 BCE；\(L_{\text{stat}}\) 是对正常 patch 的平稳性/能量正则 \(E_{P\in\text{normal}}\sum_X(E_X^{\text{att}}+\lambda_{\text{ns}}NS_X^{\text{att}})\)，强制正常区域收缩、不累积；\(L_{\text{sp}}\) 是基于图像/场梯度边权的弱空间先验（TV 项），让像素异常图 \(A(u)\) 块状连贯。整体分四阶段：S1 在源域训扩散 score 网络 \(S_{\theta_S}\)；S2 建 REF、监督训 \((g_\phi,f_\psi)\) 并估计正常源 patch 的 \((\mu_0,\Sigma_0)\) 和 \(\Sigma_{Z_S}\)；T1 在目标域训另一个 score 网络 \(S_{\theta_T}\)；T2 建目标 REF、无监督优化 CFA。推理时对目标特征施加 CFA 后跑 \((g_\phi,f_\psi)\)，取每图 top-p% 像素的均值作为图像级分数。

实验关键数据¶

主实验¶

数据集：MVTec（bottle→cable/capsule/hazelnut）、VisA（candle→macaroni1/macaroni2/pcb2）、DAGM（Class2→Class1/3/6），源域全标注、目标域训练集完全无标签且被异常污染。主指标 AUROC（%）。

跨域迁移任务	最强基线	基线 AUROC	REF+CFA	提升
MVTec Bottle→Cable	DKGPL	72.63	81.72	+5.02
MVTec Bottle→Capsule	General-AD	82.50	85.13	+2.63
MVTec Bottle→Hazelnut	JWO	89.65	91.66	+2.01
VisA candle→Macaroni1	GLASS	94.94	100.00	+5.06
VisA candle→Macaroni2	DDAD	89.10	99.50	+10.40
VisA candle→Pcb2	MLWE	85.93	98.95	+13.02
DAGM Class2→Class1	DDAD	86.00	100.00	+14.00
DAGM Class2→Class3	DDAD	87.81	100.00	+12.19
DAGM Class2→Class6	DDAD	95.30	100.00	+4.70
平均	DDAD	82.21	95.22	+13.01

REF+CFA 在全部 9 个目标域上都拿到最高 AUROC，平均比最强基线 DDAD 高 13 个百分点；在 VisA / DAGM 上多个任务接近或达到 100%，在相对饱和的 MVTec 上也稳定 +2~5 点。

消融实验¶

在 VisA 三个迁移任务上做消融（下表为三任务平均 AUROC %）：

配置	平均 AUROC	说明
REF+CFA（完整）	99.48	完整模型
w/o R	89.90	去幅值残差分量
w/o M	86.66	去方向偏移，掉得最多（如 macaroni1 −13.28）
w/o Q	87.06	去路径累积漂移
w/o REF（用原始残差）	84.11	直接在原始扩散残差上训，崩塌
w/o TA（时间对齐）	94.34	CFA 去时间对齐，温和下降
w/o DSA（方向子空间对齐）	88.40	CFA 里最敏感，去掉掉最多
w/o SFA（二阶特征对齐）	92.40	去二阶对齐，pcb2 上影响明显
w/o CFA（整块去掉）	81.43	跨域迁移直接崩塌

关键发现¶

方向信息（M / DSA）是命门：无论在 REF 内部（去 M 平均掉到 86.66、macaroni1 单项掉 13.28）还是在 CFA 里（去方向子空间对齐 DSA 掉到 88.40），方向分量都是最敏感的。这印证了核心假设——异常的可分性主要藏在残差的"朝向"而非幅值里。
REF 和 CFA 缺一不可：去掉 REF 直接用原始残差，AUROC 从 99.48 跌到 84.11；整块去掉 CFA，跨域迁移塌到 81.43。前者说明"必须先把异常信号从噪声里抠出来"，后者说明"抠出来还得跨域对齐才能复用"。
R/M/Q 三视角互补：去任一个都掉点，三者联合的信噪比高于单一分量，和理论里"多视角统计 Z 提升 SNR"一致。

亮点与洞察¶

把"异常"重新定义为动力学性质：不看残差有多大，而看它在反向扩散时间轴上稳不稳、持不持久——正常残差被吸收趋于平稳，异常残差非平稳持续。这个视角把"幅值非诊断"这个老大难直接绕开了，是最"啊哈"的地方。
方向子空间用 Procrustes 对齐：把异常的"朝向"抽成 \(\{\bar M_t\}\) 的 top-r 奇异子空间，再用正交旋转对齐，既压域差又不破坏异常方向——这套"在低维场空间而非原始特征空间对齐"的思路，可迁移到任何"对齐会损失任务敏感方向"的跨域任务。
理论给的不只是 motivation 还有 risk bound：从残差收缩界、平稳性破缺，到 REF 算子的 Wasserstein 收缩、CFA 的 \(H\Delta H\) 迁移界，形成闭环，比纯经验方法更有说服力。

局限与展望¶

计算成本是主要短板（作者承认）：REF 建在扩散反向动力学上，源域和目标域都要各训一个 score 网络，训练时间长，难以扩展到需要支持很多域对的场景。作者提的方向是把扩散骨干蒸馏成轻量场预测器、探索单步残差演化、或设计摊销式跨域对齐。
目标域达到 100% AUROC 需谨慎看待 ⚠️：VisA/DAGM 多个任务刷到满分，可能与这些工业数据集类别相对单一、源-目标 pairing 固定有关；在类别更杂、异常更细微的场景能否保持还需验证。
每域单独训 score 网络：意味着新增一个目标域就得重训，没法"一个源模型走天下"，amortized 对齐是关键缺口。
自定义统计量较多（\(R/M/Q\)、\(E_X\)、\(NS_X\)、\(DV\) 及一系列界），核心推导都放在补充材料，正文只给操作性结论，复现门槛偏高。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把异常重定义为残差演化的非平稳/持续性，并在场空间做方向保持的跨域对齐，视角新且自洽
实验充分度: ⭐⭐⭐⭐ 9 个跨域任务 + 三类基线 + 细致消融，但只在工业数据集、多任务刷满分，泛化广度待验证
写作质量: ⭐⭐⭐⭐ 理论-架构-复杂度分层清晰，但核心推导全在补充材料、正文符号密集，阅读门槛高
价值: ⭐⭐⭐⭐ 无标签跨域异常检测的强结果 + 理论框架，工业质检场景实用，但训练成本限制落地规模