From Attraction to Equilibrium: Physics-Inspired Semantic Gravitons for Zero-Shot Anomaly Detection¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM / 零样本异常检测
关键词: 零样本异常检测, CLIP, 物理启发, 势场对齐, 语义引力子

一句话总结¶

SGNet 把 CLIP 视觉-文本的跨模态对齐重新建模成一个「能量势场达到平衡」的物理过程，引入一组可学习的「语义引力子」作为视觉与文本之间的动态中介，通过吸引力与平衡力把两个模态拉到稳定的局部语义平衡点，在 10 个工业/医疗基准上取得零样本异常检测的 SOTA。

研究背景与动机¶

领域现状：零样本异常检测（ZSAD）要求在没有任何缺陷样本监督的情况下识别并定位「偏离正常模式」的区域，对开放世界场景（工业质检、医学影像、自动驾驶）很关键。近两年主流做法是借 CLIP 这类视觉-语言模型，用「正常 / 异常」文本提示去和图像特征做匹配（AnomalyCLIP、WinCLIP、VCP-CLIP、FE-CLIP 等）。

现有痛点：这些方法本质上都是后期粗糙融合（late-stage fusion）——要么用全局 image-text 匹配，要么靠隐式注意力或启发式 prompt 拼接，把视觉和文本特征松散地耦合在一起。CLIP 预训练目标是「全局匹配」而非「空间推理」，所以这种弱结构化的跨模态交互在域偏移、复杂纹理下非常脆弱，表现为图像级判别不稳、像素级定位粗糙。

核心矛盾：异常检测最需要的是细粒度、稳定的视觉-文本对应关系，但现有融合缺乏结构性约束，没有任何机制去「组织」并「稳定」两个模态的交互——它只是把两堆特征拼起来，没有约束它们如何相互靠拢、如何避免某一方主导。

切入角度：作者从物理系统里「粒子如何在能量场中相互作用并稳定下来」这一现象得到启发，把多模态交互重新解释为潜在势场（potential field）中的能量平衡过程：视觉特征和文本特征像带电粒子一样彼此吸引、相互制衡，最终落入低能量的稳定态，就像物理系统会自发收敛到低能量稳态。

核心 idea：用一组可学习的「语义引力子（semantic graviton）」作为视觉-文本之间的动态中介，靠吸引力 + 平衡力两种能量约束，把跨模态对齐从「静态全局融合」变成「动态平衡交互」，从而获得稳定且细粒度的语义对应。

方法详解¶

整体框架¶

SGNet（Semantic Graviton Network）的输入是一张图像 \(I\) 和一对文本提示（正常 prompt、异常 prompt），输出是图像级异常分数 \(\hat{S}\) 和像素级异常 mask \(\hat{M}\)，一次前向同时给出两者。

整条 pipeline 分四步：(1) CLIP 的视觉编码器把图像编成多层特征 \(F_0 \in \mathbb{R}^{C_v^0 \times H_0 \times W_0}\)，文本编码器把两个 prompt 编成 \(L=\{L_{nor}, L_{abn}\} \in \mathbb{R}^{2\times C_l}\)；(2) 初始化 \(N\) 个可学习语义引力子 \(G_0 \in \mathbb{R}^{N\times C_l}\)，作为桥接「正常/异常文本两极」与「视觉证据」的潜在语义吸引子；(3) 经过 \(K\) 个阶段的引力子交互网络（GIN），每个引力子交替吸收文本语义线索和视觉模式，逐级形成一个既能表达正常又能表达偏离的平衡语义势场，同时自适应引力势正则（GPR） 用吸引力与平衡力约束这个场的演化；(4) 最终阶段的引力子作为「自适应分类器」，配合层级解码后的融合特征 \(X\)，由引力子引导的预测头生成异常 mask 和异常分数。

整体上，学到的引力子场对视觉嵌入施加基于能量的调制，使「正常/异常语义」与「局部图像区域」之间形成稳定对齐。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 I + 正常/异常 prompt"] --> B["CLIP 双编码器<br/>视觉 F0 + 文本 L"]
    B --> C["初始化语义引力子 G0<br/>N 个潜在语义吸引子"]
    C --> D["引力子交互网络 GIN<br/>K 阶段·文本↔视觉交替耦合"]
    D --> E["自适应引力势正则 GPR<br/>吸引力 + 平衡力约束场演化"]
    E -->|反馈传播 Gi 进入下一阶段| D
    E --> F["引力子引导的预测<br/>末阶引力子当分类器"]
    F --> G["图像级分数 Ŝ + 像素级 mask M̂"]

关键设计¶

1. 语义引力子：用可学习中介把松散融合改成结构化桥接

这针对「视觉和文本只是松散拼在一起、没有结构约束」的痛点。作者不让视觉特征和文本特征直接全局耦合，而是引入 \(N\) 个可学习 token \(G \in \mathbb{R}^{N\times C_l}\)，每个引力子被视为一个势阱（potential well）：它自适应地吸收某一类语言线索、并对齐到对应的视觉特征，从而形成一个个局部语义平衡点（localized semantic equilibrium）。直觉上，与其让两堆特征一锅乱炖，不如设一批「中介粒子」，每个粒子专门负责一种语义子空间（某种缺陷模式 / 某类正常纹理），把全局模糊的对齐拆成多个有结构、可解释的局部对齐。消融显示引力子数量 \(N=20\) 最优，太少势场太粗、捕捉不了多样异常，太多则角色重叠、注意力被稀释。

2. 引力子交互网络（GIN）：文本→引力子、视觉→引力子交替耦合逐级精修

这是 SGNet 的核心组件，解决「跨模态对应要既稳定又细粒度」的问题。在第 \(i\) 阶段，引力子先和文本交互获取语义先验（充当吸引子）：用 cross-attention 计算语言激活 \(\text{Att}^L_i = \frac{\text{Proj}_g(G_i)\,[\text{Proj}_l(L)]^\top}{\sqrt{C_l}}\)，再 \(G^L_i = \text{Norm}\big(G_{i-1} + \text{Softmax}(\text{Att}^L_i)\,\text{Proj}_l(L)\big)\)。为避免「语言偏置过强」，作者加了一个轻量的 text-to-graviton 门控：

\[G^{cross}_i = \text{Linear}\big(\gamma(G^L_i)\odot G^L_i + G_{i-1}\big)\]

其中 \(\gamma(\cdot)\) 是带 ReLU+Tanh 的两层感知机，动态地重新缩放从文本注入的「语义能量」，只让最相关的语言线索进入势场。随后引力子再和上一阶段的融合视觉特征 \(F_{i-1}\) 做双向注意力（用 \(F_{i-1}\) 而非原始 \(F_0\)，因为它已累积了前面各层的交互），算出视觉注意力 \(\text{Att}^V_i = \frac{\text{Proj}_g(G^{cross}_i)\,\text{Flatten}(\text{Proj}_v(F_{i-1}))}{\sqrt{C_v^{i-1}}}\)，据此同时更新引力子 \(G^V_i\) 和视觉特征 \(F_i\)（视觉特征通过 \(\text{Unflatten}\) 恢复空间结构后被引力子调制）。最后下一阶段引力子继承多模态知识 \(G_i = \text{Norm}(G^{cross}_i + \text{Proj}(G^V_i))\)。这种反馈传播让更高层在越来越稳定的语义平衡点上工作，每个引力子都演化成融合了文本-视觉对齐的「语义吸引子」。和旧方法的区别在于：对齐不再是一次性全局融合，而是被拆成 \(K=4\) 个阶段的迭代精修，模态信息交替注入、互相校准。

3. 自适应引力势正则（GPR）：吸引力 + 平衡力把势场约束成自组织的能量地形

光有交互还不够，作者用一个物理启发的能量约束来稳定收敛、防止某一模态主导。每个引力子 \(g_n\) 对两个模态的「责任」由 attention 派生的关联权重决定：\(a_{v,n}=\frac{\exp(\text{sim}(f_v,g_n)/\tau)}{\sum_m \exp(\text{sim}(f_v,g_m)/\tau)}\)，文本侧 \(a_{t,n}\) 同理（\(\text{sim}\) 为余弦相似度，\(\tau\) 控制注意力锐度），保证只有语义对齐的引力子才会对相应特征施加吸引。

吸引力（Attraction Force）为每个引力子定义模态特定的能量分布 \(p^{(n)}_v = \text{Softmax}(-\|f_v-g_n\|_2^2)\)、\(p^{(n)}_t = \text{Softmax}(-\|f_t-g_n\|_2^2)\)，再用 2-Wasserstein 距离对齐两者：

\[L_{att} = \frac{1}{N}\sum_{n=1}^{N}(a_{v,n}+a_{t,n})\,W_2\big(p^{(n)}_v, p^{(n)}_t\big)\]

它鼓励视觉和文本在每个引力子周围形成同构的势阱——不只对齐位置，还对齐语义场的形状与曲率，让两模态对同一引力子的语义角色达成共识，在域偏移下也保持一致。平衡力（Equilibrium Force）则在拓扑对齐之外，再约束两模态的能量幅度别失衡，用自由能差衡量：

\[L_{equ} = \frac{1}{N}\sum_{n=1}^{N}(a_{v,n}+a_{t,n})\,\big|\|f_v-g_n\|_2^2 - \|f_t-g_n\|_2^2\big|\]

它防止某一模态（视觉主导 / 文本漂移）独占共享势空间，维持稳定的多模态平衡并保留引力子之间的语义多样性。两者合成最终正则 \(L_{grav} = \lambda_{att}L_{att} + (1-\lambda_{att})L_{equ}\)。通过自适应注意力 + 双层能量调节，每个引力子发展出自己的「语义影响区」，整体形成一个自组织、平衡的多模态势场。消融证实，去掉 GPR 会让激活散乱或夸张（要么高亮正常纹理、要么漏掉真异常），即势场塌缩为视觉主导或文本漂移。

4. 引力子引导的预测：把末阶引力子当成一组互补的分类器

层级视觉解码产出特征图 \(X\) 后，作者不把引力子聚合成单一向量，而是让最终阶段每个引力子 \(g_n\) 单独充当一个分类器：经 MLP 得到通道打分向量 \(w_n = \text{MLP}(g_n)\)，与解码特征做 \(\hat{M}_n = w_n X^\top\) 得到该引力子的异常响应，最终 mask 取所有引力子响应的平均 \(\hat{M} = \frac{1}{N}\sum_n \hat{M}_n\) 再过 sigmoid。这样不同引力子可以聚焦互补的语义线索，同时仍输出一张连贯 mask。图像级分数则由一个可学习 class token 通过注意力与引力子集合交互后，经线性层+sigmoid 得到 \(\hat{S}\)。

损失函数 / 训练策略¶

总损失 \(L_{total} = L_{seg} + L_{cls} + \lambda_{grav}L_{grav}\)。其中分类损失为二元交叉熵 \(L_{cls} = -\big(S_{gt}\log\hat{S} + (1-S_{gt})\log(1-\hat{S})\big)\)；分割损失 \(L_{seg}\) 结合 focal + dice 强调边界精度；\(L_{grav}\) 为上面的引力势正则。骨干用 CLIP（ViT-L/14-336），输入统一 518×518，GIN 阶段数 \(K=4\)、引力子数 \(N=20\)、\(\lambda_{grav}=0.6\)、\(\lambda_{att}=0.6\)；AdamW（weight decay 0.05），初始学习率 5e-5、多项式衰减（power 0.9），训 10 epoch、batch size 32。零样本评测采用跨数据集微调协议：在 MVTec-AD 的 test split 上微调、在其余数据集上评测；评 MVTec-AD 时则改在 VisA 的 test split 上微调，避免数据集重叠。

实验关键数据¶

主实验¶

在 10 个真实异常检测数据集（工业：MVTec-AD、VisA、MPDD、BTAD、DAGM、DTD-Synthetic；医疗：CVC-ClinicDB、Kvasir、BrainMRI、Br35H）上评测，指标为 AUROC。

图像级 AUROC（部分数据集）：

数据集	CLIP	AnomalyCLIP	AdaCLIP	FE-CLIP	SGNet（本文）
MVTec-AD	74.1	91.5	89.2	91.9	93.5
VisA	66.4	82.1	85.8	84.6	85.9
MPDD	54.3	77.0	76.0	78.0	80.8
DAGM	79.6	97.5	99.1	97.5	99.2
DTD-Synthetic	71.6	93.5	95.5	98.3	98.7
BrainMRI	73.9	90.3	94.8	94.8	96.4

像素级 AUROC（部分数据集）：

数据集	AnomalyCLIP	VCP-CLIP	AA-CLIP	FE-CLIP	SGNet（本文）
MPDD	96.5	96.2	96.7	97.0	97.5
BTAD	94.2	94.1	97.0	95.6	97.2
DAGM	95.6	99.4	98.8	98.5	99.5
DTD-Synthetic	97.9	98.0	98.9	99.0	99.3
Kvasir	78.9	-	87.2	79.8	87.6

SGNet 在几乎所有数据集的图像级与像素级 AUROC 上都拿到最优，像素级优势尤其明显，说明引力子机制对细粒度异常定位帮助更大。

消融实验¶

在 MVTec-AD 与 VisA 上逐组件消融（指标为 image-level / pixel-level AUROC）：

配置	MVTec 图像级	MVTec 像素级	VisA 图像级	VisA 像素级
仅 baseline（无 GIN/GPR）	91.1	91.8	84.2	95.1
+ 引力子交互 GIN	91.8	92.1	85.1	95.4
+ GIN + 吸引力	92.2	92.6	85.2	95.8
+ GIN + 平衡力	92.7	92.5	85.7	95.6
Full（GIN + 吸引力 + 平衡力）	93.5	92.8	85.9	95.9

引力子数量 \(N\) 的消融：\(N=10/15/20/25/30\) 在 MVTec 图像级分别为 92.1/93.2/93.5/93.3/93.1，\(N=20\) 最优，且整体对 \(N\) 不敏感。

关键发现¶

GIN 把「全局静态融合」变成「动态平衡交互」是涨点主力：单加 GIN 就让 MVTec 图像级从 91.1 → 91.8、VisA 从 84.2 → 85.1；去掉它则模态交互退回粗糙、全局纠缠，定位变弱。
吸引力与平衡力互补：吸引力更利于像素级（同构势阱→形状对齐），平衡力更利于图像级（防模态主导→判别稳定）；两者叠加才同时拉满，Full 模型在四项指标全部最高。
超参自稳定：\(\lambda_{grav}\)、\(\lambda_{att}\) 在 0.3–0.8 大范围内 AUROC 波动很小（MVTec 维持在 92–93.5），作者认为这种物理式公式天然具有自稳定性、对调参不敏感。

亮点与洞察¶

「物理势场」这个隐喻被落到了实处：吸引力用 2-Wasserstein 对齐两模态的能量分布（不只对位置、还对形状/曲率），平衡力用自由能差防止单模态主导——把「粒子在能量场里稳定」翻译成了具体可优化的两个 loss，而不是停在 PPT 级类比。
引力子当「中介粒子」拆解全局对齐：与其让视觉/文本一锅乱炖，不如设 \(N\) 个各管一类语义的可学习中介，把模糊的全局对齐拆成多个有结构、可解释的局部对齐——这种「引入一组瓶颈 token 做跨模态路由」的思路可迁移到其他需要细粒度对齐的 VLM 任务（指代分割、开放词汇检测）。
末阶引力子当「一组互补分类器」：不聚合成单向量、而是每个引力子各出一张响应再平均，天然鼓励不同引力子聚焦互补语义线索，同时保持 mask 连贯，是个轻巧的多专家预测头设计。

局限性 / 可改进方向¶

依赖跨数据集微调协议：所谓「零样本」其实仍在另一个数据集的 test split 上微调（评 MVTec 用 VisA 微调），并非完全无训练的纯零样本，跨域泛化的边界值得更严苛地考量。⚠️ 这是 ZSAD 领域的通行协议，但读者需注意它和「零监督」的差别。
物理隐喻的必要性未被充分证伪：吸引力/平衡力本质是两个分布对齐/能量平衡正则，论文未对比「去掉物理叙事、直接用等价的对齐+平衡约束」能否达到同样效果，物理框架更多是动机包装还是真带来不可替代的归纳偏置，尚不清楚。
计算开销未报告：\(K=4\) 阶段、\(N=20\) 引力子、每阶段双向 cross-attention 会带来额外计算，论文未给出推理速度/显存与 baseline 的对比。
改进思路：可探索引力子数 \(N\) 的自适应（按图像复杂度动态分配）、把势场正则扩展到 3 个以上模态，或在真·训练无关（training-free）设定下验证引力子的泛化。

评分¶

新颖性: ⭐⭐⭐⭐ 把跨模态对齐重构成「势场平衡」并用引力子中介 + 吸引/平衡双能量正则，视角新颖且落地具体。
实验充分度: ⭐⭐⭐⭐ 10 个工业/医疗基准、图像级+像素级双指标、组件/数量/超参消融齐全；缺计算开销与纯零样本设定的对比。
写作质量: ⭐⭐⭐⭐ 物理隐喻贯穿、公式完整，方法叙述清晰；个别能量项符号略密。
价值: ⭐⭐⭐⭐ ZSAD 工业落地价值高，引力子中介的结构化对齐思路可迁移到其他细粒度 VLM 任务。