BUSSARD: Normalizing Flows for Bijective Universal Scene-Specific Anomalous Relationship Detection¶

会议: CVPR2026
arXiv: 2603.16645
代码: github.com/mschween/BUSSARD
领域: 多模态VLM
关键词: 场景图异常检测, 标准化流, 语义嵌入, 关系异常, 多模态

一句话总结¶

提出 BUSSARD，首个基于学习的场景特定异常关系检测方法，利用预训练语言模型嵌入场景图三元组 + 自编码器降维 + 标准化流进行似然估计，在 SARD 数据集上 AUROC 提升约 10%，且对同义词变化鲁棒。

研究背景与动机¶

图像异常检测不仅包括工业缺陷，还涉及场景上下文理解——如物体出现在不该出现的位置或异常的人-物关系
现有方法多关注人体姿态等单一组件，忽略了更广泛的上下文信息和物体关系
SARD 任务及数据集关注场景图中的关系异常检测（如"盘子在椅子上"），但现有方法是基于计数的，无学习能力
计数方法受长尾分布影响严重——少量高频三元组主导，大量正常但低频三元组被误判为异常
计数方法对词汇变化（同义词）不鲁棒——"person" vs "human" 被视为完全不同实体
需要能利用语义知识泛化到罕见或未见词汇的学习方法

方法详解¶

整体框架（4 步流水线）¶

图像 → 预训练 SGG 提取场景图 → GloVe 词嵌入编码三元组 → 自编码器降维 → 标准化流异常评分

关键设计¶

词嵌入：用 GloVe（$d=300$）将三元组 $(o_i, p_{i,j}, o_j)$ 的每个 token 编码为向量，拼接为 $\mathbf{t} \in \mathbb{R}^{900}$。语义近似的词（如 "person" 与 "human"）在嵌入空间中距离相近，天然解决同义词问题。

自编码器：4 层全连接 + ReLU，将 900 维输入压缩到 $d_z=512$ 维潜向量。仅在正常数据上训练，用以解决标准化流要求输入输出维度匹配（双射性）与高维训练不稳定的矛盾。

标准化流（RealNVP）：将正常三元组的潜向量分布映射到标准高斯 $\mathcal{N}(0, I)$。异常检测通过负对数似然： $$a = -\log p(\mathbf{z}) = -\log p(\mathbf{u}) - \log\left|\det\frac{\partial f_{flow}}{\partial \mathbf{z}}\right|$$ 偏离正态分布的三元组获得高异常分数。

损失函数¶

自编码器：$\mathcal{L}_{AE} = \frac{1}{|\mathcal{T}|}\sum\|\mathbf{t} - \hat{\mathbf{t}}\|^2$
标准化流：$\mathcal{L}_{flow} = -\frac{1}{2}\|\mathbf{u}\|_2^2 + \log|\det\frac{\partial f_{flow}}{\partial \mathbf{z}}|$（最大化正常数据似然）

实验关键数据¶

主实验：SARD 数据集对比¶

方法	办公室 AUROC↑	餐厅 AUROC↑	训练需求	速度
SARD-o (计数基线)	~75%	~70%	无训练	较慢
SARD-c (修正数据)	~77%	~72%	无训练	较慢
BUSSARD	~87%	~80%	学习	5x 更快

消融实验：鲁棒性与通用性¶

测试条件	SARD 基线偏差	BUSSARD 偏差
原始词汇	基准	基准
同义词替换	17.5% 性能波动	稳定（接近 0%）

潜空间维度消融¶

$d_z$	性能
256	次优
512	最优
768	略降

关键发现¶

BUSSARD AUROC 高出基线约 10%，同时推理速度快 5 倍
语义嵌入使模型对同义词高度鲁棒（基线偏差 17.5% vs BUSSARD 近 0%）
自编码器降维对标准化流训练稳定性至关重要

亮点与洞察¶

首个基于学习的 SARD 方法，证明了学习方法在关系异常检测上的巨大优势
多模态设计思路：场景图（结构化视觉信息）+ 语言模型嵌入（语义知识），两种模态互补
利用预训练word embedding 天然解决长尾和同义词问题，简洁有效

局限性¶

SARD 数据集规模较小（~120 张图像），方法在更大规模数据上的表现待验证
依赖 EGTR 场景图生成器——SGG 本身的质量会直接限制下游检测性能
仅在室内场景（办公室/餐厅）验证，开放世界场景的泛化性未知

评分¶

新颖性: ⭐⭐⭐⭐ (首个学习方法解决 SARD，标准化流用于场景图新颖)
实验充分度: ⭐⭐⭐ (数据集小，仅 2 个场景，消融充分)
写作质量: ⭐⭐⭐⭐ (方法描述清晰，流水线图示直观)
价值: ⭐⭐⭐ (任务领域较窄，但方法框架有推广潜力)