跳转至

BUSSARD: Normalizing Flows for Bijective Universal Scene-Specific Anomalous Relationship Detection

会议: CVPR2026
arXiv: 2603.16645
代码: github.com/mschween/BUSSARD
领域: 多模态VLM
关键词: 场景图异常检测, 标准化流, 语义嵌入, 关系异常, 多模态

一句话总结

提出 BUSSARD,首个基于学习的场景特定异常关系检测方法,利用预训练语言模型嵌入场景图三元组 + 自编码器降维 + 标准化流进行似然估计,在 SARD 数据集上 AUROC 提升约 10%,且对同义词变化鲁棒。

研究背景与动机

  1. 图像异常检测不仅包括工业缺陷,还涉及场景上下文理解——如物体出现在不该出现的位置或异常的人-物关系
  2. 现有方法多关注人体姿态等单一组件,忽略了更广泛的上下文信息和物体关系
  3. SARD 任务及数据集关注场景图中的关系异常检测(如"盘子在椅子上"),但现有方法是基于计数的,无学习能力
  4. 计数方法受长尾分布影响严重——少量高频三元组主导,大量正常但低频三元组被误判为异常
  5. 计数方法对词汇变化(同义词)不鲁棒——"person" vs "human" 被视为完全不同实体
  6. 需要能利用语义知识泛化到罕见或未见词汇的学习方法

方法详解

整体框架(4 步流水线)

图像 → 预训练 SGG 提取场景图 → GloVe 词嵌入编码三元组 → 自编码器降维 → 标准化流异常评分

关键设计

词嵌入:用 GloVe(\(d=300\))将三元组 \((o_i, p_{i,j}, o_j)\) 的每个 token 编码为向量,拼接为 \(\mathbf{t} \in \mathbb{R}^{900}\)。语义近似的词(如 "person" 与 "human")在嵌入空间中距离相近,天然解决同义词问题。

自编码器:4 层全连接 + ReLU,将 900 维输入压缩到 \(d_z=512\) 维潜向量。仅在正常数据上训练,用以解决标准化流要求输入输出维度匹配(双射性)与高维训练不稳定的矛盾。

标准化流(RealNVP):将正常三元组的潜向量分布映射到标准高斯 \(\mathcal{N}(0, I)\)。异常检测通过负对数似然: $\(a = -\log p(\mathbf{z}) = -\log p(\mathbf{u}) - \log\left|\det\frac{\partial f_{flow}}{\partial \mathbf{z}}\right|\)$ 偏离正态分布的三元组获得高异常分数。

损失函数

  • 自编码器:\(\mathcal{L}_{AE} = \frac{1}{|\mathcal{T}|}\sum\|\mathbf{t} - \hat{\mathbf{t}}\|^2\)
  • 标准化流:\(\mathcal{L}_{flow} = -\frac{1}{2}\|\mathbf{u}\|_2^2 + \log|\det\frac{\partial f_{flow}}{\partial \mathbf{z}}|\)(最大化正常数据似然)

实验关键数据

主实验:SARD 数据集对比

方法 办公室 AUROC↑ 餐厅 AUROC↑ 训练需求 速度
SARD-o (计数基线) ~75% ~70% 无训练 较慢
SARD-c (修正数据) ~77% ~72% 无训练 较慢
BUSSARD ~87% ~80% 学习 5x 更快

消融实验:鲁棒性与通用性

测试条件 SARD 基线偏差 BUSSARD 偏差
原始词汇 基准 基准
同义词替换 17.5% 性能波动 稳定(接近 0%)

潜空间维度消融

\(d_z\) 性能
256 次优
512 最优
768 略降

关键发现

  • BUSSARD AUROC 高出基线约 10%,同时推理速度快 5 倍
  • 语义嵌入使模型对同义词高度鲁棒(基线偏差 17.5% vs BUSSARD 近 0%)
  • 自编码器降维对标准化流训练稳定性至关重要

亮点与洞察

  • 首个基于学习的 SARD 方法,证明了学习方法在关系异常检测上的巨大优势
  • 多模态设计思路:场景图(结构化视觉信息)+ 语言模型嵌入(语义知识),两种模态互补
  • 利用预训练word embedding 天然解决长尾和同义词问题,简洁有效

局限性

  • SARD 数据集规模较小(~120 张图像),方法在更大规模数据上的表现待验证
  • 依赖 EGTR 场景图生成器——SGG 本身的质量会直接限制下游检测性能
  • 仅在室内场景(办公室/餐厅)验证,开放世界场景的泛化性未知

相关工作与启发

  • 与 ComplexVAD 的区别:后者用场景图做视频异常检测,BUSSARD 专注图像级关系异常
  • 标准化流+自编码器的组合在工业异常检测中常见(如 FastFlow),但用于场景图三元组是新应用
  • 启发:预训练嵌入 + 标准化流的范式可推广到其他结构化数据的异常检测

评分

  • 新颖性: ⭐⭐⭐⭐ (首个学习方法解决 SARD,标准化流用于场景图新颖)
  • 实验充分度: ⭐⭐⭐ (数据集小,仅 2 个场景,消融充分)
  • 写作质量: ⭐⭐⭐⭐ (方法描述清晰,流水线图示直观)
  • 价值: ⭐⭐⭐ (任务领域较窄,但方法框架有推广潜力)