Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0iN4UKZwgn
代码: https://github.com/chuangchuangtan/Semantic-Visual-Anomaly-Detection-and-Reasoning
领域: AIGC 检测 / 多模态VLM / 可解释 Deepfake
关键词: 语义异常检测, AIGC 取证, 多智能体标注, 结构化推理, 可解释 Deepfake

一句话总结¶

针对 AI 生成图像里那些"看着真、细想假"的语义级异常（违反物理、常识、解剖逻辑），本文把它形式化成一个"检测 + 解释 + 评分"的任务，用多智能体流水线 AnomAgent 加轻量人工校验造出 21.5K 图、十几万条结构化四元组标注的 AnomReason 基准，并提出语义匹配指标 SemAP/SemF1；在此微调出的 AnomReasonor-7B 在语义检测上超过所有开源 VLM、逼近 GPT-4o。

研究背景与动机¶

领域现状：Stable Diffusion、Midjourney、Flux 等生成模型已经能合成以假乱真的照片级图像，相应地，AIGC 取证/Deepfake 检测成了刚需。现有取证方法大多盯着低层伪造线索——频域统计伪影、纹理重复、光照阴影不一致——来判真假。

现有痛点：这些低层线索有两个硬伤。一是人看不见：它们是统计层面的细微痕迹，和人类判断图像可信度的依据脱节；二是只给标签不给理由：模型输出"真/假"或"某区域可疑"，无法解释"哪里不对、为什么不对、有多严重"。而真正让人对 AIGC 失去信任的，恰恰是那些一眼能看出的语义级荒谬：足球和橄榄球混成一体、攀岩者悬空违反重力、镜中倒影对不上、一个人长三条胳膊。这类内容级异常传统取证完全捕捉不到。

核心矛盾：语义异常本质是"违反常识/物理/逻辑"，需要的是对场景的理解与推理，而不是对像素统计的拟合。但现有基准（如 FakeClue、Ivy-Fake）只提供粗粒度的真假标签或零散线索，缺乏能支撑"对象—属性—关系"层面推理的结构化标注，导致在其上训练的模型既做不了细粒度推理，也给不出严重程度评估。

本文目标：把问题拆成三件事——(i) 把"语义视觉异常检测与推理"形式化成一个可评测的任务；(ii) 造一个大规模、带结构化标注的基准；(iii) 设计能衡量"语义匹配"而非字面匹配的评测指标。

切入角度：作者观察到，语义异常天然是以对象为中心的——异常要么源于单个对象自身属性矛盾（材质/形状/功能），要么源于对象之间的关系不合理（空间/交互/物理）。于是与其让一个庞大 LLM 一口气吐出所有异常（容易幻觉、不可控），不如模仿人类感知—推理过程，把任务分解给多个专职智能体协作。

核心 idea：用"结构化四元组（Name、Phenomenon、Reasoning、Severity）"定义异常，用一条分阶段多智能体流水线 + 轻量人工校验大规模生产这种标注，从而把 AIGC 取证从"判真假"升级到"讲清楚哪里不真实、为什么、多严重"。

方法详解¶

整体框架¶

系统要解决的是：给定一张 AIGC 图像 \(I\)，输出一组结构化异常 \(A=\{(y_i,o_i,r_i,v_i)\}_{i=1}^m\)，其中 \(y_i\) 是异常名称、\(o_i\) 是现象描述、\(r_i\) 是"为什么算异常"的推理、\(v_i\in[0,100]\) 是严重度评分（0 表示完全不合理，100 表示完全真实）。作者特意要求模型给严重度打分并自证理由，因为"必须论证这个异常是轻微还是严重"会逼模型做更深的推理，进而产出更丰富的描述。

整条标注流水线 AnomAgent 是一个模块化多智能体框架，把异常发现拆成三个串行阶段：阶段 1 视觉实体解析抽取图中所有对象；阶段 2 多视角异常挖掘对每个对象做属性内省与关系推理、产出候选异常；阶段 3 异常整合与结构化去重、规范化成四元组。流水线产出的候选再经一道轻量 HITL 人工校验过滤幻觉，沉淀为 AnomReason 基准。最后在该基准上 LoRA 微调出检测模型 AnomReasonor-7B，并配套 SemAP/SemF1 指标评测。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["AIGC 图像 I"] --> AG
    subgraph AG["AnomAgent 三阶段多智能体流水线"]
        direction TB
        B["阶段1 视觉实体解析<br/>ObjectPerceiver 重复 T 次取并集"] --> C["阶段2 多视角异常挖掘<br/>属性内省 + 关系推理"]
        C --> D["阶段3 整合与结构化<br/>去重 + 四元组格式化"]
    end
    D --> E["结构化四元组异常表示<br/>Name/Phenomenon/Reasoning/Severity"]
    E --> F["HITL 轻量人工校验<br/>ACCEPT / REJECT / UNSURE"]
    F --> G["AnomReason 基准<br/>21.5K 图 · 17.5 万候选 → 5.9/图"]
    G --> H["LoRA 微调 → AnomReasonor-7B<br/>SemAP / SemF1 评测"]

关键设计¶

1. 结构化四元组异常表示：把"判真假"重定义为"可解释的语义评估"

本文最根本的贡献不在某个网络结构，而在任务形式化。它把每个异常表示成四元组 \((y,o,r,v)\)：Name 一句话概括异常，Phenomenon 在语义层面详细描述"看到了什么不对"，Reasoning 解释"为什么这违反常识/物理"，Severity Score \(v\in[0,100]\) 量化"有多不真实"。这直接针对前面"只给标签不给理由"的痛点：相比 FakeClue/Ivy-Fake 那种粗标签或零散线索，四元组把异常落到对象—属性—关系三个语义层级上，使异常分析既可解释又可机读，从而把任务从"检测"推进到"结构化推理"。让模型同时输出严重度并论证，是一个被反复强调的设计——它把"检测"和"解释"绑在一起训练，迫使模型对每个异常给出有依据的推理链而非事后合理化。

2. AnomAgent 三阶段多智能体流水线：用分工模仿人类的感知—推理过程

要在大规模上自动产出高质量四元组，单靠一个 monolithic LLM 直接 prompt 既容易幻觉又不可控。AnomAgent 把它分解为三阶段、多个专职智能体协作。阶段 1（视觉实体解析） 由 ObjectPerceiver 抽取所有语义对象，尤其关注人相关对象；由于 AIGC 图像里对象常常纠缠、扭曲、幻觉，单次检测不可靠，于是用不同 prompt 重复 \(T\) 次再取并集降低漏检：\(O=\bigcup_{t=1}^{T} O^{(t)}\)，每个对象带名称和细节描述。阶段 2（多视角异常挖掘） 对每个对象 \(o_i\) 做两路互补分析：AttributeAnalyzer 做对象内属性分析，检查形状/材质/功能等内部矛盾，得到候选 \(C^{(i)}_{\text{attr}}=\text{AttributeAnalyzer}(o_i)\)；RelationReasoner 做对象间关系推理，以该对象自身的属性异常作为上下文先验，评估它与场景其余部分的空间/语义/功能交互，\(C^{(i)}_{\text{rel}}=\text{RelationReasoner}(o_i,\,O\setminus\{o_i\},\,C^{(i)}_{\text{attr}})\)，先枚举成对/成组关系再过滤掉不合理的。两路汇成总候选集 \(C=\bigcup_{i=1}^{|O|}(C^{(i)}_{\text{attr}}\cup C^{(i)}_{\text{rel}})\)。这两个 agent 内部都用"先广撒网识别、再逐条核验输出"的两步法压低幻觉、减少漏报。阶段 3（整合与结构化） 由 AnomalyIntegrator 合并重复/冗余候选、剔噪得到 \(\hat C\)，再由 AnomalyFormatter 把每条 \(c\in\hat C\) 映射成标准四元组。这种"对象 → 属性/关系 → 整合"的分解，让每一步都聚焦一个子问题、可解释且可扩展，比让一个模型一口气吐答案更可靠。

3. 轻量 HITL 人工校验：用最小代价把自动标注的可信度顶上去

纯自动生成会残留幻觉，纯人工标注又无法规模化。本文在流水线尾部加一道单选式人工校验：每条候选 \(a\) 让标注员只回答一个问题"这条结构化描述对这张图正确吗？"，三选一 ACCEPT/REJECT/UNSURE，对应 \(h(a)\in\{1,0,\perp\}\)，最终只保留 \(A_{\text{final}}=\{a\in A: h(a)=1\}\)。这个协议成本极低却能滤掉不合理的幻觉：经 HITL 后每图平均有效标注从约 8 条降到 5.9 条，严重度分布也整体左移（更倾向较低分），说明语义焦点被收紧、标注更精炼。正是这道"多智能体 + 人工核验"的混合策略，让 AnomReason 在保证质量的同时做到了 21,539 图、174,872 条候选的空前规模（构建期消耗约 41.7 亿 GPT-4o token）。

4. SemAP / SemF1 语义匹配指标：让评测看"意思对不对"而非"字面像不像"

语义异常是开放式文本描述，传统精确匹配或 IoU 无从下手。本文提出基于 BERTScore 的结构感知指标：对每个四元组的 Phenomenon(\(o\)) 和 Reasoning(\(r\)) 字段，用 BERTScore 与真值比相似度，并定义 Phe、Rea、Full（两者融合）三个评测视图。在图像级做一对一异常匹配，相似度阈值取 \(\tau\in\{0.7,0.8,0.9\}\)，算 P/R 曲线后得到 \(\text{SemAP}_v=\frac{1}{|D|}\sum_{I\in D}\text{AP}_v(I)\) 与 \(\text{SemF1}_v=\frac{1}{|D|}\sum_{I\in D}\text{F1}_v(I)\)，严重度 \(v\) 可选作排序置信度。在 Deepfake 应用里进一步引入分类感知变体 CSemAP/CSemF1：解释只有在真假分类正确时才计分、否则记零，把解释质量和有效分类绑定，抑制"瞎猜对了再编理由"的事后合理化。

实验关键数据¶

主实验：AnomReason 语义异常检测与推理¶

在 AnomReason 测试集（10,774 图）上对比十余个开源/闭源 VLM。在 Qwen2.5-VL-7B 上 LoRA 微调得到 AnomReasonor-7B（AR-7B）。多数现成 VLM 的 SemAP\(_{\text{Full}}\) 普遍低于 0.42，说明缺乏针对性监督时语义理解很有限。

模型	SemAP\(_{\text{Full}}\)	SemAP\(_{\text{Rea}}\)	SemF1\(_{\text{Full}}\)	SemF1\(_{\text{Rea}}\)
Qwen2.5-VL-72B（开源最佳）	0.4568	0.4353	0.4104	0.3912
GPT-4o（闭源最强）	0.4727	0.4562	0.5109	0.4930
AnomReasonor-7B（本文）	0.5162	0.5130	0.5009	0.4977

AR-7B 在所有 SemAP 指标上拿下新 SOTA，并全面超过 GPT-4o 的 SemAP；SemF1 上 GPT-4o 略占优（0.5109 vs 0.5009），但 AR-7B 在推理质量 SemF1\(_{\text{Rea}}\) 上反超（0.4977 vs 0.4930）。一个有意思的现象：多数模型"观察（Phe）"强于"推理（Rea）"，如 InternVL3-8B 差距高达 0.4552 vs 0.3676——发现"哪里不对"比说清"为什么不对"容易；而 AR-7B 的观察与推理几乎齐平，体现结构化监督同时拉高了两端。

下游应用：可解释 Deepfake 检测¶

在 AnomReason-Deepfake（真图采自 LAION/reLAION-HR）上同时考核真假分类准确率（Acc）与分类感知的解释指标。

模型	Acc(%)	CSemAP\(_{\text{Rea}}\)	CSemF1\(_{\text{Rea}}\)
Qwen2.5-VL-72B	77.60	0.2337	0.2159
GPT-4o	87.76	0.3487	0.3770
AnomReasonor-7B	82.61	0.3574	0.3929

AR-7B 分类准确率（82.61%）虽不及 GPT-4o，但在因果性解释 CSemAP\(_{\text{Rea}}\)、CSemF1\(_{\text{Rea}}\) 上反超闭源 GPT-4o，说明语义异常推理为传统 Deepfake 检测提供了正交且互补的信号。

关键发现¶

结构化监督是齐平观察与推理的关键：去掉它的现成 VLM 普遍"会看不会说"，而 AR-7B 在仅 7B 规模、LoRA 微调（rank 8、每四层插一个 adapter、冻结视觉编码器、单 epoch）下就逼近百亿级闭源系统。
HITL 提纯有量化效果：每图标注从 ~8 条降到 5.9 条、严重度分布左移，证明它确实在剔除幻觉而非随机删减。
生成器语义体检揭示新差异：用 AR-7B/AnomAgent 作"评审"对 15 个文生图模型打 MAI/AF/CAP（越低越好），HunyuanImage-2.1、OmniGen V2 的 CAP 最低，Sana 1.5、SDXL Lightning 较高；且存在不同失败模式——Janus Pro 7B 异常多但轻微（高 AF 低 MAI），SDv3.5 Large 异常少但严重。说明高感知质量不等于高语义合理性。

亮点与洞察¶

把取证从"像素侦探"升级为"逻辑审稿人"：盯统计伪影的路线终会被更强的生成器抹平，而违反物理/常识的语义破绽是生成模型短期内难以根除的，人也看得见——这个任务定义的视角转换本身比任何单一模块更有价值。
四元组 + 严重度的"强制自证"很巧：要求模型论证严重程度，等于用输出格式逼出更深的推理链，是个可迁移到其他"检测 + 解释"任务的 prompt/监督设计。
多智能体 + 单选式 HITL 的性价比：把标注员的工作压缩成"一道是非选择题"，在保住质量的同时把人力降到最低，是大规模结构化数据生产的实用范式。
AnomReasonor 与 AnomAgent 的互证：微调小模型（带人工偏好）与全自动 agent（零样本）对生成器的排序高度一致，说明可以用全自动 agent 做可扩展的零样本审计。

局限与展望¶

作者承认数据集规模中等且只覆盖静态图像，未来将扩展到视频并继续提升标注质量。
标注流水线依赖外部 API（GPT-4o），模型更新会带来可复现性波动；HITL 虽低成本但含主观判断，难以逐条精确复现（作者以释放全部中间产物来缓解）。
评测以 BERTScore 语义相似度为骨架，指标本身受文本编码器偏置影响；不同任务/难度下的分数不宜直接横比。
严重度评分 \(v\in[0,100]\) 由 VLM 自评给出，缺乏独立的人类严重度真值锚定，校准程度存疑。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 AIGC 取证从低层伪影重定义为语义级"检测+解释+评分"，并配套任务、基准、指标三件套。
实验充分度: ⭐⭐⭐⭐⭐ 十余个 VLM 横评 + Deepfake 应用 + 15 个生成器体检 + 三项消融视角，覆盖面广。
写作质量: ⭐⭐⭐⭐ 任务动机和流水线讲得清楚，部分指标定义偏简、需配合附录。
价值: ⭐⭐⭐⭐⭐ 任务/基准/指标/模型将开源，对可解释 AIGC 取证与生成器对齐评估是可复用的基础设施。