FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges¶

会议: NeurIPS 2025
arXiv: 2512.02161
代码: finegrainbench.ai
领域: 多模态VLM
关键词: T2I评估, VLM评估, 失败模式分类, prompt遵循, 联合评测

一句话总结¶

FineGRAIN 提出了一个结构化的联合评测框架，通过定义27种细粒度失败模式和利用 VLM+LLM agentic pipeline 来同时评估文本到图像模型的 prompt 遵循能力和视觉语言模型的图像理解能力，揭示了两类模型在特定任务上的系统性缺陷。

研究背景与动机¶

文本到图像（T2I）模型（如 Flux、Stable Diffusion 3.5）已能生成视觉上惊艳的图像，但在精确捕捉用户 prompt 中的特定属性（如正确物体数量、颜色绑定等）方面仍频繁失败。同时，VLM 作为 T2I 模型的评判工具，其自身也存在类似的理解缺陷——尤其在组合推理方面。

现有T2I评测（如 PartiPrompts、DrawBench、T2I-CompBench++）存在两个核心问题：

粒度不够细：将不同类型的失败混在一起评估（如把数量错误和形状错误归为同一个"属性"类别）

T2I 和 VLM 从未联合评估：单独评估某一方无法揭示视觉理解的共性缺陷

核心动机：需要一个层次化、细粒度的评估框架，能同时诊断 T2I 和 VLM 的具体弱点。

方法详解¶

整体框架¶

FineGRAIN 是一个 agentic 评测系统，流程如下： 1. 失败模式本体论：定义11个高层类别（Scene、Attribute、Relation、Count、Negation...），细分为27个具体失败模式 2. 精心设计的 prompts：为每个失败模式手写25-30个挑战性 prompt，共约750+个 prompt 3. T2I 生成：5个 T2I 模型对每个 prompt 生成图像，共3750+张图像（1360×768分辨率） 4. VLM 评判：VLM 回答针对失败模式定制的问题 5. LLM 判决：LLM 对比 VLM 回答与原始 prompt，给出布尔分数（是否存在失败模式）、原始分数和解释

关键设计¶

27种失败模式的定义（部分示例）：

高层类别	具体失败模式
Attribute	Color binding, Shape binding, Texture binding, Counts, Scaling, Perspective
Human	Action/Motion, Anatomical accuracy, Emotional conveyance, Social relations
Text	Text-based, Short text, Long text, Tense+Rendering+Style
Adversarial	Opposite relation, Surreal, Abstract concepts
Temporal	Human action, Cause-and-effect, Tense variation

Failure-mode-specific 评测 prompt 设计： - 针对每个失败模式设计特定的问题模板 - 例如"Counts or Multiple Objects"模板："Count how many [object] are there? Count how many [object] are there?" - LLM 根据 T2I prompt 和失败模式模板自动生成具体的 VLM 评测问题 - 这种分层设计使评测具有可编程的难度调节能力

三个新能力： 1. 布尔分数：直接判断"T2I 是否遵循了指令"（VQAScore/CLIPScore 不具备此能力） 2. 客观人类标注：聚焦于有明确客观答案的 prompt（如数量、文字渲染），避免主观审美评判 3. 可解释分数：LLM 输出失败判断的推理过程

与 VQAScore 的关键区别： - VQAScore 将 T2I prompt 直接交给 VLM 评判，依赖 VLM 自行判断是否正确——这导致 VLM 倾向于确认 prompt 的准确性 - FineGRAIN 针对失败模式定制问题，避免了 VLM 被 prompt 引导的偏差

损失函数 / 训练策略¶

FineGRAIN 不涉及模型训练，是一个纯评估框架。使用的模型组件： - LLM：Llama3-70B（生成评测问题 + 最终判决） - VLM：Molmo-72B（主要），加 InternVL-78B、Pixtral-124B（比较） - T2I：Flux-dev、SD3-Medium、SD3-Large、SD3.5-Medium、SD3.5-Large - 每个 prompt-图像对由人类标注二值标签（是否遵循指令）

实验关键数据¶

主实验——T2I模型各失败模式的成功率（人类评判）¶

失败模式	Flux	SD3.5	SD3.5-M	SD3-M	SD3-XL
Color Binding	93.3	96.7	93.3	96.7	40.0
Abstract Concepts	92.3	84.6	88.5	73.1	69.2
BG-FG Mismatch	76.0	69.2	73.1	53.9	53.9
Human Action	72.4	69.0	27.6	13.8	44.8
Counts or Multiple Objects	0.0	0.0	0.0	0.0	0.0
Long Text Specific	0.0	0.0	0.0	0.0	0.0
Short Text Specific	64.0	48.0	24.0	20.0	0.0
平均	51.0±1.8	40.1±1.8	30.6±1.7	24.3±1.6	21.1±1.5

惊人发现：所有T2I模型在"数量计数"和"长文本生成"上的成功率为零！

文本生成难度梯度¶

模型	3 Tokens	10 Tokens	20 Tokens
Flux	0.84	0.40	0.04
SD3.5-Large	0.92	0.28	0.00
SDXL	0.00	0.00	0.00

FineGRAIN vs VQAScore 与人类标注的一致率¶

指标	平均一致率
VQAScore-Human	57.7%
FineGRAIN-Human	67.4%（+10%）

FineGRAIN 在 "Counts" 和 "Long text" 上接近人类水平
VQAScore 在短文本和长文本上与人类一致率 <30%
VQAScore 最高一致率在 Color binding（84%）

关键发现¶

Flux 全面领先：平均成功率51.0%，显著高于第二名SD3.5的40.1%
细粒度分析至关重要：先前工作（如 GenAIBench）认为 SDXL 在计数任务上表现不错，但 FineGRAIN 发现所有模型在这个任务上均彻底失败——因为先前评测将计数与其他属性错误混合
难度可调：文本生成成功率从3 tokens的0.52线性下降到50 tokens的0.00；物体计数从1个的0.66下降到3个的0.03
VLM 的偏差：当原始 T2I prompt 被展示给 VLM 时，VLM 倾向于确认图像准确——这是 VQAScore 方法的根本缺陷

亮点与洞察¶

联合评测框架的首创性：同时评估 T2I 和 VLM，用 VLM 的失败来校准 T2I 的评估可靠性
27种失败模式本体论：相比现有benchmark仅覆盖 Scene/Attribute/Relation/Count 四大类，FineGRAIN 新增 Human/Text/Multi-Style/Adversarial/Temporal 等7个高层类别
可编程难度调节：通过参数化 prompt（如调整物体数量、文本长度）实现评测难度的精细控制
布尔分数+可解释推理：为 T2I test-time scaling 提供了基础——可持续生成直到 FineGRAIN 判定合格

局限与展望¶

仅使用开源模型（未包含 DALL-E 3、Midjourney 等闭源SOTA）
主 pipeline 仅使用单一 LLM（Llama3-70B），其他 LLM 可能表现更好
"Surreal"等主观失败模式的人类标注一致性较低
VLM+LLM pipeline 本身也存在失败模式，导致评估可靠性受限
人类标注成本高，扩展到更多模型和更多 prompt 有实际困难

评分¶

新颖性: ⭐⭐⭐⭐（联合评测框架和27种失败模式本体论是主要创新）
实验充分度: ⭐⭐⭐⭐（5个T2I + 3个VLM，3750+图像人类标注，多维度分析）
写作质量: ⭐⭐⭐⭐（结构清晰，案例丰富，但部分结果分散在附录中）
价值: ⭐⭐⭐⭐（为T2I/VLM评测建立了新标准，揭示了重要的系统性缺陷）