跳转至

LongT2IBench: A Benchmark for Evaluating Long Text-to-Image Generation with Graph-structured Annotations

会议: AAAI 2026
arXiv: 2512.09271
代码: https://welldky.github.io/LongT2IBench-Homepage/
领域: 图像生成
关键词: 文本到图像, 长文本对齐, 图结构标注, 评估基准, 多模态大模型

一句话总结

提出 LongT2IBench,首个面向长文本到图像(T2I)对齐的评估基准,包含 14K 长文本-图片对和图结构化人工标注,并构建 LongT2IExpert 评估器,通过层次化对齐思维链(HA-CoT)指令微调 MLLM,同时输出对齐分数和结构化解释。

研究背景与动机

随着文本到图像生成模型在艺术创作和广告设计中的广泛应用,用户对长文本 T2I 生成能力的需求显著增加。然而,现有的 T2I 对齐评估基准面临严重局限:

短文本偏向:现有基准(如 Pick-a-pic、HPDv2、TIFA)主要聚焦短 prompt 场景

标注粗粒度:仅提供 MOS(Mean Opinion Score)或 Likert 量表标注,缺乏可解释性

长文本特有挑战: - 细节过载(Detail Overload):标注员难以对长文本直接给出整体对齐分数 - 对齐复杂性(Alignment Complexity):元素级标注不足以捕捉长文本中的复杂对齐关系(如远距离元素间的链接)

这些问题严重阻碍了长 T2I 评估器的开发。本文的核心动机是:构建一个既能提供定量分数,又能提供细粒度可解释对齐的基准,来推动长 T2I 对齐评估领域的发展。

方法详解

整体框架

本文工作分为两大部分:

  1. LongT2IBench 基准构建:包含数据准备 → 数据标注(图结构化转换 + 对齐标注)→ 标签生成
  2. LongT2IExpert 评估器:基于 MLLM 的长 T2I 评估模型,使用层次化对齐思维链进行指令微调

关键设计

1. LongT2IBench 基准构建

数据准备: - 长 Prompt 来源(3K 条):人工生成内容(DiffusionDB)、AI 生成内容(GPT-4)、图像长描述(DOCCI),确保多样性 - 词数分布均衡:在 30-50、50-70、70-90、90-110、110+ 五个区间平衡采样 - T2I 生成:使用 6 类模型生成图像——SD v3.5、PixArt-α(基础开源)、DALL-E 3、Midjourney v6(商用)、LongCLIP-SD、LongSD(专用长文本模型)

图结构化标注(核心创新)

采用生成-精炼-认证(Generate-Refine-Qualify)三阶段协议:

  1. Generate:GPT-4 将长 prompt 转换为文本图结构(包含实体 Entity、属性 Attribute、关系 Relation)
  2. Refine:训练有素的标注员精炼图结构,通过增删改确保准确性
  3. Qualify:双重检查,仅保留一致同意的转换结果

从 4.5K 初始长 prompt 中保留 3K 精确转换。

图像-文本图对齐标注: - 标注员对实体、属性、关系分别做二元对齐判断(E-Align、A-Align、R-Align) - 采用层次化标注逻辑:先评估实体,自动过滤掉未对齐实体关联的属性和关系 - 三个独立标注员审核,多数一致才保留 - 最终保留 14K 图文对(从 18K 中筛选,排除 NSFW 和严重畸变)

标签生成: - 对齐分数:对齐元素数 / 总元素数(实体、属性、关系等权重) - 对齐解释:基于图标注生成结构化的对齐/未对齐元素列表

2. LongT2IExpert 评估器

层次化对齐思维链(HA-CoT):设计三跳推理过程引导 MLLM 模拟人类评估:

  1. 第一跳:实体对齐器 → 分析所有实体与图像的对齐
  2. 第二跳:属性与关系对齐器 → 检查对齐实体关联的属性和关系
  3. 第三跳:综合评估 → 给出整体对齐分数

模型架构: - 骨干模型:Qwen2.5-VL-7B-Instruct - 新增 <<Level>> token 用于数值分数输出 - 新增 <<Json>> token 用于结构化解释输出 - 使用 LoRA(r=32, α=64)进行参数高效微调

损失函数 / 训练策略

多任务训练目标:

\[\mathcal{L} = \mathcal{L}_I + \lambda \cdot \mathcal{L}_S\]
  • 解释损失 \(\mathcal{L}_I\):交叉熵损失,监督图结构化解释生成
  • 评分损失 \(\mathcal{L}_S\):MSE 损失,\(\mathcal{L}_S = (\hat{y}_s - y_s)^2\),其中 \(\hat{y}_s = \mathcal{R}(\hat{\mathbf{h}}_{Level})\)
  • 超参 \(\lambda = 10\),训练 3 epochs,A800 GPU

评分头由三层 Linear 层组成,学习率分别为 LoRA 参数 \(5e^{-5}\),评分头 \(2e^{-4}\)

实验关键数据

主实验

长 T2I 对齐评分对比(SRCC/PLCC,各词数区间):

模型 30-50 SRCC 50-70 SRCC 70-90 SRCC 110+ SRCC Overall SRCC Overall Avg
CLIPScore 0.224 0.349 0.271 0.209 0.269 0.267
HPSv2 0.540 0.479 0.394 0.148 0.381 0.387
Q-Eval-Score 0.470 0.460 0.339 0.422 0.361 0.358
ImageReward* (微调) 0.538 0.546 0.384 0.167 0.438 0.439
LongT2IExpert 0.781 0.605 0.548 0.431 0.558 0.557

长 T2I 对齐解释对比(准确率):

模型 Entity Overall Attribute Overall Relation Overall All Overall
GPT-4o 41.6% 25.0% 10.2% 27.0%
Gemini-1.5-pro 46.7% 28.8% 13.4% 31.1%
Grok-3 43.1% 21.7% 7.4% 25.7%
LongT2IExpert 71.9% 47.3% 35.2% 53.2%

消融实验

配置 对齐评分 (Avg) 对齐解释 (Overall Acc)
LongT2IExpert (w/o Score) 32.8%
LongT2IExpert (w/o Interpretation) 0.474
LongT2IExpert (w/o HA-CoT) 0.516 39.9%
LongT2IExpert (完整) 0.557 53.2%

关键发现

  1. Prompt 越长对齐越难:对齐分数随 prompt 长度增加显著下降
  2. 关系对齐是最大难点:在实体、属性、关系三类中,关系的未对齐比例最高
  3. 未对齐检测更难:模型对未对齐元素的识别准确率始终低于对齐元素
  4. 多任务训练互利:同时训练评分和解释比单独训练各自效果更好(评分从 0.474→0.557,解释从 32.8%→53.2%)
  5. HA-CoT 的有效性:结构化推理显著提升对齐评估效果
  6. 商用模型优势:DALL-E 3 和 Midjourney v6 在长文本对齐上优于开源模型

亮点与洞察

  • 开创性工作:首个专门面向长 T2I 对齐的基准,填补重要空白
  • 图结构化标注是核心创新:将长 prompt 解构为实体-属性-关系图,实现了从粗粒度评分到细粒度可解释评估的跨越
  • 三阶段标注保证质量:Generate-Refine-Qualify 协议确保图结构的高保真度
  • 统一评分+解释:LongT2IExpert 在单一模型中同时实现定量评分和结构化解释
  • HA-CoT 思想可推广:层次化推理链可扩展到其他细粒度多模态评估任务

局限与展望

  • 标注成本高昂(从 4.5K 筛选到 3K),规模扩展受限
  • 仅使用 6 种 T2I 模型生成图像,覆盖面有限
  • 长文本对齐问题本身极具挑战性(甚至对人类标注者也是),当前性能仍有很大提升空间
  • 关系对齐(尤其是空间关系)的准确率偏低,还需更强的模型支持
  • 未探索自动化图结构生成的端到端方法

相关工作与启发

本文与以下方向紧密相关: - T2I 对齐评估:从 CLIPScore → PickScore/ImageReward → VQAScore/Q-Eval-Score 的演进 - 细粒度评估:TIFA(问答分解)、EvalMuse-40K(短语分解)→ 本文的图结构分解 - 长文本 T2I 生成:LongCLIP、LongAlign 等解决 CLIP token 长度限制的方法

启发:图结构表示为文本语义的细粒度分析提供了强大工具,后续可探索在视频、3D 等领域的类似框架。

评分

  • 新颖性: ⭐⭐⭐⭐⭐(首个长 T2I 对齐基准 + 图结构标注)
  • 实验充分度: ⭐⭐⭐⭐(广泛对比 + 消融 + 可视化)
  • 写作质量: ⭐⭐⭐⭐(结构清晰,流程图和统计分析完善)
  • 价值: ⭐⭐⭐⭐⭐(为长 T2I 评估领域提供基础设施)