LongT2IBench: A Benchmark for Evaluating Long Text-to-Image Generation with Graph-structured Annotations¶

会议: AAAI 2026
arXiv: 2512.09271
代码: https://welldky.github.io/LongT2IBench-Homepage/
领域: 图像生成
关键词: 文本到图像, 长文本对齐, 图结构标注, 评估基准, 多模态大模型

一句话总结¶

提出 LongT2IBench，首个面向长文本到图像（T2I）对齐的评估基准，包含 14K 长文本-图片对和图结构化人工标注，并构建 LongT2IExpert 评估器，通过层次化对齐思维链（HA-CoT）指令微调 MLLM，同时输出对齐分数和结构化解释。

研究背景与动机¶

随着文本到图像生成模型在艺术创作和广告设计中的广泛应用，用户对长文本 T2I 生成能力的需求显著增加。然而，现有的 T2I 对齐评估基准面临严重局限：

短文本偏向：现有基准（如 Pick-a-pic、HPDv2、TIFA）主要聚焦短 prompt 场景

标注粗粒度：仅提供 MOS（Mean Opinion Score）或 Likert 量表标注，缺乏可解释性

长文本特有挑战： - 细节过载（Detail Overload）：标注员难以对长文本直接给出整体对齐分数 - 对齐复杂性（Alignment Complexity）：元素级标注不足以捕捉长文本中的复杂对齐关系（如远距离元素间的链接）

这些问题严重阻碍了长 T2I 评估器的开发。本文的核心动机是：构建一个既能提供定量分数，又能提供细粒度可解释对齐的基准，来推动长 T2I 对齐评估领域的发展。

方法详解¶

整体框架¶

本文工作分为两大部分：

LongT2IBench 基准构建：包含数据准备 → 数据标注（图结构化转换 + 对齐标注）→ 标签生成
LongT2IExpert 评估器：基于 MLLM 的长 T2I 评估模型，使用层次化对齐思维链进行指令微调

关键设计¶

1. LongT2IBench 基准构建¶

数据准备： - 长 Prompt 来源（3K 条）：人工生成内容（DiffusionDB）、AI 生成内容（GPT-4）、图像长描述（DOCCI），确保多样性 - 词数分布均衡：在 30-50、50-70、70-90、90-110、110+ 五个区间平衡采样 - T2I 生成：使用 6 类模型生成图像——SD v3.5、PixArt-α（基础开源）、DALL-E 3、Midjourney v6（商用）、LongCLIP-SD、LongSD（专用长文本模型）

图结构化标注（核心创新）：

采用生成-精炼-认证（Generate-Refine-Qualify）三阶段协议：

Generate：GPT-4 将长 prompt 转换为文本图结构（包含实体 Entity、属性 Attribute、关系 Relation）
Refine：训练有素的标注员精炼图结构，通过增删改确保准确性
Qualify：双重检查，仅保留一致同意的转换结果

从 4.5K 初始长 prompt 中保留 3K 精确转换。

图像-文本图对齐标注： - 标注员对实体、属性、关系分别做二元对齐判断（E-Align、A-Align、R-Align） - 采用层次化标注逻辑：先评估实体，自动过滤掉未对齐实体关联的属性和关系 - 三个独立标注员审核，多数一致才保留 - 最终保留 14K 图文对（从 18K 中筛选，排除 NSFW 和严重畸变）

标签生成： - 对齐分数：对齐元素数 / 总元素数（实体、属性、关系等权重） - 对齐解释：基于图标注生成结构化的对齐/未对齐元素列表

2. LongT2IExpert 评估器¶

层次化对齐思维链（HA-CoT）：设计三跳推理过程引导 MLLM 模拟人类评估：

第一跳：实体对齐器 → 分析所有实体与图像的对齐
第二跳：属性与关系对齐器 → 检查对齐实体关联的属性和关系
第三跳：综合评估 → 给出整体对齐分数

模型架构： - 骨干模型：Qwen2.5-VL-7B-Instruct - 新增 <<Level>> token 用于数值分数输出 - 新增 <<Json>> token 用于结构化解释输出 - 使用 LoRA（r=32, α=64）进行参数高效微调

损失函数 / 训练策略¶

多任务训练目标：

\[\mathcal{L} = \mathcal{L}_I + \lambda \cdot \mathcal{L}_S\]

解释损失 \(\mathcal{L}_I\)：交叉熵损失，监督图结构化解释生成
评分损失 \(\mathcal{L}_S\)：MSE 损失，\(\mathcal{L}_S = (\hat{y}_s - y_s)^2\)，其中 \(\hat{y}_s = \mathcal{R}(\hat{\mathbf{h}}_{Level})\)
超参 \(\lambda = 10\)，训练 3 epochs，A800 GPU

评分头由三层 Linear 层组成，学习率分别为 LoRA 参数 \(5e^{-5}\)，评分头 \(2e^{-4}\)。

实验关键数据¶

主实验¶

长 T2I 对齐评分对比（SRCC/PLCC，各词数区间）：

模型	30-50 SRCC	50-70 SRCC	70-90 SRCC	110+ SRCC	Overall SRCC	Overall Avg
CLIPScore	0.224	0.349	0.271	0.209	0.269	0.267
HPSv2	0.540	0.479	0.394	0.148	0.381	0.387
Q-Eval-Score	0.470	0.460	0.339	0.422	0.361	0.358
ImageReward* (微调)	0.538	0.546	0.384	0.167	0.438	0.439
LongT2IExpert	0.781	0.605	0.548	0.431	0.558	0.557

长 T2I 对齐解释对比（准确率）：

模型	Entity Overall	Attribute Overall	Relation Overall	All Overall
GPT-4o	41.6%	25.0%	10.2%	27.0%
Gemini-1.5-pro	46.7%	28.8%	13.4%	31.1%
Grok-3	43.1%	21.7%	7.4%	25.7%
LongT2IExpert	71.9%	47.3%	35.2%	53.2%

消融实验¶

配置	对齐评分 (Avg)	对齐解释 (Overall Acc)
LongT2IExpert (w/o Score)	—	32.8%
LongT2IExpert (w/o Interpretation)	0.474	—
LongT2IExpert (w/o HA-CoT)	0.516	39.9%
LongT2IExpert (完整)	0.557	53.2%

关键发现¶

Prompt 越长对齐越难：对齐分数随 prompt 长度增加显著下降
关系对齐是最大难点：在实体、属性、关系三类中，关系的未对齐比例最高
未对齐检测更难：模型对未对齐元素的识别准确率始终低于对齐元素
多任务训练互利：同时训练评分和解释比单独训练各自效果更好（评分从 0.474→0.557，解释从 32.8%→53.2%）
HA-CoT 的有效性：结构化推理显著提升对齐评估效果
商用模型优势：DALL-E 3 和 Midjourney v6 在长文本对齐上优于开源模型

亮点与洞察¶

开创性工作：首个专门面向长 T2I 对齐的基准，填补重要空白
图结构化标注是核心创新：将长 prompt 解构为实体-属性-关系图，实现了从粗粒度评分到细粒度可解释评估的跨越
三阶段标注保证质量：Generate-Refine-Qualify 协议确保图结构的高保真度
统一评分+解释：LongT2IExpert 在单一模型中同时实现定量评分和结构化解释
HA-CoT 思想可推广：层次化推理链可扩展到其他细粒度多模态评估任务

局限与展望¶

标注成本高昂（从 4.5K 筛选到 3K），规模扩展受限
仅使用 6 种 T2I 模型生成图像，覆盖面有限
长文本对齐问题本身极具挑战性（甚至对人类标注者也是），当前性能仍有很大提升空间
关系对齐（尤其是空间关系）的准确率偏低，还需更强的模型支持
未探索自动化图结构生成的端到端方法

评分¶

新颖性: ⭐⭐⭐⭐⭐（首个长 T2I 对齐基准 + 图结构标注）
实验充分度: ⭐⭐⭐⭐（广泛对比 + 消融 + 可视化）
写作质量: ⭐⭐⭐⭐（结构清晰，流程图和统计分析完善）
价值: ⭐⭐⭐⭐⭐（为长 T2I 评估领域提供基础设施）