RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering¶

会议: NeurIPS 2025
arXiv: 2512.05119
代码: https://github.com/USTC-StarTeam/RAG-IGBench
领域: 信息检索
关键词: 交错图文生成, 检索增强生成, 多模态评估, 开放域问答, benchmark

一句话总结¶

提出 RAG-IGBench，一个专门评估基于检索增强生成的交错图文内容质量的 benchmark，设计了覆盖文本质量、图像质量和图文一致性三个维度的创新自动评估指标，并验证了与人类评估的高度相关性。

研究背景与动机¶

领域现状：交错图文生成（interleaved image-text generation）需要模型同时产出文本和图像，是实际应用（如内容创作、可视化故事讲述）的核心需求

现有痛点： - 端到端生成方法（如 Chameleon）虽然统一了文本和图像处理，但在遵循复杂指令方面能力有限 - 现有评估框架要么只评估单模态指标（如 FID 只评图像），要么依赖 MLLM 打分（GPT-4o based），后者引入模型偏差和不稳定性 - 缺乏高质量的开放域交错图文生成数据集

核心矛盾：如何在不依赖模型偏差的前提下全面评估交错图文内容的质量

切入角度：采用 RAG 框架——MLLM 从检索到的文档中选择图像并嵌入文本中，而非生成图像

方法详解¶

整体框架¶

RAG-IG 框架：给定用户查询 → 检索相关文档和图像 → MLLM 生成 Markdown 格式回答（含图像占位符）→ 替换为实际图像生成最终多模态响应。评估在文本质量、图像质量、图文一致性三个维度进行。

关键设计¶

数据集构建（三阶段流水线）：
- 功能：构建高质量的交错图文 QA 数据集
- 核心思路：阶段1用 MLLM 生成原始 QA；阶段2专家标注员精炼图像选择和排列；阶段3按质量过滤低质量样本
- 设计动机：社交平台的最新公开内容保证多样性和时效性；人工标注确保 ground truth 质量
图像质量评估（Edit Distance + Kendall Score）：
- 功能：评估模型选择的图像序列与 ground truth 的匹配度
- 核心思路：Edit Distance 衡量选择准确性（需要多少插入/删除/替换操作），归一化为 \(1 - dp(m,n)/\max(m,n)\)；Kendall Score 衡量顺序正确性，计算正确图像对中一致对的比例
- 设计动机：传统 FID/IS 评估生成图像质量，但 RAG 场景是选择而非生成图像，需要评估选择准确性和排列正确性
图文一致性评估（CLIP Score + Alignment Score）：
- 功能：评估图像在文本中的语义对齐
- 核心思路：CLIP Score 直接计算图文余弦相似度；Alignment Score 比较同一图像在生成答案和 ground truth 中的上下文文本相似度
- 设计动机：CLIP Score 能捕捉直接语义对齐但缺乏上下文理解；Alignment Score 弥补这一点

实验关键数据¶

主实验 — 主流 MLLM 在 RAG-IGBench 上的表现¶

模型	Rouge-1↑	Edit Dist↑	Kendall↑	Align Score↑	Mean↑
GPT-4o	0.374	0.471	0.532	0.495	0.468
Claude-3.5	0.350	0.439	0.490	0.481	0.440
Qwen2VL-72B	0.319	0.390	0.451	0.438	0.400
InternVL2-40B	0.281	0.328	0.368	0.402	0.345

消融/验证实验 — 评估指标与人类评估的相关性¶

指标	Pearson 相关系数	Spearman 相关系数
Rouge-1	0.72	0.68
Edit Distance	0.81	0.78
Kendall Score	0.75	0.71
CLIP Score	0.65	0.62
Alignment Score	0.74	0.70

关键发现¶

GPT-4o 在所有维度上领先，但与人类表现仍有显著差距
图像选择（Edit Distance）是最大瓶颈，模型普遍在图像数量和选择上表现不佳
微调后的模型在多个benchmark上性能都有提升，证明数据集质量高
开源模型与闭源模型差距明显，尤其在图文一致性上

亮点与洞察¶

RAG-IG 范式比端到端图像生成更实用——图像选择比图像生成更可控、质量更稳定
Edit Distance + Kendall Score 的组合巧妙地分离了"选对了什么图"和"图的顺序对不对"两个维度
Alignment Score 的设计思想值得借鉴：同一图像在不同答案中应出现在相似上下文中

局限与展望¶

数据来源限于社交平台，领域偏向生活类话题，缺少专业/学术场景
评估指标虽然与人类评估相关性高，但 CLIP Score 的相关性偏低（0.65），说明仍有改进空间
只评估图像选择不评估图像理解——模型可能选对图但无法解释图像内容
未考虑布局和排版对用户体验的影响

评分¶

新颖性: ⭐⭐⭐⭐ RAG-IG 范式 + 创新评估指标
实验充分度: ⭐⭐⭐⭐ 覆盖主流开源和闭源模型，人类评估验证
写作质量: ⭐⭐⭐⭐ 数据集构建流程详细，指标定义清晰
价值: ⭐⭐⭐⭐ 填补了交错图文生成评估的空白