RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering¶
会议: NeurIPS 2025
arXiv: 2512.05119
代码: https://github.com/USTC-StarTeam/RAG-IGBench
领域: 信息检索
关键词: 交错图文生成, 检索增强生成, 多模态评估, 开放域问答, benchmark
一句话总结¶
提出 RAG-IGBench,一个专门评估基于检索增强生成的交错图文内容质量的 benchmark,设计了覆盖文本质量、图像质量和图文一致性三个维度的创新自动评估指标,并验证了与人类评估的高度相关性。
研究背景与动机¶
领域现状:交错图文生成(interleaved image-text generation)需要模型同时产出文本和图像,是实际应用(如内容创作、可视化故事讲述)的核心需求
现有痛点: - 端到端生成方法(如 Chameleon)虽然统一了文本和图像处理,但在遵循复杂指令方面能力有限 - 现有评估框架要么只评估单模态指标(如 FID 只评图像),要么依赖 MLLM 打分(GPT-4o based),后者引入模型偏差和不稳定性 - 缺乏高质量的开放域交错图文生成数据集
核心矛盾:如何在不依赖模型偏差的前提下全面评估交错图文内容的质量
切入角度:采用 RAG 框架——MLLM 从检索到的文档中选择图像并嵌入文本中,而非生成图像
方法详解¶
整体框架¶
RAG-IG 框架:给定用户查询 → 检索相关文档和图像 → MLLM 生成 Markdown 格式回答(含图像占位符)→ 替换为实际图像生成最终多模态响应。评估在文本质量、图像质量、图文一致性三个维度进行。
关键设计¶
-
数据集构建(三阶段流水线):
- 功能:构建高质量的交错图文 QA 数据集
- 核心思路:阶段1用 MLLM 生成原始 QA;阶段2专家标注员精炼图像选择和排列;阶段3按质量过滤低质量样本
- 设计动机:社交平台的最新公开内容保证多样性和时效性;人工标注确保 ground truth 质量
-
图像质量评估(Edit Distance + Kendall Score):
- 功能:评估模型选择的图像序列与 ground truth 的匹配度
- 核心思路:Edit Distance 衡量选择准确性(需要多少插入/删除/替换操作),归一化为 \(1 - dp(m,n)/\max(m,n)\);Kendall Score 衡量顺序正确性,计算正确图像对中一致对的比例
- 设计动机:传统 FID/IS 评估生成图像质量,但 RAG 场景是选择而非生成图像,需要评估选择准确性和排列正确性
-
图文一致性评估(CLIP Score + Alignment Score):
- 功能:评估图像在文本中的语义对齐
- 核心思路:CLIP Score 直接计算图文余弦相似度;Alignment Score 比较同一图像在生成答案和 ground truth 中的上下文文本相似度
- 设计动机:CLIP Score 能捕捉直接语义对齐但缺乏上下文理解;Alignment Score 弥补这一点
实验关键数据¶
主实验 — 主流 MLLM 在 RAG-IGBench 上的表现¶
| 模型 | Rouge-1↑ | Edit Dist↑ | Kendall↑ | Align Score↑ | Mean↑ |
|---|---|---|---|---|---|
| GPT-4o | 0.374 | 0.471 | 0.532 | 0.495 | 0.468 |
| Claude-3.5 | 0.350 | 0.439 | 0.490 | 0.481 | 0.440 |
| Qwen2VL-72B | 0.319 | 0.390 | 0.451 | 0.438 | 0.400 |
| InternVL2-40B | 0.281 | 0.328 | 0.368 | 0.402 | 0.345 |
消融/验证实验 — 评估指标与人类评估的相关性¶
| 指标 | Pearson 相关系数 | Spearman 相关系数 |
|---|---|---|
| Rouge-1 | 0.72 | 0.68 |
| Edit Distance | 0.81 | 0.78 |
| Kendall Score | 0.75 | 0.71 |
| CLIP Score | 0.65 | 0.62 |
| Alignment Score | 0.74 | 0.70 |
关键发现¶
- GPT-4o 在所有维度上领先,但与人类表现仍有显著差距
- 图像选择(Edit Distance)是最大瓶颈,模型普遍在图像数量和选择上表现不佳
- 微调后的模型在多个benchmark上性能都有提升,证明数据集质量高
- 开源模型与闭源模型差距明显,尤其在图文一致性上
亮点与洞察¶
- RAG-IG 范式比端到端图像生成更实用——图像选择比图像生成更可控、质量更稳定
- Edit Distance + Kendall Score 的组合巧妙地分离了"选对了什么图"和"图的顺序对不对"两个维度
- Alignment Score 的设计思想值得借鉴:同一图像在不同答案中应出现在相似上下文中
局限与展望¶
- 数据来源限于社交平台,领域偏向生活类话题,缺少专业/学术场景
- 评估指标虽然与人类评估相关性高,但 CLIP Score 的相关性偏低(0.65),说明仍有改进空间
- 只评估图像选择不评估图像理解——模型可能选对图但无法解释图像内容
- 未考虑布局和排版对用户体验的影响
相关工作与启发¶
- vs INTERLEAVEDBENCH:基于 GPT-4o 打分,引入模型偏差;RAG-IGBench 用规则指标,更客观
- vs MMIE:依赖微调 VLM 评估,有评估不一致问题;本文的指标更稳定可复现
- vs MEGA-Bench:侧重多模态理解能力,不涉及交错生成
评分¶
- 新颖性: ⭐⭐⭐⭐ RAG-IG 范式 + 创新评估指标
- 实验充分度: ⭐⭐⭐⭐ 覆盖主流开源和闭源模型,人类评估验证
- 写作质量: ⭐⭐⭐⭐ 数据集构建流程详细,指标定义清晰
- 价值: ⭐⭐⭐⭐ 填补了交错图文生成评估的空白