跳转至

GeoDiv: Framework for Measuring Geographical Diversity in Text-to-Image Models

会议: ICLR 2026
arXiv: 2602.22120
代码: GitHub
领域: 文本到图像生成 / 公平性评估
关键词: 地理多样性, 文本到图像模型, 社会经济偏见, VLM评估, 可解释指标

一句话总结

提出 GeoDiv 框架,利用 LLM 和 VLM 的世界知识,从社会经济视觉指数(SEVI)和视觉多样性指数(VDI)两个维度系统评估 T2I 模型的地理多样性,揭示了模型对印度、尼日利亚等国家存在系统性贫困化偏见。

研究背景与动机

  • 领域现状: T2I 模型(如 Stable Diffusion、FLUX.1)在商业中广泛应用,但其生成结果常缺乏地理多样性,对不同地区的描绘存在刻板印象
  • 现有痛点: 现有多样性指标要么依赖标注数据集(如 GeoDE),要么仅关注低层视觉相似性(如 Vendi-Score),无法解释性地捕获地理多样性的多维度特征
  • 核心矛盾: 地理多样性涵盖经济、环境、文化等多维度变化,单一指标无法全面衡量,且现有方法在国家级别的精细偏见检测上能力有限
  • 切入角度: 利用 LLM/VLM 的隐含世界知识,设计可解释的自动化评估框架
  • 核心 idea: 将地理多样性分解为 SEVI(富裕度+维护状态)和 VDI(实体外观+背景外观)四个可解释维度,用 Hill Number 量化多样性

方法详解

整体框架

GeoDiv 流水线:给定实体 \(e\) 和国家 \(c\),LLM 生成与 \(e\) 相关的属性问题和固定的背景问题;VQA 模型对图像集预测答案分布;基于分布计算 VDI(标准化 Hill Number);同时 VQA 模型对每张图像评分得到 SEVI。

关键设计

  1. 视觉多样性指数 (VDI):

    • 功能:评估图像在实体外观和背景外观两个轴上的视觉变化
    • 核心思路:用多个 LLM 集合生成属性问题-答案对,VQA 模型预测答案分布,用标准化 Hill Number 量化
    • 多样性评分:\(\text{Diversity-Score} = \frac{\exp(H(\hat{P_k})) - 1}{|\hat{\mathcal{A}_k}| - 1}\),其中 \(H(\cdot)\) 为 Shannon 熵
    • 设计动机:不同问题答案数量不同,标准化后可公平比较
  2. 社会经济视觉指数 (SEVI):

    • 功能:捕获图像的 Affluence(富裕度,1-5 分)和 Maintenance(维护状态,1-5 分)
    • 核心思路:VLM 直接评分,分布上再用 Hill Number 计算多样性
    • 设计动机:将社会经济指标与视觉分析结合,确保主观概念的一致性
  3. 可靠性保障机制:

    • Visibility Step:过滤掉属性不可见的图像,减少 VQA 幻觉
    • Multi-Select:允许多选答案,避免强制单选的分布扭曲
    • NOTA 选项:附加"以上都不是"选项(仅 2.6% 被选),减少猜测
    • 大规模人工验证:14 个国家的本地标注者验证 SEVI 与人工判断的一致性

训练/评估策略

  • 使用 Gemini-2.5-flash 作为 VQA/VLM(最优精度86%,人工相关系数 ρ=0.76/0.69)
  • 评估了 4 个 T2I 模型、10 个实体、16 个国家,共 160,000 张合成图像

实验关键数据

主实验

VQA 模型 VDI 实体精度 VDI 背景精度 SEVI-Affluence ρ SEVI-Maintenance ρ
Gemini-2.5-flash 0.87 0.85 0.76 0.69
gpt-4o 0.85 0.81 0.76 0.76
Qwen2.5-VL 0.85 0.77 0.69 0.71
LLaVA-v1.6 0.70 0.66 0.65 0.68

关键发现:国家级偏见

国家组 平均 Affluence 平均 Maintenance 多样性分数
印度/尼日利亚/哥伦比亚 2.31 3.34
日本/阿联酋/英国 3.53 4.30
FLUX.1 全局 3.82 4.73 极低(0.15)

关键发现

  • FLUX.1 生成最精致的图像但多样性最低,揭示了"精致"与"多样"间的权衡
  • 新模型版本的整体地理多样性反而在下降
  • 背景多样性(0.31)远低于实体多样性(0.44),山脉仅在 12% 图像中出现
  • 与 Vendi-Score 对比:仅实体多样性有中等相关(ρ=0.56),其余维度低

亮点与洞察

  • 首个系统化、可解释的 T2I 地理多样性评估框架,支持任意实体和国家扩展
  • 发现 FLUX.1 的"高质量低多样性"权衡,对模型开发有直接指导意义
  • 开源了全部数据、标注和代码

局限与展望

  • 仅覆盖 16 国 10 实体,扩展到更多地区可能揭示新偏见模式
  • 依赖 LLM/VLM 的世界知识,其本身可能带有偏见
  • 文化表征方面仍有局限,注释者与 VQA 模型在某些国家不一致

相关工作与启发

  • vs Vendi-Score: VendiScore 仅衡量视觉变化,无法捕获社会经济维度
  • vs GRADE: GRADE 仅评估日常物品多样性,未涉及地理维度的复杂性

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将地理多样性分解为 SEVI+VDI 四维度评估
  • 实验充分度: ⭐⭐⭐⭐⭐ 160K 图像、大规模人工验证、多模型多国家对比
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,发现有洞察力
  • 价值: ⭐⭐⭐⭐ 对 T2I 公平性评估有直接应用价值