跳转至

Common to Whom? Regional Cultural Commonsense and LLM Bias in India

会议: ACL 2026
arXiv: 2601.15550
代码: 无
领域: LLM评测
关键词: 文化常识, 区域偏见, 印度文化多样性, 基准构建, LLM偏见

一句话总结

本文构建 Indica,首个评估 LLM 次国家级文化常识的基准,聚焦印度五大区域在八个日常生活领域的文化差异,发现仅 39.4% 的问题在全部五个区域达成共识,且所有 LLM 均表现出地理偏见——过度选择中部和北部印度作为"默认"文化代表。

研究背景与动机

领域现状:文化常识基准(如 CultureBank、CulturalBench)开始关注跨文化差异,但这些工作将国家视为文化单一体,假设国家内部文化实践统一。

现有痛点:(1) 现有基准在国家级别评估文化常识,忽视了次国家级的文化多样性;(2) 印度现有 NLP 基准仅关注教科书和考试中的事实性知识,将印度文化视为单一整体;(3) LLM 可能对文化多样性国家的某些区域存在系统性偏见,但缺乏检测工具。

核心矛盾:在印度这样拥有 28 个邦、8 个联邦领地和 22 种官方语言的国家,"文化常识"不可能是全国统一的。然而 LLM 必须在给出某个文化实践时做出区域性选择,这种隐式选择可能反映训练数据中的地理偏见。

本文目标:(1) 量化印度文化常识的区域性差异程度;(2) 评估 LLM 在区域特定文化知识上的准确率;(3) 检测 LLM 在缺少地理上下文时的隐式区域偏见。

切入角度:基于人类学分类体系(OCM)设计八个日常文化领域,从印度五个区域收集人类标注答案,构建区域特定的文化常识基准。

核心 idea:文化常识在多元文化国家中主要是区域性的而非全国性的;LLM 在处理这类知识时表现出系统性地理偏见。

方法详解

整体框架

Indica 构建流程:(1) 基于人类学分类(OCM)选择 8 个文化领域 → 39 个主题 → 515 个问题;(2) 从印度五个区域(北、南、东、西、中)各招募 5 名参与者回答所有问题(共 15,275 个回答);(3) 通过三层共识建立金标准:区域内共识、区域间共识、全域共识。

关键设计

  1. 基于人类学分类的问题设计:

    • 功能:确保问题覆盖日常文化实践的关键维度
    • 核心思路:从 OCM 的 90+ 主类别中选择 8 个与日常文化知识相关的领域(人际关系、教育、服饰、饮食、通讯、金融、节日仪式、交通行为),每个领域下选择 2-4 个非重叠的子主题,用 GPT-4 辅助生成并人工审核问题
    • 设计动机:确保问题聚焦于日常实践而非制度性知识,且有足够多样性来揭示区域差异
  2. 双任务评估设计(RASA + RA-MCQ):

    • 功能:分别评估区域知识准确率和隐式地理偏见
    • 核心思路:RASA(区域锚定简答)——给定区域上下文(如"在南印度..."),测试模型生成准确区域文化知识的能力。RA-MCQ(区域无关多选)——移除地理上下文,观察模型默认选择哪个区域的文化实践,揭示隐式偏见
    • 设计动机:RASA 测试知识,RA-MCQ 测试偏见——两个互补视角全面评估 LLM 的文化表征
  3. 三层共识金标准:

    • 功能:建立可靠的区域文化常识标注
    • 核心思路:区域内共识(≥4/5 参与者答案语义等价)、区域间共识(两个区域答案完全一致)、全域共识(所有五个区域答案一致)。GPT-4o 初步分类后由两名人工标注者完全审核
    • 设计动机:严格的共识标准确保金标准反映真正的区域文化实践而非个人偏好

损失函数 / 训练策略

Indica 是评估基准,不涉及模型训练。评估使用 Gemini 3.0 Flash 作为 LLM 评判者,每个问题运行 30 次以消除随机性,卡方拟合优度检验评估偏见的统计显著性。

实验关键数据

主实验

RASA 区域知识准确率(%)

模型 北部 南部 东部 西部 中部 平均
GPT-4o ~20 ~19 ~15 ~18 ~20 20.9
Claude 3.5 ~19 ~18 ~14 ~17 ~19 19.3
最低模型 - - - - - 13.4

消融实验

分析维度 发现
全域共识率 仅 39.4% 的问题在所有区域达成一致
领域差异 交通行为最高(22.6%),节日仪式最低(1.8%)
区域对偏见 北-中最高(68.3%),南-东最低(60.1%)

关键发现

  • 仅 39.4% 的问题在所有五个区域有共识答案——文化常识在印度主要是区域性的
  • 所有 8 个 LLM 在区域特定问题上准确率仅 13.4%-20.9%,远低于可用水平
  • RA-MCQ 揭示所有模型的系统性偏见:中部和北部印度的回答被过度选择(比预期高 30-40%),东部和西部被低估
  • 即使在教育等有全国统一课程的领域,区域实践差异仍然显著(仅 13.8% 全域共识)
  • 节日仪式领域差异最大(1.8% 全域共识),反映了强烈的区域传统

亮点与洞察

  • 首次系统性地挑战"国家=文化单一体"的假设,为文化 NLP 研究开辟次国家级维度
  • 双任务评估设计(知识准确率 + 隐式偏见)提供了全面的文化表征评估框架
  • 基于人类学分类(OCM)的问题设计方法具有通用性,可迁移到任何文化多元国家

局限与展望

  • 五个区域的划分可能过于粗糙,每个区域内部仍存在显著多样性
  • 每个区域仅 5 名参与者,样本量较小
  • 金标准建立依赖主观的语义等价判断
  • 仅聚焦印度,方法论的跨国家迁移性需验证

相关工作与启发

  • vs CultureBank/CulturalBench: 这些基准在国家级评估文化常识,Indica 首次下沉到次国家级
  • vs 印度 NLP 基准: 现有印度基准聚焦教科书知识,Indica 聚焦日常文化实践
  • vs CANDLE: CANDLE 评估国家级文化规范,Indica 揭示国家内部的文化分裂

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个次国家级文化常识基准,视角独特且重要
  • 实验充分度: ⭐⭐⭐⭐ 8 个模型、双任务评估、严格的金标准,但样本量较小
  • 写作质量: ⭐⭐⭐⭐⭐ 动机引人深思,数据分析详尽
  • 价值: ⭐⭐⭐⭐⭐ 对文化 AI 和 LLM 公平性研究有重要启示