跳转至

Collective Narrative Grounding: Community-Coordinated Data Contributions to Improve Local AI Systems

会议: NeurIPS 2025
arXiv: 2601.04201
代码: 无
领域: AI安全
关键词: local knowledge, LLM grounding, participatory design, narrative unit, community governance, RAG

一句话总结

提出 Collective Narrative Grounding 协议,通过参与式工坊收集社区叙事并结构化为"叙事单元",用 RAG 管道将本地知识注入 LLM 问答系统,在 LocalBench 上发现 76.7% 的错误可由本地叙事直接修复,GPT-5 在参与式 QA 集上仅 21% 正确率凸显了本地知识鸿沟。

研究背景与动机

领域现状:LLM 问答系统在通用知识上表现出色,但在社区特定的本地知识(local knowledge)上频繁出错——这包括地方历史事件、社区文化传统、特定地点信息等"知识盲区"。

现有痛点:(a) LLM 训练数据存在系统性地理偏差,低收入社区和农村地区的信息严重不足;(b) 数据空白(data voids)可被虚假信息利用;(c) 现有的 RAG 和微调方法依赖已有的(往往稀缺的)本地文本,无法覆盖口头传承的社区经验。

核心矛盾:LLM 的知识来源——互联网文本——本身就是偏斜的,导致知识鸿沟不是技术限制而是结构性的"认知不公正"(epistemic injustice),边缘社区的知识被系统性地排斥。

本文目标 (a) 量化 LLM 在本地知识上的失败模式;(b) 设计一套从社区收集、结构化、治理叙事数据的完整协议;(c) 验证社区叙事是否能直接填补主要错误类型。

切入角度:将社区成员的口头叙事视为一等数据源(first-class data),通过参与式地图制作工坊(participatory mapping workshops)收集故事,然后结构化为可查询的叙事单元。

核心 idea:用社区参与式协议收集本地叙事,结构化为知识层,通过 RAG 补充 LLM 的本地知识盲区。

方法详解

整体框架

系统由三个闭环组成:采集(Elicitation)结构化(Structuring)治理与应用(Governance & Application)

输入:社区成员的口头叙事、地图标注、手机提交的故事/照片/音频。 处理:NLP 管道 + 人工审核将叙事分割为叙事单元,填充结构化 schema,提取实体/时间/地点。 输出:(1) RAG 驱动的本地问答系统,含溯源引用;(2) 社区治理仪表板,支持浏览/标记/撤回/审计。

关键设计

  1. 参与式工坊设计(Participatory Mapping Workshop):

    • 功能:从社区成员中引出地方性的、具体的、基于经验的叙事
    • 核心思路:遵循 4 个原则——(a) 显式专家定位(参与者被明确定义为"社区专家");(b) 物理脚手架(在桌面投影大尺度卫星地图,参与者直接标注);(c) 资产导向提问("你最喜欢的地方在哪?"而非"有什么问题?");(d) 伦理参与(知情同意、去标识化、随时可撤回)
    • 设计动机:传统参与式工坊面临"技术官僚"与社区之间的权力失衡,这些原则反转了传统的引导者-参与者权力关系
  2. 叙事单元 Schema(Narrative Unit Schema):

    • 功能:将非结构化口头叙事转化为计算可处理的结构化对象
    • 核心思路:每个叙事单元包含 10 个字段:narrative_idauthor_pseudonymtimestampgeocode(GeoJSON)、narrative_textembedded_claims[](事实性声明数组)、media_links[]verification_status(unverified/community_verified/disputed/retracted)、community_flags[]relationships[](与其他叙事单元的关系:corroborates/disputes/extends/near-in-space/near-in-time)
    • 设计动机:需要在保留叙事丰富性的同时实现实体/时间/地点提取、验证和溯源控制
  3. 失败分类体系(Failure Taxonomy):

    • 功能:系统性量化 LLM 在本地知识上的错误类型
    • 核心思路:在 LocalBench(14,782 个县级 QA 对,覆盖 526 个美国县)上审计 1000 个模型失败案例,标注为 8 个互斥类别。两名训练有素的标注者独立标注(原始一致率 87%,Cohen's \(\kappa = 0.852\)
    • 设计动机:只有理解 LLM 在哪里失败,才能针对性地用社区叙事修复

损失函数 / 训练策略

本文不涉及模型训练,核心是协议/系统设计。RAG 集成使用向量索引对叙事文本和嵌入声明进行检索,结合图上下文提供溯源可追踪的证据。

实验关键数据

主实验 — 错误分类分布

错误类别 占比 可由叙事修复?
事实知识缺失 31.8%
文化误解 23.4%
地理混淆 12.4%
时间错位 9.1%
前四类合计 76.7%
其他(推理/校准等) 23.3% 部分

参与式 QA 基准测试(GPT-5)

评估结果 数量 (共20题) 占比
完全正确 4 20%
部分正确/模糊 12 60%
错误/幻觉 3 15%
拒绝回答 1 5%

标注者一致率 84.2%,Cohen's \(\kappa = 0.812\)

关键发现

  • 76.7% 的 LLM 本地知识错误集中在四个类别,这些类别恰好可以由社区叙事直接填补
  • 多数不完全正确的回答中,缺失的事实已存在于工坊收集的叙事中,说明叙事接地(narrative grounding)有直接修复路径
  • 典型错误包括:错误识别地方官员、混淆相邻地点、给出过时的活动细节
  • 知识空白同时创造了虚假信息的攻击面(67.3% 的错误可被虚假叙事利用)

亮点与洞察

  • 参与式设计 × AI 系统:不是用技术手段修补 LLM 的知识缺陷,而是从知识生产的源头出发,让社区成员成为 AI 系统的知识贡献者和治理者
  • 叙事单元 Schema 设计精巧:在结构化和叙事丰富性之间找到平衡,relationships[] 字段支持叙事之间的验证/反驳/扩展关系,形成知识图谱
  • 错误分类体系可迁移:76.7% 错误集中在四个可修复类别的发现具有普适性,可指导其他 LLM grounding 工作的优先级排序

局限与展望

  • 参与式工坊规模小(N=24,3 次工坊,单一城市 Atlanta),代表性有限
  • 未实际构建端到端 RAG 系统并定量评估在叙事注入后的精度提升,目前仅做了"可行性论证"
  • 隐私与可用性的根本张力:叙事越具体越有用,但也越容易重新识别贡献者
  • 社区治理模型的实际执行复杂度高,论文设想的 DAO 式投票/声誉加权机制未经验证
  • 叙事质量控制挑战:主观性强的口头叙事如何保证事实准确性?
  • 可扩展性不明:从 24 人工坊到城市级/国家级覆盖需要怎样的资源投入?

相关工作与启发

  • vs WorldBench (Moayeri et al., 2024): WorldBench 量化了 LLM 地理知识偏差但未提供修复方案;本文提供了从社区端主动补充知识的完整协议
  • vs Localness-Aware LLM (Gao et al., 2025): 后者从社交媒体视频构建知识图谱;本文强调参与式治理和叙事而非被动的社交媒体内容
  • vs RAG 技术路线: 标准 RAG 依赖已有文档;本文创新在于生成新的社区知识源并赋予社区治理权
  • 对本地化 AI 系统、社区 AI 治理、数据正义等方向有重要启发意义

评分

  • 新颖性: ⭐⭐⭐⭐ 参与式工坊+叙事schema+LLM grounding 的结合视角新颖
  • 实验充分度: ⭐⭐⭐ 错误分类体系和基准测试设计合理,但规模小且无端到端系统验证
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,设计张力讨论深入
  • 价值: ⭐⭐⭐⭐ 对公平AI、社区治理和本地知识补充有重要方法论贡献