Collective Narrative Grounding: Community-Coordinated Data Contributions to Improve Local AI Systems¶
会议: NeurIPS 2025
arXiv: 2601.04201
代码: 无
领域: AI安全
关键词: local knowledge, LLM grounding, participatory design, narrative unit, community governance, RAG
一句话总结¶
提出 Collective Narrative Grounding 协议,通过参与式工坊收集社区叙事并结构化为"叙事单元",用 RAG 管道将本地知识注入 LLM 问答系统,在 LocalBench 上发现 76.7% 的错误可由本地叙事直接修复,GPT-5 在参与式 QA 集上仅 21% 正确率凸显了本地知识鸿沟。
研究背景与动机¶
领域现状:LLM 问答系统在通用知识上表现出色,但在社区特定的本地知识(local knowledge)上频繁出错——这包括地方历史事件、社区文化传统、特定地点信息等"知识盲区"。
现有痛点:(a) LLM 训练数据存在系统性地理偏差,低收入社区和农村地区的信息严重不足;(b) 数据空白(data voids)可被虚假信息利用;(c) 现有的 RAG 和微调方法依赖已有的(往往稀缺的)本地文本,无法覆盖口头传承的社区经验。
核心矛盾:LLM 的知识来源——互联网文本——本身就是偏斜的,导致知识鸿沟不是技术限制而是结构性的"认知不公正"(epistemic injustice),边缘社区的知识被系统性地排斥。
本文目标 (a) 量化 LLM 在本地知识上的失败模式;(b) 设计一套从社区收集、结构化、治理叙事数据的完整协议;(c) 验证社区叙事是否能直接填补主要错误类型。
切入角度:将社区成员的口头叙事视为一等数据源(first-class data),通过参与式地图制作工坊(participatory mapping workshops)收集故事,然后结构化为可查询的叙事单元。
核心 idea:用社区参与式协议收集本地叙事,结构化为知识层,通过 RAG 补充 LLM 的本地知识盲区。
方法详解¶
整体框架¶
系统由三个闭环组成:采集(Elicitation) → 结构化(Structuring) → 治理与应用(Governance & Application)。
输入:社区成员的口头叙事、地图标注、手机提交的故事/照片/音频。 处理:NLP 管道 + 人工审核将叙事分割为叙事单元,填充结构化 schema,提取实体/时间/地点。 输出:(1) RAG 驱动的本地问答系统,含溯源引用;(2) 社区治理仪表板,支持浏览/标记/撤回/审计。
关键设计¶
-
参与式工坊设计(Participatory Mapping Workshop):
- 功能:从社区成员中引出地方性的、具体的、基于经验的叙事
- 核心思路:遵循 4 个原则——(a) 显式专家定位(参与者被明确定义为"社区专家");(b) 物理脚手架(在桌面投影大尺度卫星地图,参与者直接标注);(c) 资产导向提问("你最喜欢的地方在哪?"而非"有什么问题?");(d) 伦理参与(知情同意、去标识化、随时可撤回)
- 设计动机:传统参与式工坊面临"技术官僚"与社区之间的权力失衡,这些原则反转了传统的引导者-参与者权力关系
-
叙事单元 Schema(Narrative Unit Schema):
- 功能:将非结构化口头叙事转化为计算可处理的结构化对象
- 核心思路:每个叙事单元包含 10 个字段:
narrative_id、author_pseudonym、timestamp、geocode(GeoJSON)、narrative_text、embedded_claims[](事实性声明数组)、media_links[]、verification_status(unverified/community_verified/disputed/retracted)、community_flags[]、relationships[](与其他叙事单元的关系:corroborates/disputes/extends/near-in-space/near-in-time) - 设计动机:需要在保留叙事丰富性的同时实现实体/时间/地点提取、验证和溯源控制
-
失败分类体系(Failure Taxonomy):
- 功能:系统性量化 LLM 在本地知识上的错误类型
- 核心思路:在 LocalBench(14,782 个县级 QA 对,覆盖 526 个美国县)上审计 1000 个模型失败案例,标注为 8 个互斥类别。两名训练有素的标注者独立标注(原始一致率 87%,Cohen's \(\kappa = 0.852\))
- 设计动机:只有理解 LLM 在哪里失败,才能针对性地用社区叙事修复
损失函数 / 训练策略¶
本文不涉及模型训练,核心是协议/系统设计。RAG 集成使用向量索引对叙事文本和嵌入声明进行检索,结合图上下文提供溯源可追踪的证据。
实验关键数据¶
主实验 — 错误分类分布¶
| 错误类别 | 占比 | 可由叙事修复? |
|---|---|---|
| 事实知识缺失 | 31.8% | ✓ |
| 文化误解 | 23.4% | ✓ |
| 地理混淆 | 12.4% | ✓ |
| 时间错位 | 9.1% | ✓ |
| 前四类合计 | 76.7% | ✓ |
| 其他(推理/校准等) | 23.3% | 部分 |
参与式 QA 基准测试(GPT-5)¶
| 评估结果 | 数量 (共20题) | 占比 |
|---|---|---|
| 完全正确 | 4 | 20% |
| 部分正确/模糊 | 12 | 60% |
| 错误/幻觉 | 3 | 15% |
| 拒绝回答 | 1 | 5% |
标注者一致率 84.2%,Cohen's \(\kappa = 0.812\)。
关键发现¶
- 76.7% 的 LLM 本地知识错误集中在四个类别,这些类别恰好可以由社区叙事直接填补
- 多数不完全正确的回答中,缺失的事实已存在于工坊收集的叙事中,说明叙事接地(narrative grounding)有直接修复路径
- 典型错误包括:错误识别地方官员、混淆相邻地点、给出过时的活动细节
- 知识空白同时创造了虚假信息的攻击面(67.3% 的错误可被虚假叙事利用)
亮点与洞察¶
- 参与式设计 × AI 系统:不是用技术手段修补 LLM 的知识缺陷,而是从知识生产的源头出发,让社区成员成为 AI 系统的知识贡献者和治理者
- 叙事单元 Schema 设计精巧:在结构化和叙事丰富性之间找到平衡,
relationships[]字段支持叙事之间的验证/反驳/扩展关系,形成知识图谱 - 错误分类体系可迁移:76.7% 错误集中在四个可修复类别的发现具有普适性,可指导其他 LLM grounding 工作的优先级排序
局限与展望¶
- 参与式工坊规模小(N=24,3 次工坊,单一城市 Atlanta),代表性有限
- 未实际构建端到端 RAG 系统并定量评估在叙事注入后的精度提升,目前仅做了"可行性论证"
- 隐私与可用性的根本张力:叙事越具体越有用,但也越容易重新识别贡献者
- 社区治理模型的实际执行复杂度高,论文设想的 DAO 式投票/声誉加权机制未经验证
- 叙事质量控制挑战:主观性强的口头叙事如何保证事实准确性?
- 可扩展性不明:从 24 人工坊到城市级/国家级覆盖需要怎样的资源投入?
相关工作与启发¶
- vs WorldBench (Moayeri et al., 2024): WorldBench 量化了 LLM 地理知识偏差但未提供修复方案;本文提供了从社区端主动补充知识的完整协议
- vs Localness-Aware LLM (Gao et al., 2025): 后者从社交媒体视频构建知识图谱;本文强调参与式治理和叙事而非被动的社交媒体内容
- vs RAG 技术路线: 标准 RAG 依赖已有文档;本文创新在于生成新的社区知识源并赋予社区治理权
- 对本地化 AI 系统、社区 AI 治理、数据正义等方向有重要启发意义
评分¶
- 新颖性: ⭐⭐⭐⭐ 参与式工坊+叙事schema+LLM grounding 的结合视角新颖
- 实验充分度: ⭐⭐⭐ 错误分类体系和基准测试设计合理,但规模小且无端到端系统验证
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,设计张力讨论深入
- 价值: ⭐⭐⭐⭐ 对公平AI、社区治理和本地知识补充有重要方法论贡献