NeurIPS 2025 AI安全 local knowledge LLM grounding participatory design narrative unit community governance RAG

Collective Narrative Grounding: Community-Coordinated Data Contributions to Improve Local AI Systems¶

会议: NeurIPS 2025
arXiv: 2601.04201
代码: 无
领域: AI安全
关键词: local knowledge, LLM grounding, participatory design, narrative unit, community governance, RAG

一句话总结¶

提出 Collective Narrative Grounding 协议，通过参与式工坊收集社区叙事并结构化为"叙事单元"，用 RAG 管道将本地知识注入 LLM 问答系统，在 LocalBench 上发现 76.7% 的错误可由本地叙事直接修复，GPT-5 在参与式 QA 集上仅 21% 正确率凸显了本地知识鸿沟。

研究背景与动机¶

领域现状：LLM 问答系统在通用知识上表现出色，但在社区特定的本地知识（local knowledge）上频繁出错——这包括地方历史事件、社区文化传统、特定地点信息等"知识盲区"。

现有痛点：(a) LLM 训练数据存在系统性地理偏差，低收入社区和农村地区的信息严重不足；(b) 数据空白（data voids）可被虚假信息利用；(c) 现有的 RAG 和微调方法依赖已有的（往往稀缺的）本地文本，无法覆盖口头传承的社区经验。

核心矛盾：LLM 的知识来源——互联网文本——本身就是偏斜的，导致知识鸿沟不是技术限制而是结构性的"认知不公正"（epistemic injustice），边缘社区的知识被系统性地排斥。

本文目标 (a) 量化 LLM 在本地知识上的失败模式；(b) 设计一套从社区收集、结构化、治理叙事数据的完整协议；(c) 验证社区叙事是否能直接填补主要错误类型。

切入角度：将社区成员的口头叙事视为一等数据源（first-class data），通过参与式地图制作工坊（participatory mapping workshops）收集故事，然后结构化为可查询的叙事单元。

核心 idea：用社区参与式协议收集本地叙事，结构化为知识层，通过 RAG 补充 LLM 的本地知识盲区。

方法详解¶

整体框架¶

系统由三个闭环组成：采集（Elicitation） → 结构化（Structuring） → 治理与应用（Governance & Application）。

输入：社区成员的口头叙事、地图标注、手机提交的故事/照片/音频。处理：NLP 管道 + 人工审核将叙事分割为叙事单元，填充结构化 schema，提取实体/时间/地点。输出：(1) RAG 驱动的本地问答系统，含溯源引用；(2) 社区治理仪表板，支持浏览/标记/撤回/审计。

关键设计¶

参与式工坊设计（Participatory Mapping Workshop）:
- 功能：从社区成员中引出地方性的、具体的、基于经验的叙事
- 核心思路：遵循 4 个原则——(a) 显式专家定位（参与者被明确定义为"社区专家"）；(b) 物理脚手架（在桌面投影大尺度卫星地图，参与者直接标注）；(c) 资产导向提问（"你最喜欢的地方在哪？"而非"有什么问题？"）；(d) 伦理参与（知情同意、去标识化、随时可撤回）
- 设计动机：传统参与式工坊面临"技术官僚"与社区之间的权力失衡，这些原则反转了传统的引导者-参与者权力关系
叙事单元 Schema（Narrative Unit Schema）:
- 功能：将非结构化口头叙事转化为计算可处理的结构化对象
- 核心思路：每个叙事单元包含 10 个字段：narrative_id、author_pseudonym、timestamp、geocode（GeoJSON）、narrative_text、embedded_claims[]（事实性声明数组）、media_links[]、verification_status（unverified/community_verified/disputed/retracted）、community_flags[]、relationships[]（与其他叙事单元的关系：corroborates/disputes/extends/near-in-space/near-in-time）
- 设计动机：需要在保留叙事丰富性的同时实现实体/时间/地点提取、验证和溯源控制
失败分类体系（Failure Taxonomy）:
- 功能：系统性量化 LLM 在本地知识上的错误类型
- 核心思路：在 LocalBench（14,782 个县级 QA 对，覆盖 526 个美国县）上审计 1000 个模型失败案例，标注为 8 个互斥类别。两名训练有素的标注者独立标注（原始一致率 87%，Cohen's \(\kappa = 0.852\)）
- 设计动机：只有理解 LLM 在哪里失败，才能针对性地用社区叙事修复

损失函数 / 训练策略¶

本文不涉及模型训练，核心是协议/系统设计。RAG 集成使用向量索引对叙事文本和嵌入声明进行检索，结合图上下文提供溯源可追踪的证据。

实验关键数据¶

主实验 — 错误分类分布¶

错误类别	占比	可由叙事修复？
事实知识缺失	31.8%	✓
文化误解	23.4%	✓
地理混淆	12.4%	✓
时间错位	9.1%	✓
前四类合计	76.7%	✓
其他（推理/校准等）	23.3%	部分

参与式 QA 基准测试（GPT-5）¶

评估结果	数量 (共20题)	占比
完全正确	4	20%
部分正确/模糊	12	60%
错误/幻觉	3	15%
拒绝回答	1	5%

标注者一致率 84.2%，Cohen's \(\kappa = 0.812\)。

关键发现¶

76.7% 的 LLM 本地知识错误集中在四个类别，这些类别恰好可以由社区叙事直接填补
多数不完全正确的回答中，缺失的事实已存在于工坊收集的叙事中，说明叙事接地（narrative grounding）有直接修复路径
典型错误包括：错误识别地方官员、混淆相邻地点、给出过时的活动细节
知识空白同时创造了虚假信息的攻击面（67.3% 的错误可被虚假叙事利用）

亮点与洞察¶

参与式设计 × AI 系统：不是用技术手段修补 LLM 的知识缺陷，而是从知识生产的源头出发，让社区成员成为 AI 系统的知识贡献者和治理者
叙事单元 Schema 设计精巧：在结构化和叙事丰富性之间找到平衡，relationships[] 字段支持叙事之间的验证/反驳/扩展关系，形成知识图谱
错误分类体系可迁移：76.7% 错误集中在四个可修复类别的发现具有普适性，可指导其他 LLM grounding 工作的优先级排序

局限与展望¶

参与式工坊规模小（N=24，3 次工坊，单一城市 Atlanta），代表性有限
未实际构建端到端 RAG 系统并定量评估在叙事注入后的精度提升，目前仅做了"可行性论证"
隐私与可用性的根本张力：叙事越具体越有用，但也越容易重新识别贡献者
社区治理模型的实际执行复杂度高，论文设想的 DAO 式投票/声誉加权机制未经验证
叙事质量控制挑战：主观性强的口头叙事如何保证事实准确性？
可扩展性不明：从 24 人工坊到城市级/国家级覆盖需要怎样的资源投入？

评分¶

新颖性: ⭐⭐⭐⭐ 参与式工坊+叙事schema+LLM grounding 的结合视角新颖
实验充分度: ⭐⭐⭐ 错误分类体系和基准测试设计合理，但规模小且无端到端系统验证
写作质量: ⭐⭐⭐⭐ 问题动机清晰，设计张力讨论深入
价值: ⭐⭐⭐⭐ 对公平AI、社区治理和本地知识补充有重要方法论贡献