Knowledge Boundary of Large Language Models: A Survey¶

会议: ACL 2025
arXiv: 2412.12472
代码: GitHub
领域: LLM NLP
关键词: 知识边界, 幻觉, 不确定性估计, 校准, 知识分类

一句话总结¶

提出LLM知识边界的形式化定义框架——三层嵌套边界（Outward⊂Parametric⊂Universal）和四类知识分类（PAK/PSK/MSU/MAU），围绕"为何/如何识别/如何缓解"三个问题系统综述相关研究。

研究背景与动机¶

领域现状¶

领域现状：领域现状: LLM在参数中存储大量知识，但在记忆和利用某些知识方面仍存在局限，导致不真实、不准确的回复。现有痛点: Know-Unknown Quadrant概念性强但缺乏形式化；已有形式化定义仅关注特定LLM。核心矛盾: 对LLM知识边界缺乏清晰统一的定义，阻碍了系统性的识别和缓解策略。本文目标: 提供全面的形式化知识边界定义并系统综述相关研究。切入角度: 从知识是否被人类已知、是否嵌入参数、是否可实证验证三个维度定义边界。核心idea: 将知识分为PAK（无论怎么问都会）、PSK（看怎么问）、MSU（模型不会但人类知道）、MAU（人类也不知道）四类。

方法详解¶

整体框架¶

从三个维度定义三层嵌套知识边界：(1)Outward（实证可验证）；(2)Parametric（参数中存在）；(3)Universal（人类已知全集）。基于此划分四类知识，围绕三个RQ展开综述。

关键设计¶

四类知识形式化定义:
- 功能：将LLM知识形式化分为PAK/PSK/MSU/MAU四类
- 核心思路：PAK: \(K_{PAK}=\{k \in \mathcal{K} | \forall (q,a) \in \hat{Q}_k, P_\theta(a|q)>\epsilon\}\)——无论哪种prompt表述都能正确回答。PSK: 参数中存在但对prompt敏感。MSU: 模型不具备但人类已知。MAU: 人类也未知
- 设计动机：PAK/PSK的区分特别有洞见——同一知识因prompt不同可能"会"或"不会"，直接指导prompt工程
不良行为与知识类型的映射:
- 功能：将LLM三类不良行为映射到知识类型
- 核心思路：PSK→被上下文误导的不真实回复；MSU→事实性幻觉（领域知识不足/知识过时/过度自信）；MAU→对模糊知识随机回答/对争议知识偏见回复
- 设计动机：为针对性改进提供路线图——知道是哪种知识问题才能选择正确的缓解策略
识别与缓解方法分类:
- 功能：对识别方法（不确定性估计/校准/探测）和缓解方法（prompt优化/RAG/知识编辑/弃权）进行系统分类
- 核心思路：识别方法按是否需要内部状态访问分类；缓解方法按知识类型和参数修改程度分类
- 设计动机：不同知识类型需要不同策略——PSK用prompt优化，MSU用RAG/编辑，MAU用弃权/澄清

损失函数 / 训练策略¶

作为综述论文不涉及训练，但系统梳理了各类缓解方法的训练策略：SFT弃权训练、RL诚实性对齐、RAG检索增强等。

实验关键数据¶

主实验¶

综述论文不含自身实验，但系统梳理了关键映射：

知识类型	不良行为	识别方法	缓解策略
PAK	无	高概率阈值验证	—
PSK	上下文误导	Prompt扰动/不确定性分解	Prompt优化/ICL/推理/解码
MSU	事实幻觉	语义一致性/校准/探测	RAG/知识编辑/弃权
MAU	偏见/随机	未充分探索	对齐训练/澄清提问

消融实验¶

综述梳理的关键对比：

对比维度	发现
不确定性估计 vs 校准	前者关注整体分布，后者关注特定预测——概念相近但本质不同
认知不确定性 vs 偶然不确定性	分别对应参数边界和外显边界间的差距
弃权 vs 澄清	前者对MAU有效但可能过度弃权，后者更友好但成本更高

关键发现¶

多数识别方法仅关注外显边界——参数边界的识别仍是开放问题
LLM过度自信问题严重——在不熟悉主题上保持高置信度但输出错误
弃权策略未区分MSU和MAU——导致可回答问题也被拒绝，用户体验差
知识边界随训练数据时间截止而动态变化——LLaMA2虽训练至2022但倾向使用2019数据

亮点与洞察¶

形式化知识分类框架是核心贡献——将概念性的Known-Unknown Quadrant转化为可操作的数学定义
三层嵌套结构（Outward⊂Parametric⊂Universal）提供清晰问题定位框架
PAK/PSK区分直接指导prompt工程——很多"不会"的问题只是问法不对
Summary Box设计便于读者快速把握每节核心

局限与展望¶

MAU（人类未知知识）讨论较少，因该领域本身研究匮乏
知识边界的形式化依赖阈值ε，最优选择缺乏指导
综述截至2024年底，快速发展的LLM领域可能已有更新
未深入讨论多模态场景下的知识边界

评分¶

新颖性: ⭐⭐⭐⭐ 形式化定义框架有原创贡献
实验充分度: ⭐⭐⭐⭐⭐ 系统全面，从动机到识别到缓解
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，Summary Box便于把握
价值: ⭐⭐⭐⭐⭐ 对LLM可靠性改进有直接指导意义