A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive¶

会议: ACL 2025
arXiv: 2402.11005
代码: 无
领域: LLM理论 / 认知科学
关键词: LLM采样, 规范性偏差, 描述性规范, 原型理论, System-1

一句话总结¶

提出并验证了LLM的响应采样理论——采样过程同时受描述性成分(统计规范)和规范性成分(隐式理想值)双重驱动，导致样本系统性地偏离统计平均值向理想值方向偏移，这种偏差在15个模型、500个概念上具有统计显著性，且模型越大偏差越强。

研究背景与动机¶

领域现状：LLM越来越多地参与自主决策，从庞大的行动空间中采样选项。早期研究认为LLM只是"随机鹦鹉"进行概率组装，但越来越多证据表明LLM能构建结构化内部表示。

现有痛点：LLM的响应采样启发式机制仍未被系统研究。已知LLM在概率采样任务上表现不佳(生成的样本与预期概率分布不一致)，但缺乏解释框架。

核心矛盾：在需要基于统计规范做决策的场景(如医疗康复时间评估)中，LLM的采样是否忠实反映统计分布？如果存在系统偏差，其来源和方向是什么？

本文目标：通过认知科学视角系统性地理解LLM的采样启发式，揭示其与人类决策的趋同与分歧。

切入角度：借鉴人类认知科学中的"正常性理论"(Bear & Knobe, 2017)——人类的概念正常性同时包含描述性(统计常见)和规范性(价值理想)两个成分。

方法详解¶

整体框架¶

两组核心实验：(1) 构造性实验——引入虚构概念，系统控制描述性和规范性成分；(2) 自然概念实验——在500个真实概念上验证理论。

关键设计¶

虚构概念实验 (Novel Concept "Glubbing"):
- 功能：引入LLM从未见过的虚构概念"glubbing"，附带100个样本(来自高斯分布 \(C_\mu=45\))和对应评分(A+到D-)
- 核心思路：系统变化规范性方向 \(C_v\)（正向=高值好、负向=低值好、中性），观察LLM采样 \(S(C)\) 是否偏离报告的平均值 \(A(C)\)。关键对照：\(A(C) \approx C_\mu\) 证明LLM理解分布，但 \(S(C)\) 系统性偏离 \(A(C)\)，偏移方向与 \(C_v\) 一致
- 设计动机：使用虚构概念消除预训练知识的混淆，通过仅改变 \(C_v\) 而保持其他不变，隔离规范性成分的效果
500个真实概念实验:
- 功能：在10个领域500个概念上，分别获取LLM报告的平均值 \(A(C)\)、理想值 \(I(C)\) 和采样值 \(S(C)\)
- 核心思路：使用二项检验验证 \(S(C)\) 是否系统性地落在 \(A(C)\) 的理想侧。定义偏移量 \(\alpha = (A(C) - S(C)) \times \text{sign}(A(C) - I(C))\)，正值表示采样偏向理想
- 设计动机：从构造性验证推广到LLM内化的真实世界知识
概念原型分析:
- 功能：评估LLM对8个概念的原型性评分是否包含规范性成分
- 核心思路：对每个概念的6个范例(exemplar)，分别获取平均性、理想性和原型性评分。如果原型性评分系统性地偏向理想侧而非平均侧，则表明LLM的原型概念包含规范性成分
- 设计动机：原型性影响采样（System-1的基本特征），理解原型中的规范性成分有助于解释采样偏差的来源

损失函数 / 训练策略¶

纯评估研究，不涉及训练。在GPT-4(temperature=0.8)上进行主实验，每个概念重复10次。扩展验证覆盖15个模型：GPT-4, GPT-3.5-Turbo, Claude, Mixtral-8x7B, Mistral-7B, Llama-2/3系列(7B-70B, base和instruct)。

实验关键数据¶

主实验¶

虚构概念实验(Glubbing, \(C_\mu=45\), GPT-4)：

条件	规范方向	\(A(C)\)	\(S(C)\)	显著性
单峰	正向	44.94	46.72	p=.003
单峰	负向	44.99	36.50	p<.001
单峰	中性	45.01	44.95	p=.52
双峰	正向	44.97	47.43	显著
双峰	负向	45.03	41.26	显著

500个真实概念(GPT-4)：304/444个概念的采样偏向理想侧，二项检验p = 5.06×10⁻¹⁵。

消融实验¶

跨模型比较(500概念实验)：

模型	偏向理想的概念比例	显著性p
GPT-4	0.680	5.5e-15
Llama-3-70b-Instruct	0.777	5.4e-35
Llama-3-70b	0.726	3.0e-21
Claude	0.688	1.6e-16
Llama-2-7b	0.539	6.8e-02(不显著)

关键发现¶

规范性成分的影响随模型增大而增强：Llama-2-7b到70b，偏向理想比例从0.539升至0.688
RLHF放大但非来源：预训练模型已显示规范性偏差，RLHF进一步加剧(如Llama-3-8b: 0.608→Instruct: 0.716)
医疗案例研究：LLM作为"医生"评估康复时间时，35个症状批次中26次采样偏向理想侧(p=0.003)，倾向于低估康复时间
LLM的理想值比人类更绝对：在40个概念中，LLM为19个概念给出理想值0(如"含糖饮料/周"=0)，而人类仅1个为0
去偏提示无法消除规范性成分：即使明确要求"不要偏向更高/更低值"，采样偏差仍然显著

亮点与洞察¶

认知科学与LLM的桥接：首次将人类认知中的"正常性=描述性+规范性"理论系统性地应用于LLM分析
实验设计精巧：虚构概念+中性对照+多种分布(单峰/双峰)+不同均值范围，充分排除混淆因素
"反向scaling law"：偏差随模型增大而增强，对依赖LLM做决策的场景(如医疗、金融)提出警示
原型分析的发现：LLM认为"好的高中老师"偏向理想而非统计平均，揭示了LLM概念表示中的规范性嵌入

局限与展望¶

规范性成分的来源(预训练数据vs RLHF vs架构)未完全厘清
未探索规范性偏差的机制性解释(如何在注意力/FFN层面产生)
原型分析仅覆盖8个概念，属于初步探索
LLM的理想值与人类不一致(更绝对化)，但未深入分析其原因
仅关注数值型概念，未扩展到分类型决策

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性地揭示LLM采样中的规范性成分，理论贡献突出
实验充分度: ⭐⭐⭐⭐⭐ 15个模型、500个概念、多种控制实验、人类对照，统计分析严谨
写作质量: ⭐⭐⭐⭐ 逻辑紧密，但数学符号较多，阅读门槛偏高
价值: ⭐⭐⭐⭐⭐ 对LLM可信度和公平性研究有深远影响，医疗案例凸显实际风险