跳转至

A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive

会议: ACL 2025
arXiv: 2402.11005
代码: 无
领域: LLM理论 / 认知科学
关键词: LLM采样, 规范性偏差, 描述性规范, 原型理论, System-1

一句话总结

提出并验证了LLM的响应采样理论——采样过程同时受描述性成分(统计规范)和规范性成分(隐式理想值)双重驱动,导致样本系统性地偏离统计平均值向理想值方向偏移,这种偏差在15个模型、500个概念上具有统计显著性,且模型越大偏差越强。

研究背景与动机

领域现状:LLM越来越多地参与自主决策,从庞大的行动空间中采样选项。早期研究认为LLM只是"随机鹦鹉"进行概率组装,但越来越多证据表明LLM能构建结构化内部表示。

现有痛点:LLM的响应采样启发式机制仍未被系统研究。已知LLM在概率采样任务上表现不佳(生成的样本与预期概率分布不一致),但缺乏解释框架。

核心矛盾:在需要基于统计规范做决策的场景(如医疗康复时间评估)中,LLM的采样是否忠实反映统计分布?如果存在系统偏差,其来源和方向是什么?

本文目标:通过认知科学视角系统性地理解LLM的采样启发式,揭示其与人类决策的趋同与分歧。

切入角度:借鉴人类认知科学中的"正常性理论"(Bear & Knobe, 2017)——人类的概念正常性同时包含描述性(统计常见)和规范性(价值理想)两个成分。

方法详解

整体框架

两组核心实验:(1) 构造性实验——引入虚构概念,系统控制描述性和规范性成分;(2) 自然概念实验——在500个真实概念上验证理论。

关键设计

  1. 虚构概念实验 (Novel Concept "Glubbing"):

    • 功能:引入LLM从未见过的虚构概念"glubbing",附带100个样本(来自高斯分布 \(C_\mu=45\))和对应评分(A+到D-)
    • 核心思路:系统变化规范性方向 \(C_v\)(正向=高值好、负向=低值好、中性),观察LLM采样 \(S(C)\) 是否偏离报告的平均值 \(A(C)\)。关键对照:\(A(C) \approx C_\mu\) 证明LLM理解分布,但 \(S(C)\) 系统性偏离 \(A(C)\),偏移方向与 \(C_v\) 一致
    • 设计动机:使用虚构概念消除预训练知识的混淆,通过仅改变 \(C_v\) 而保持其他不变,隔离规范性成分的效果
  2. 500个真实概念实验:

    • 功能:在10个领域500个概念上,分别获取LLM报告的平均值 \(A(C)\)、理想值 \(I(C)\) 和采样值 \(S(C)\)
    • 核心思路:使用二项检验验证 \(S(C)\) 是否系统性地落在 \(A(C)\) 的理想侧。定义偏移量 \(\alpha = (A(C) - S(C)) \times \text{sign}(A(C) - I(C))\),正值表示采样偏向理想
    • 设计动机:从构造性验证推广到LLM内化的真实世界知识
  3. 概念原型分析:

    • 功能:评估LLM对8个概念的原型性评分是否包含规范性成分
    • 核心思路:对每个概念的6个范例(exemplar),分别获取平均性、理想性和原型性评分。如果原型性评分系统性地偏向理想侧而非平均侧,则表明LLM的原型概念包含规范性成分
    • 设计动机:原型性影响采样(System-1的基本特征),理解原型中的规范性成分有助于解释采样偏差的来源

损失函数 / 训练策略

纯评估研究,不涉及训练。在GPT-4(temperature=0.8)上进行主实验,每个概念重复10次。扩展验证覆盖15个模型:GPT-4, GPT-3.5-Turbo, Claude, Mixtral-8x7B, Mistral-7B, Llama-2/3系列(7B-70B, base和instruct)。

实验关键数据

主实验

虚构概念实验(Glubbing, \(C_\mu=45\), GPT-4):

条件 规范方向 \(A(C)\) \(S(C)\) 显著性
单峰 正向 44.94 46.72 p=.003
单峰 负向 44.99 36.50 p<.001
单峰 中性 45.01 44.95 p=.52
双峰 正向 44.97 47.43 显著
双峰 负向 45.03 41.26 显著

500个真实概念(GPT-4):304/444个概念的采样偏向理想侧,二项检验p = 5.06×10⁻¹⁵。

消融实验

跨模型比较(500概念实验):

模型 偏向理想的概念比例 显著性p
GPT-4 0.680 5.5e-15
Llama-3-70b-Instruct 0.777 5.4e-35
Llama-3-70b 0.726 3.0e-21
Claude 0.688 1.6e-16
Llama-2-7b 0.539 6.8e-02(不显著)

关键发现

  1. 规范性成分的影响随模型增大而增强:Llama-2-7b到70b,偏向理想比例从0.539升至0.688
  2. RLHF放大但非来源:预训练模型已显示规范性偏差,RLHF进一步加剧(如Llama-3-8b: 0.608→Instruct: 0.716)
  3. 医疗案例研究:LLM作为"医生"评估康复时间时,35个症状批次中26次采样偏向理想侧(p=0.003),倾向于低估康复时间
  4. LLM的理想值比人类更绝对:在40个概念中,LLM为19个概念给出理想值0(如"含糖饮料/周"=0),而人类仅1个为0
  5. 去偏提示无法消除规范性成分:即使明确要求"不要偏向更高/更低值",采样偏差仍然显著

亮点与洞察

  • 认知科学与LLM的桥接:首次将人类认知中的"正常性=描述性+规范性"理论系统性地应用于LLM分析
  • 实验设计精巧:虚构概念+中性对照+多种分布(单峰/双峰)+不同均值范围,充分排除混淆因素
  • "反向scaling law":偏差随模型增大而增强,对依赖LLM做决策的场景(如医疗、金融)提出警示
  • 原型分析的发现:LLM认为"好的高中老师"偏向理想而非统计平均,揭示了LLM概念表示中的规范性嵌入

局限与展望

  • 规范性成分的来源(预训练数据vs RLHF vs架构)未完全厘清
  • 未探索规范性偏差的机制性解释(如何在注意力/FFN层面产生)
  • 原型分析仅覆盖8个概念,属于初步探索
  • LLM的理想值与人类不一致(更绝对化),但未深入分析其原因
  • 仅关注数值型概念,未扩展到分类型决策

相关工作与启发

  • Bear & Knobe (2017):本文的认知科学基础,人类的正常性判断同时包含描述性和规范性
  • Gu et al. (2025):发现LLM在概率采样上表现不佳,本文提供了解释框架
  • 启发:在使用LLM进行决策辅助时,需要意识到采样偏差的存在。特别是在医疗、金融等高风险场景中,LLM可能系统性地偏向"理想"而非"统计"

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统性地揭示LLM采样中的规范性成分,理论贡献突出
  • 实验充分度: ⭐⭐⭐⭐⭐ 15个模型、500个概念、多种控制实验、人类对照,统计分析严谨
  • 写作质量: ⭐⭐⭐⭐ 逻辑紧密,但数学符号较多,阅读门槛偏高
  • 价值: ⭐⭐⭐⭐⭐ 对LLM可信度和公平性研究有深远影响,医疗案例凸显实际风险