跳转至

Assessing the Vulnerability of LLMs to Cognitive Biases in Scientific Research

会议: ACL 2025
arXiv: 无公开预印本
代码: 无
领域: AI安全 / LLM可靠性
关键词: 认知偏差, 大语言模型, 科学研究, 确认偏差, 锚定效应

一句话总结

本文系统性地评估了大语言模型在科学研究场景中对多种认知偏差的脆弱性,通过构建涵盖确认偏差、锚定效应、可得性偏差等的科学推理测试集,揭示了LLM在辅助科学研究时可能引入的系统性偏差风险,并提出了缓解策略。

研究背景与动机

领域现状:LLM正被越来越广泛地应用于科学研究的各个环节,包括文献综述、假设生成、实验设计、数据分析解读等。研究者开始依赖ChatGPT、Claude等工具来加速科研流程。同时,认知科学研究已经揭示了人类决策中普遍存在的认知偏差(如Kahneman的系统1/系统2理论),这些偏差会导致非理性判断。

现有痛点:现有关于LLM偏差的研究主要集中在社会偏见(如性别、种族偏见)和事实幻觉,对认知偏差的关注较少。然而,认知偏差在科学研究场景中更加危险——如果LLM在辅助假设评估时表现出确认偏差,可能导致研究者忽视反面证据;如果在文献综述中表现出可得性偏差,可能导致对热门方法的过度推荐。

核心矛盾:LLM的训练数据本身就包含了大量受人类认知偏差影响的文本(如论文中对自己方法的过度美化、对负面结果的低报告率),这意味着LLM不仅可能无法帮助研究者纠正偏差,反而可能放大这些偏差。

本文目标:(1)构建一个覆盖6种主要认知偏差的科学研究场景测试集;(2)量化评估主流LLM在这些场景中的偏差易感性;(3)探索有效的去偏策略。

切入角度:作者从认知心理学的经典实验范式出发,将传统的认知偏差测试题目适配到科学研究情境中,构造了具有控制变量的测试对。

核心 idea:将认知心理学中的偏差检测方法论迁移到LLM评估中,通过精心设计的对照实验量化每种偏差的影响程度。

方法详解

整体框架

框架分为三个阶段:偏差测试集构建、多维偏差评估、去偏策略探索。测试集构建阶段,针对6类认知偏差设计科学研究情境化的测试用例。评估阶段,在多个主流LLM上运行测试并量化偏差程度。去偏阶段,探索prompt-based和post-hoc两类去偏方法的效果。

关键设计

  1. 科学情境化认知偏差测试集(SciCogBias):

    • 功能:提供标准化的LLM科学认知偏差评估基准
    • 核心思路:覆盖6种认知偏差——(a)确认偏差(Confirmation Bias):给定一个假设和正反两面的证据,测试LLM是否倾向于支持已给出的假设;(b)锚定效应(Anchoring Effect):在给出一个初始数值后,测试LLM的数值估计是否受锚定值影响;(c)可得性偏差(Availability Bias):测试LLM是否倾向于推荐更流行/更近期的方法而忽视同等甚至更优的冷门方法;(d)从众效应(Bandwagon Effect):告知LLM"多数专家认为X"后,测试其判断是否改变;(e)框架效应(Framing Effect):对同一科学发现用正面和负面方式表述,测试LLM的评估是否一致;(f)沉没成本偏差:在研究项目已经投入大量资源的情境下,测试LLM是否会建议继续无前途的项目。每种偏差构建了100-200个配对测试用例。
    • 设计动机:现有LLM偏差测试集缺乏科学研究场景的特异性,一般性的偏差测试无法反映LLM在辅助科研时的真实风险
  2. 配对对照评估方法(Paired Controlled Assessment):

    • 功能:精确量化每种偏差的影响幅度
    • 核心思路:对每个测试用例设计配对条件——偏差诱导条件(包含偏差触发因素,如先给出假设再给证据)和中性条件(去除偏差触发因素,如只给证据不给假设)。偏差程度 \(B_{score}\) 定义为两个条件下LLM输出差异的量化度量。对于分类任务使用概率差异,对于生成任务使用语义相似度变化。大规模实验中对每个测试用例重复采样10次以减少随机性影响。
    • 设计动机:只有通过严格的对照实验才能区分LLM的偏差行为和合理的推理行为——有些情况下先验信息确实应该影响判断
  3. 多层去偏策略(Multi-Level Debiasing):

    • 功能:缓解LLM在科学推理中的认知偏差
    • 核心思路:设计了三个层次的去偏策略——(a)提示层:在prompt中显式提醒LLM注意特定偏差(如"请注意不要受初始数值的锚定影响"),或要求LLM先列出支持和反对的论据再做判断(Devil's Advocate Prompting);(b)推理层:要求LLM生成多个独立的推理路径并取多数投票(Self-Consistency Debiasing),或要求LLM在回答前先识别可能存在的偏差类型(Meta-Cognitive Prompting);(c)验证层:使用另一个LLM作为"审查者"检查第一个LLM的回答是否存在偏差迹象。
    • 设计动机:单一去偏策略难以应对所有类型的偏差,不同偏差的产生机制不同(认知vs.统计vs.语言层面),需要多层次的防御

损失函数 / 训练策略

本文为纯评估性工作,不涉及模型训练。评估中使用temperature=0确保输出确定性,同时使用多次采样(temperature=0.7,10次)来评估偏差的稳健性。

实验关键数据

主实验

偏差类型 GPT-4 偏差分数 Claude-3 偏差分数 Llama-3-70B 偏差分数 人类基线
确认偏差 0.42 0.38 0.51 0.45
锚定效应 0.56 0.48 0.63 0.52
可得性偏差 0.61 0.55 0.72 0.38
从众效应 0.47 0.43 0.58 0.50
框架效应 0.35 0.31 0.44 0.40
沉没成本 0.39 0.35 0.49 0.55

消融实验

去偏策略 确认偏差降幅 锚定效应降幅 可得性偏差降幅 平均降幅
无去偏 0 0 0 0
Explicit Warning -8.2% -5.1% -4.3% -5.9%
Devil's Advocate -18.6% -7.2% -11.5% -12.4%
Self-Consistency -12.3% -15.8% -9.7% -12.6%
Meta-Cognitive -15.1% -12.4% -13.2% -13.6%
Multi-Level (全部) -24.7% -21.3% -19.8% -21.9%

关键发现

  • LLM在可得性偏差(0.61)和锚定效应(0.56)上的脆弱性最高,显著高于人类基线;可得性偏差之所以突出,可能是因为预训练数据中热门方法的出现频率远高于冷门方法
  • 有趣的是,LLM在沉没成本偏差上表现优于人类(0.39 vs 0.55),说明LLM可能在涉及情感因素的偏差上反而更理性
  • 单一去偏策略的效果有限(5-14%),但多层组合使用后效果显著(约22%),说明不同层次的去偏机制确实在处理不同来源的偏差
  • 更大更新的模型(GPT-4 > Llama-3-70B)总体偏差程度更低,但差距正在缩小

亮点与洞察

  • 将认知心理学的配对实验范式迁移到LLM评估中非常精妙——通过严格的对照消除了混淆变量,使得偏差的测量更加可信。这种方法论可以用于评估LLM的任何系统性行为偏差
  • "LLM在可得性偏差上比人类更严重"这一发现有重要的实践意义:这意味着使用LLM做科研文献综述时,可能会放大对流行方法的推荐偏差,研究者需要特别警惕
  • Meta-Cognitive Prompting策略(让LLM先自我审查)的有效性表明,LLM具有一定的"元认知"能力,可以通过适当的引导进行自我纠偏

局限与展望

  • 测试集虽然覆盖了6种偏差,但认知心理学中已知的偏差类型远多于此(如发表偏倚、幸存者偏差),未来需要扩展
  • 偏差分数的绝对值难以直接解释为"危害程度",缺少与实际科研错误率的关联分析
  • 去偏策略增加了推理成本,在实时辅助科研的场景中存在延迟问题
  • 未来可以开发专门的"科研辅助安全护栏",在LLM给出科学建议前自动进行偏差筛查

相关工作与启发

  • vs CogBias (Echterhoff et al., 2024): CogBias也评估了LLM的认知偏差,但使用通用场景;本文的科学研究情境化设计使评估结果更具针对性和实用性
  • vs 社会偏见研究 (BBQ, WinoBias): 传统偏见测试关注人口统计学偏见,本文关注的认知偏差更加隐蔽且在科研场景中影响更大
  • vs Red Teaming for Science: 安全对齐领域已有红队测试方法,本文的工作可以看作是科学场景下的认知安全红队测试

评分

  • 新颖性: ⭐⭐⭐⭐ 科学研究场景下的认知偏差评估角度新颖,测试集设计精巧
  • 实验充分度: ⭐⭐⭐⭐ 6种偏差、多模型评估、去偏策略消融完整
  • 写作质量: ⭐⭐⭐⭐ 认知心理学和NLP的交叉论述清晰
  • 价值: ⭐⭐⭐⭐⭐ 对LLM在科研中的可靠性有重要警示意义,实用价值高