When Stability Fails: Hidden Failure Modes of LLMs in Data-Constrained Scientific Decision-Making¶
会议: ICLR 2026
arXiv: 2603.15840
代码: https://github.com/NaziaRiasat/llm-prompt-sensitivity
领域: LLM/NLP
关键词: LLM可靠性, 稳定性与正确性, prompt敏感性, 科学决策, 基因优先级排序
一句话总结¶
通过控制性行为评估框架,揭示 LLM 在数据约束的科学决策任务中的四种隐藏失败模式:高稳定性≠正确性、prompt 措辞敏感性、放宽阈值下的过度选择、以及幻觉产生无效标识符。
研究背景与动机¶
LLM 正被越来越多地用作科学工作流中的决策支持工具,包括数据解读、假设生成、候选基因优先级排序等。在这些场景中,研究者常常将 LLM 输出的运行间稳定性(stability)作为可靠性的指标——如果模型多次查询返回一致结果,就倾向于信任其输出。
然而,稳定性并不等同于正确性。这一直觉在非结构化任务中容易被忽视,但在统计分析驱动的科学任务中可以被精确量化。本文的核心问题是:
当存在可靠的统计参考真值时,LLM 输出的高稳定性是否意味着高正确性?
作者选择差异表达基因分析作为测试平台——DESeq2 提供确定性的统计参考答案,允许精确对比 LLM 输出与统计真值的吻合程度。
方法详解¶
整体框架¶
设计了一个控制性行为评估框架,将 LLM 决策行为解耦为四个独立维度:
- 稳定性 (Stability):多次运行间的输出一致性(Jaccard 相似度)
- 正确性 (Correctness):与 DESeq2 统计参考的一致性
- Prompt 敏感性 (Prompt Sensitivity):语义等价但措辞不同的 prompt 产生的输出差异
- 输出有效性 (Output Validity):输出是否包含输入表中实际存在的基因标识符
关键设计¶
实验任务:给定一张固定的差异表达结果表(含 gene、log2FoldChange、padj 等列),要求 LLM 执行基因优先级排序。
评估的 LLM:ChatGPT (GPT-5.2)、Google Gemini 3、Claude Opus 4.5,均使用确定性解码(temperature=0)。
Prompt 体系(P1-P9): - P1:严格阈值筛选(FDR ≤ 0.05) - P5:放宽阈值筛选(0.05 < FDR ≤ 0.10) - P6:边界基因排序(127 个边界基因中选 Top-20) - P7a/P7b:措辞变体(强调统计显著性 vs 强调效应量),测试 prompt 敏感性 - P9:显式排序输出
每个配置重复 10 次运行以评估稳定性。
评估指标: - Jaccard 相似度:\(J(A,B) = |A \cap B| / |A \cup B|\) - Overlap coefficient:\(O(A,B) = |A \cap B| / \min(|A|, |B|)\)
损失函数 / 训练策略¶
本文是评估型论文,不涉及训练。核心是构建了一个确定性统计参考:DESeq2 分析产生的基因集作为真值,0 个基因满足 FDR≤0.05,35 个基因在 0.05<FDR≤0.10 区间,127 个在 0.05<FDR≤0.15 区间。
实验关键数据¶
主实验¶
三个 LLM 在不同 prompt 体系下的行为对比:
| Prompt | 任务类型 | 指标 | ChatGPT | Gemini | Claude | 解读 |
|---|---|---|---|---|---|---|
| P1 (FDR≤0.05) | 阈值筛选 | Jaccard vs 真值 | 1.00 | 1.00 | 0.00 | Claude 完全失败 |
| P5 (FDR≤0.10) | 放宽阈值 | Jaccard vs 真值 | 0.47 | 0.28 | 0.00 | 各模型普遍退化 |
| P6 (边界排序) | 不确定性排序 | Jaccard vs 真值 | 0.14 | 1.00 | 0.00 | 仅 Gemini 恢复真值 |
| P6 (稳定性) | 内部一致性 | Pairwise Jaccard | 1.00 | 1.00 | 1.00 | 所有模型完美稳定 |
| P7a vs P7b | Prompt 敏感性 | Jaccard | 0.74 | 0.08 | 1.00 | Gemini 对措辞极度敏感 |
| P9 (排序验证) | 输出有效性 | 无效基因/次 | 0 | 0 | 20 | Claude 系统性幻觉 |
这是全文最关键的发现:P6 行的稳定性全部为 1.00(完美稳定),但正确性分别为 0.14、1.00、0.00 —— 稳定和正确被彻底解耦。
消融实验¶
Prompt 措辞敏感性的量化分析(P7a vs P7b,仅措辞微调,语义相同):
| 模型 | Jaccard (P7a vs P7b) | Overlap Coefficient | 解读 |
|---|---|---|---|
| ChatGPT | 0.74 | 0.85 | 中度敏感 |
| Gemini | 0.08 | 0.15 | 极度敏感 |
| Claude | 1.00 | 1.00 | 不敏感(但输出无效) |
Gemini 的 Jaccard 仅为 0.08,意味着两个语义几乎相同的 prompt 产生了几乎完全不重叠的基因选择——微小的措辞差异导致了截然不同的决策结果。
关键发现¶
- 稳定性≠正确性:这是最核心的发现。所有模型都能在重复运行中展现近乎完美的稳定性,但与统计真值的一致性可能为零
- 放宽阈值触发过度选择:从 FDR≤0.05 到 FDR≤0.10 时,模型倾向于过度包含而非改善精度,表现为"宽泛纳入"或"完全崩溃"
- Claude 的系统性幻觉:在排序任务中每次运行产生 20 个不存在于输入表中的基因标识符,且这些幻觉在多次运行中持续出现(不是随机的)
- Prompt 作为隐式决策变量:措辞变化不仅是"表面噪声",而是会改变模型对任务目标的解读,相当于 prompt 本身成了一个被忽视的实验变量
亮点与洞察¶
- 极其简洁但深刻的发现:用一个精心控制的实验就揭示了 LLM 在科学场景中的多重失败模式,比复杂的 benchmark 更有说服力
- 四维评估框架的抽象非常有价值:稳定性、正确性、敏感性、有效性——这四个维度在以往的 LLM 评估中经常被混为一谈
- "稳定性是正确性的必要非充分条件"这一结论对所有使用 LLM 做科学决策的研究者都是重要警示
- 实验设计的精妙之处:选择差异表达分析作为测试平台,因为它有确定性的统计参考答案,完美适合量化评估
局限与展望¶
- 单一数据集:仅使用一个 RNA-seq 数据集(GSE239514),泛化性有待验证
- 单一统计范式:仅使用 DESeq2,未探索其他统计方法作为参考
- 任务范围窄:仅评估基因优先级排序,论文的跨领域推广需要更多证据支持
- 评估了 3 个模型,但缺少开源模型(Llama、Mistral 等)的对比
- 未分析根因——为什么某些模型会系统性地偏离统计真值?这需要更深层的机制分析
相关工作与启发¶
- Singhal et al., 2023:LLM 在临床推理中的应用,本文揭示的问题对临床场景的影响更大
- Li et al., 2024:LLM 幻觉的系统分析,本文发现的基因标识符幻觉是其在科学场景的具体表现
- Zhu et al., 2023:prompt 敏感性的文档化,本文在控制条件下精确量化了这一现象
- 启发:任何在科学工作流中使用 LLM 的系统都应该同时实施真值验证和输出有效性检查,不能仅凭输出一致性来建立信任
评分¶
- 新颖性: 7/10 — "稳定性≠正确性"的观察虽直觉上不意外,但在控制实验中的精确量化很有价值
- 技术深度: 5/10 — 主要是实验评估,缺乏理论分析和机制解释
- 实验充分度: 6/10 — 评估维度设计精巧,但数据集和任务范围受限
- 写作质量: 7/10 — 结构清晰,但部分内容稍显冗余
- 实用价值: 8/10 — 对所有在科学流程中使用 LLM 的研究者都有即时参考价值