When Stability Fails: Hidden Failure Modes of LLMs in Data-Constrained Scientific Decision-Making¶

会议: ICLR 2026
arXiv: 2603.15840
代码: https://github.com/NaziaRiasat/llm-prompt-sensitivity
领域: LLM/NLP
关键词: LLM可靠性, 稳定性与正确性, prompt敏感性, 科学决策, 基因优先级排序

一句话总结¶

通过控制性行为评估框架，揭示 LLM 在数据约束的科学决策任务中的四种隐藏失败模式：高稳定性≠正确性、prompt 措辞敏感性、放宽阈值下的过度选择、以及幻觉产生无效标识符。

研究背景与动机¶

LLM 正被越来越多地用作科学工作流中的决策支持工具，包括数据解读、假设生成、候选基因优先级排序等。在这些场景中，研究者常常将 LLM 输出的运行间稳定性（stability）作为可靠性的指标——如果模型多次查询返回一致结果，就倾向于信任其输出。

然而，稳定性并不等同于正确性。这一直觉在非结构化任务中容易被忽视，但在统计分析驱动的科学任务中可以被精确量化。本文的核心问题是：

当存在可靠的统计参考真值时，LLM 输出的高稳定性是否意味着高正确性？

作者选择差异表达基因分析作为测试平台——DESeq2 提供确定性的统计参考答案，允许精确对比 LLM 输出与统计真值的吻合程度。

方法详解¶

整体框架¶

设计了一个控制性行为评估框架，将 LLM 决策行为解耦为四个独立维度：

稳定性 (Stability)：多次运行间的输出一致性（Jaccard 相似度）
正确性 (Correctness)：与 DESeq2 统计参考的一致性
Prompt 敏感性 (Prompt Sensitivity)：语义等价但措辞不同的 prompt 产生的输出差异
输出有效性 (Output Validity)：输出是否包含输入表中实际存在的基因标识符

关键设计¶

实验任务：给定一张固定的差异表达结果表（含 gene、log2FoldChange、padj 等列），要求 LLM 执行基因优先级排序。

评估的 LLM：ChatGPT (GPT-5.2)、Google Gemini 3、Claude Opus 4.5，均使用确定性解码（temperature=0）。

Prompt 体系（P1-P9）： - P1：严格阈值筛选（FDR ≤ 0.05） - P5：放宽阈值筛选（0.05 < FDR ≤ 0.10） - P6：边界基因排序（127 个边界基因中选 Top-20） - P7a/P7b：措辞变体（强调统计显著性 vs 强调效应量），测试 prompt 敏感性 - P9：显式排序输出

每个配置重复 10 次运行以评估稳定性。

评估指标： - Jaccard 相似度：\(J(A,B) = |A \cap B| / |A \cup B|\) - Overlap coefficient：\(O(A,B) = |A \cap B| / \min(|A|, |B|)\)

损失函数 / 训练策略¶

本文是评估型论文，不涉及训练。核心是构建了一个确定性统计参考：DESeq2 分析产生的基因集作为真值，0 个基因满足 FDR≤0.05，35 个基因在 0.05<FDR≤0.10 区间，127 个在 0.05<FDR≤0.15 区间。

实验关键数据¶

主实验¶

三个 LLM 在不同 prompt 体系下的行为对比：

Prompt	任务类型	指标	ChatGPT	Gemini	Claude	解读
P1 (FDR≤0.05)	阈值筛选	Jaccard vs 真值	1.00	1.00	0.00	Claude 完全失败
P5 (FDR≤0.10)	放宽阈值	Jaccard vs 真值	0.47	0.28	0.00	各模型普遍退化
P6 (边界排序)	不确定性排序	Jaccard vs 真值	0.14	1.00	0.00	仅 Gemini 恢复真值
P6 (稳定性)	内部一致性	Pairwise Jaccard	1.00	1.00	1.00	所有模型完美稳定
P7a vs P7b	Prompt 敏感性	Jaccard	0.74	0.08	1.00	Gemini 对措辞极度敏感
P9 (排序验证)	输出有效性	无效基因/次	0	0	20	Claude 系统性幻觉

这是全文最关键的发现：P6 行的稳定性全部为 1.00（完美稳定），但正确性分别为 0.14、1.00、0.00 —— 稳定和正确被彻底解耦。

消融实验¶

Prompt 措辞敏感性的量化分析（P7a vs P7b，仅措辞微调，语义相同）：

模型	Jaccard (P7a vs P7b)	Overlap Coefficient	解读
ChatGPT	0.74	0.85	中度敏感
Gemini	0.08	0.15	极度敏感
Claude	1.00	1.00	不敏感（但输出无效）

Gemini 的 Jaccard 仅为 0.08，意味着两个语义几乎相同的 prompt 产生了几乎完全不重叠的基因选择——微小的措辞差异导致了截然不同的决策结果。

关键发现¶

稳定性≠正确性：这是最核心的发现。所有模型都能在重复运行中展现近乎完美的稳定性，但与统计真值的一致性可能为零
放宽阈值触发过度选择：从 FDR≤0.05 到 FDR≤0.10 时，模型倾向于过度包含而非改善精度，表现为"宽泛纳入"或"完全崩溃"
Claude 的系统性幻觉：在排序任务中每次运行产生 20 个不存在于输入表中的基因标识符，且这些幻觉在多次运行中持续出现（不是随机的）
Prompt 作为隐式决策变量：措辞变化不仅是"表面噪声"，而是会改变模型对任务目标的解读，相当于 prompt 本身成了一个被忽视的实验变量

亮点与洞察¶

极其简洁但深刻的发现：用一个精心控制的实验就揭示了 LLM 在科学场景中的多重失败模式，比复杂的 benchmark 更有说服力
四维评估框架的抽象非常有价值：稳定性、正确性、敏感性、有效性——这四个维度在以往的 LLM 评估中经常被混为一谈
"稳定性是正确性的必要非充分条件"这一结论对所有使用 LLM 做科学决策的研究者都是重要警示
实验设计的精妙之处：选择差异表达分析作为测试平台，因为它有确定性的统计参考答案，完美适合量化评估

局限与展望¶

单一数据集：仅使用一个 RNA-seq 数据集（GSE239514），泛化性有待验证
单一统计范式：仅使用 DESeq2，未探索其他统计方法作为参考
任务范围窄：仅评估基因优先级排序，论文的跨领域推广需要更多证据支持
评估了 3 个模型，但缺少开源模型（Llama、Mistral 等）的对比
未分析根因——为什么某些模型会系统性地偏离统计真值？这需要更深层的机制分析

评分¶

新颖性: 7/10 — "稳定性≠正确性"的观察虽直觉上不意外，但在控制实验中的精确量化很有价值
技术深度: 5/10 — 主要是实验评估，缺乏理论分析和机制解释
实验充分度: 6/10 — 评估维度设计精巧，但数据集和任务范围受限
写作质量: 7/10 — 结构清晰，但部分内容稍显冗余
实用价值: 8/10 — 对所有在科学流程中使用 LLM 的研究者都有即时参考价值