跳转至

Revisiting the Reliability of Language Models in Instruction-Following

会议: ACL2026
arXiv: 2512.14754
代码: https://github.com/jianshuod/IFEval-pp
领域: LLM评测
关键词: 指令遵循、可靠性评测、IFEval++、cousin prompts、reliable@k

一句话总结

本文提出 nuance-oriented reliability 和 reliable@k,用 IFEval++ 检验模型能否稳定处理语义相近但细节不同的 cousin prompts,发现即便高分模型在细微提示变化下也会显著掉线。

研究背景与动机

领域现状:指令遵循能力通常通过 IFEval、FollowBench、CFBench 等 benchmark 评测,关注模型是否能满足格式、长度、关键词、结构等显式约束。随着模型迭代,许多强模型已经在 IFEval 上接近饱和,例如 GPT-5 的 IFEval accuracy 达到 95.9%。

现有痛点:高 benchmark accuracy 并不等于真实服务可靠。用户在实际使用中会改变措辞、上下文框架、数字约束或任务实例,而很多评测只看单个 prompt 的成败,没有衡量模型在一组相近 prompt 上是否一致可靠。

核心矛盾:一个模型可能在原始 prompt 上答对,却在只改动少量细节的 cousin prompt 上失败。传统准确率把每条 prompt 当成独立样本,无法区分“覆盖很多类型”和“对同一意图稳定可靠”这两个维度。

本文目标:作者希望构造一个能够评估细微变化稳定性的测试框架,回答当前 LLM 在指令遵循中是否具备 nuance-oriented reliability,并进一步分析这种可靠性如何随模型规模、时间迭代、推理能力和改进策略变化。

切入角度:论文从 IFEval 出发,对每个原始测试样本自动生成多个 cousin prompts。它们保留相近用户意图,但通过改写、增加兼容干扰约束、重配置任务或约束来制造细节差异。然后要求模型在同一组 prompt 上全部通过,才算该样本可靠。

核心 idea:把“单题是否答对”升级为“一组语义邻近题是否全答对”,用 reliable@k 衡量模型对细微提示变化的稳定性。

方法详解

本文的核心不是提出一个新模型,而是提出一个评测维度、一个 benchmark 构造流水线和一组系统实验。它把 instruction-following 的可靠性拆成两个正交维度:comprehensiveness-oriented reliability 关注任务和约束覆盖面,nuance-oriented reliability 关注同一意图在不同表达下是否稳定。

整体框架

整体流程从 IFEval 的 541 个原始测试样本开始。对每个样本,系统生成 9 个 cousin prompts,加上原始 prompt 组成 10 个 prompt 的测试组。每个 cousin prompt 属于三类增强之一:rephrasing、distractor addition、constraint/task reconfiguration。生成后,代码辅助的 validity checker 会检查 prompt 和评测配置是否一致、是否能被 IFEval 的自动评测函数验证。

最终得到的 IFEval++ 包含 541 个测试组,每组 10 个 prompt。模型评估时,作者报告原始 IFEval accuracy,也报告不同增强子集上的 reliable@2、reliable@4,以及整个 IFEval++ 上的 reliable@10。

关键设计

  1. reliable@k 指标:

    • 功能:衡量模型是否能同时处理 \(k\) 个 cousin prompts,而不只是单个 prompt。
    • 核心思路:对于一组 \(k\) 个输出,如果所有输出都通过对应的自动评测函数,则 reliable@k 为 1;只要有一个失败,该组为 0。当 \(k=1\) 时,它退化为普通 accuracy。
    • 设计动机:真实用户不会只问 benchmark 原句。reliable@k 把“局部稳定性”显式放进指标,能揭示普通 accuracy 看不到的第二阶能力。
  2. 三类 cousin prompt 增强:

    • 功能:从不同角度制造细微但合理的指令变化。
    • 核心思路:rephrasing 只改变措辞而保持约束不变;distractor addition 添加与原约束兼容但不参与评分的干扰约束;constraint/task reconfiguration 改变可配置参数或换一个任务场景,同时更新评测配置。
    • 设计动机:这三类变化分别对应真实用户中的不同表达、额外要求和任务实例变化。它们比完全新任务更接近“同一能力是否稳固”的问题。
  3. 代码辅助有效性检查器:

    • 功能:过滤增强过程中可能产生的无效、模糊或配置不匹配样本。
    • 核心思路:checker 在 prompt 中嵌入评测函数实现和配置说明,让 LLM 判断增强样本是否与可执行评测逻辑一致。作者采用高召回策略,宁可多标记可疑样本,也要降低错误样本混入的概率。
    • 设计动机:如果 cousin prompt 本身不合法,reliable@k 的失败就不能归因于模型不可靠。该检查器在 900 个注入错误样本上召回 99.7%,在额外 3000 个 flawed cases 上召回 99.9%。

损失函数 / 训练策略

评测部分不涉及训练。改进实验中,作者测试三条路径:预测 prompt 是否会被遵循、用目标相近数据做 SFT、通过推理努力或 rejection sampling 扩展 test-time compute。训练实验中使用 Qwen2.5-7B-Instruct,分别在 Alpaca 和去污染的 IFEval cousin prompts 上 SFT 312 steps,对比可靠性变化。

实验关键数据

主实验

作者评估 46 个模型,包括 20 个专有模型和 26 个开源模型,覆盖不同规模、厂商、推理模式和年代。

模型 IFEval Accuracy IFEval++ reliable@10 相对下降 观察
GPT-5 95.9 78.4 -18.3% 最可靠,但仍明显下降
o3 94.3 75.0 -21.3% 推理模型表现强
LLaMA-3.3-70B-Instruct 92.1 71.0 -22.9% 最强开源模型之一
Gemma-3-IT-27B 84.3 61.6 -27.0% accuracy 排名低,但 reliable@10 排名上升
Qwen3-0.6B 58.0 22.2 -61.8% 小模型在细微变化下最脆弱
GPT-3.5-turbo-1106 61.6 27.9 -54.7% 旧专有模型下降显著

结果说明,IFEval accuracy 与 IFEval++ reliable@10 高度相关但不等价。某些模型在原始 IFEval 上排名不突出,却在 cousin prompts 上更稳定,说明 nuance-oriented reliability 是独立于单点准确率的能力。

消融实验

论文围绕可靠性提升测试了预测、训练和 test-time scaling 三类方法。

配置 / 方法 关键指标 说明
verbalized confidence AUROC 0.549 / 0.518 Qwen3-8B 与 Qwen2.5-7B 接近随机,模型自信度不可靠
prompt perplexity AUROC 0.497 / 0.529 prompt 熟悉度不能预测是否遵循
hidden-state probing AUROC 0.757 / 0.759 中间隐藏状态能提供一定预测信号
Alpaca SFT reliable@10 轻微下降 一般 instruction 数据未必改善细微稳定性
curated cousin-prompt SFT 200 steps 后超过 45% 语义邻近数据更有效
rejection sampling n 增大到约 12 后趋于平台 若有 response selector,可靠性显著提升

关键发现

  • 细微变化造成的可靠性下降非常普遍,最高可达 61.8%。这说明 instruction-following benchmark 饱和并不代表真实稳定性饱和。
  • rephrasing 通常最容易,distractor 和 constraint/task reconfiguration 更难,因为它们增加了 response planning 和约束执行压力。
  • 模型规模总体有帮助,但不是唯一因素。Qwen3-14B 在某些可靠性指标上超过更大的 Qwen3-32B,说明训练方法和数据质量同样关键。
  • 推理能力通常提升可靠性,但不是充分必要条件。LLaMA-3.3-70B-Instruct 不是 reasoning model,却是开源模型中最强之一。
  • reliable@10 与 pass@10 不同。前者测语义邻近 prompt 的稳定性,后者测同一 prompt 多次采样的随机稳定性;在 LLaMA-3.3-70B 上,accuracy 92.1、reliable@10 71.0、pass@10 85.6,差异很清楚。

亮点与洞察

  • 论文把“可靠性”从一个泛泛概念拆成可执行指标,这是最大贡献。reliable@k 简单但很有诊断力,尤其适合揭示 benchmark overfitting 和 prompt sensitivity。
  • cousin prompt 的构造比传统 paraphrase robustness 更宽。它不仅看同义改写,也看兼容干扰和微调约束后的稳定性,更接近真实用户的多样表达。
  • 训练实验给出一个很实用的信号:提升可靠性不一定靠更多通用 instruction 数据,而需要围绕语义邻近样本做有针对性的训练。
  • test-time scaling 的分析也很现实。只要有可程序验证的 selector,rejection sampling 可以显著提升可靠性;但这也说明可验证任务和开放式任务之间存在重要差异。

局限与展望

  • IFEval++ 的完整评测成本是 IFEval 的 10 倍,需要生成更多响应。未来需要更高效地选择最有区分度的 cousin prompts。
  • 评测主要关注格式和约束遵循,没有同时评估内容质量。模型可能满足格式但回答内容一般,这在真实服务中仍然不够。
  • 本文主要基于英文 IFEval。方法可以迁移到多语言,但需要翻译、约束函数适配和语言特定的有效性检查。
  • validity checker 虽然召回很高,但仍依赖 LLM 判断,可能带来细微偏差。更强的程序化检查或人工抽检可以进一步增强可信度。
  • 改进策略只覆盖代表性方法,没有系统复现所有 instruction-following enhancement 技术,无法断言哪类训练或对齐策略最优。

相关工作与启发

  • vs IFEval: IFEval 评估单条 prompt 是否满足约束,IFEval++ 在其基础上评估同一意图的多种细微表达是否都能满足。
  • vs 多约束 benchmark: FollowBench、CFBench、ComplexBench 更强调约束类型和复杂度覆盖;本文强调语义邻近样本间的一致性。
  • vs pass@k: pass@k 是同一 prompt 多次采样的稳定性,reliable@k 是不同 cousin prompts 的稳定性,两者捕捉不同风险。
  • 启发: 未来构建 LLM 评测时,应给每个核心样本配套一个局部扰动族。模型分数不应只看“答对多少题”,还要看“同一能力是否稳”。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ reliable@k 概念简单有力,把 prompt-level 稳定性变成可规模化评测。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 46 个模型,并分析规模、时间、推理、增强类型和改进路径。
  • 写作质量: ⭐⭐⭐⭐☆ 结构清楚,例子直观;长表格信息密集,需要读者关注指标定义。
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 评测、模型发布报告和可靠服务监控都有直接参考价值。