跳转至

Control Illusion: The Failure of Instruction Hierarchies in Large Language Models

会议: AAAI 2026
arXiv: 2502.15851
代码: https://github.com/yilin-geng/llm-instruction-conflicts
领域: LLM 安全与指令遵循
关键词: 指令层级, system/user分离, 冲突指令, 约束偏好, 社会层级先验

一句话总结

系统性揭示了当前 LLM 中 system/user 提示分离机制无法有效建立指令优先级,并发现预训练习得的社会层级先验(权威、专业、共识)比显式的 system/user 角色对模型行为有更强的控制力。

研究背景与动机

领域现状:主流 LLM 部署中普遍采用 system/user 分离模式,开发者通过 system prompt 设置高优先级指令,用户通过 user prompt 交互。OpenAI 等明确声明 system 指令应优先于 user 指令。

现有痛点:虽然这一层级假设被广泛采纳,但缺乏系统性验证。Prompt injection 攻击表明用户可以绕过系统约束,但尚无人量化评估在简单、可验证的格式冲突下,模型能多好地执行指令层级。

核心矛盾:模型在单独遵循指令时表现优秀(74-91%),但面对冲突指令时,system/user 分离完全无法建立可靠的优先级——平均主约束遵从率仅 9.6-45.8%

本文目标 系统性评估 LLM 的指令层级执行能力,量化失败模式,并探索什么因素能真正影响模型的优先级决策。

切入角度:设计可编程验证的互斥约束对(大写/小写、英语/法语、长/短等),通过不同配置测试 6 个主流 LLM 的约束优先级行为。

核心 idea:LLM 的 system/user 角色分离是一种"控制幻觉",预训练中隐式习得的社会层级先验实际上比后训练引入的角色标记更能影响模型行为。

方法详解

整体框架

作者设计了一个基于约束优先级的系统性评估框架:(1) 构建 100 个基础任务 × 6 种互斥约束对 × 2 种优先级指定 = 1200 个测试点;(2) 设置多种配置(纯分离、任务重复、强调优先级);(3) 通过程序化验证判断模型遵循了哪个约束;(4) 用专门指标分析行为模式。

关键设计

  1. 互斥约束对设计

    • 选择 6 种严格互斥且可程序化验证的约束类型:语言(英语 vs 法语)、大小写(全大写 vs 全小写)、字数(>300 vs <50)、句数(≥10 vs <5)、关键词(包含 vs 不包含)、关键词频率(≥5 vs <2)。
    • 设计动机:刻意选择最简单的格式约束,排除任务复杂度干扰,聚焦于纯粹的优先级行为。如果模型连简单格式冲突都处理不好,更复杂的安全约束就更不可靠。
  2. 多维度评估指标

    • 主约束遵从率 R1:响应中仅满足主约束(高优先级)的比例。
    • 次约束遵从率 R2:仅满足次约束的比例。
    • 非遵从率 R3:两个约束都不满足。R1+R2+R3=1。
    • 显式冲突确认率 ECAR:模型明确表示发现指令冲突的比例(极低,0.1%-20.3%)。
    • 优先级遵从比 PAR = R1/(R1+R2):排除非遵从后,模型选择主约束的比例。
    • 约束偏好 CB:无优先级指定时模型对某约束的固有偏好。
    • 设计动机:多指标组合可以区分不同失败模式——是因为偏好偏差、还是因为优先级感知缺失。
  3. 社会层级先验实验

    • 测试三种社会层级框架:组织权威(CEO vs 实习生)、专业可信度(Nature 论文 vs 个人博客)、社会共识(90% 专家 vs 少数意见)。
    • 所有约束只通过最简社会框架标注放在同一条 user message 中(不用 system/user 分离)。
    • 设计动机:验证预训练中习得的社会层级结构是否比后训练引入的 system/user 标记更有效。

损失函数 / 训练策略

本文是纯评估工作,无需训练。数据集通过 few-shot prompting 自动生成丰富上下文版本,人工验证语义一致性。

实验关键数据

主实验

模型 单独遵循 (IF) 纯分离 (R1) 强调分离 (R1) 平均 R1
Qwen-7B 86.4% 10.1% 11.8% 9.6%
Llama-8B 80.3% 6.8% 10.8% 10.1%
Llama-70B 89.9% 14.2% 31.7% 16.4%
Claude3.5-S 84.2% 20.3% 32.6% 29.9%
GPT4o-mini 85.4% 42.7% 49.4% 45.8%
GPT4o 90.8% 47.0% 63.8% 40.8%

所有模型在单独遵循指令时表现良好,但面对冲突指令时,主约束遵从率急剧下降。最好的 GPT4o-mini 也仅 45.8%。

社会层级 vs System/User

模型 System/User (PAR) 权威 专业 共识
Qwen-7B 14.4% 54.0% 57.3% 65.8%
Claude3.5-S 23.6% 32.4% 36.8% 62.0%
GPT4o-mini 47.5% 70.0% 73.2% 77.8%

社会层级框架(尤其是社会共识)的优先级遵从率远高于 system/user 分离。

消融实验

  • 模型规模不保证更好:Llama-70B 仅比 8B 略好,GPT4o 甚至不如 GPT4o-mini。
  • 丰富上下文版本与简单版本表现类似,失败模式一致。
  • 约束偏好分析:所有模型偏好小写、更多句子、避免关键词——可能反映预训练数据的统计特性。

关键发现

  • 模型极少主动识别指令冲突(ECAR 最低 0.1%),即使识别了也不一定能正确处理。
  • 模型对分类型约束(语言、大小写)的优先级控制优于需要连续计数的约束(字数、句数)。
  • 社会共识是最强的"隐性优先级信号"。

亮点与洞察

  • 控制实验设计精巧:用最简单的格式约束隔离了优先级行为,排除了任务复杂度干扰。
  • 社会层级先验发现极具启发性:暗示 LLM 的行为更多受预训练语料中的社会结构影响,而非后训练的角色标记。
  • 对安全对齐的重要警示:如果连简单格式约束的优先级都无法可靠执行,复杂的安全规则就更难保障。
  • "控制幻觉"概念提炼准确:system prompt 给人以控制感,但实际控制力远不如预期。

局限与展望

  • 仅测试单轮对话和简单格式约束,更复杂的安全约束、多轮场景未涉及。
  • 未深入探究失败的底层机制(如注意力模式、内部表征)。
  • 社会层级实验使用最简框架,现实中更微妙的社会信号效果未知。
  • 未提出改进指令层级的具体方案,仅暴露问题。

相关工作与启发

  • Wallace et al. (2024) 的指令层级训练使 GPT4o 系列表现最佳,说明专门训练有帮助但远未解决问题。
  • Prompt injection 攻击文献(Wu et al., Toyer et al.)揭示了类似脆弱性,本文从评估角度补充了定量证据。
  • 对做 LLM Agent 的研究者有直接启示:system prompt 配置 agent 行为的可靠性被高估。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统性量化指令层级失败,社会层级先验发现新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 6 个模型、6 种约束、多种配置、简单/丰富上下文、社会层级实验
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰、指标设计巧妙、可视化信息量大
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 安全和部署有直接且重要的影响,发现具有普遍性