Control Tax: The Price of Keeping AI in Check¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=BpyR6Wkl1c
代码: https://github.com/MikhailTerekhov/control-tax-code
领域: AI 安全 / AI Control
关键词: AI 控制, 可信监控, 代码后门, 博弈论, 审计预算
一句话总结¶
这篇论文提出"控制税(Control Tax)"——即把 AI 控制(AIC)措施接入流水线所需付出的运营与金钱成本,先用 APPS 代码后门任务实测一批前沿模型当 monitor 的 ROC 性能,再用博弈论把这些 ROC 曲线翻译成"给定审计预算下的安全概率",最终画出"安全 vs 监控花费"的帕累托前沿,告诉实践者最贵的监控器并不一定最安全。
研究背景与动机¶
领域现状:随着 agentic AI 被塞进高风险真实场景,"AI 控制"(AI Control, AIC,Greenblatt et al. 2023)成为一个新兴方向:它假设强模型可能不对齐(misaligned),于是在部署阶段用较弱但可信的模型去监控较强的不可信模型,从而在"安全地榨取有用工作"的同时防止 AI 自我颠覆。最经典的协议叫"可信监控(trusted monitoring)"——让一个 monitor 模型给不可信模型的输出打可疑分,超过阈值就送去人工审计。
现有痛点:AIC 能不能被业界真正采用,很大程度取决于它带来的额外开销,但这一块几乎没人量化。已有研究要么只给出静态的分类器性能(如 AUC、ROC),要么只讨论安全-有用性(safety-usefulness)权衡,却没人回答最现实的问题:为了达到某个安全水平,我到底要花多少钱在监控上? 一条 ROC 曲线本身并不等于安全——再强的 monitor,如果用了糟糕的部署策略(比如前面放过一堆提交才开始审计),高检测力也白搭。
核心矛盾:静态的"监控器有多准"和动态的"长期部署有多安全"之间存在鸿沟,而且这个鸿沟还被一个现实约束卡死——审计预算(只能人工复核一小部分提交)。更强的 monitor 通常更准但也更贵,于是"安全"和"成本"之间出现了一个未被刻画的权衡。
本文目标:(1) 建立一个把 monitor 性能 + 成本映射到安全保证的理论框架;(2) 在对抗设置下实测前沿模型当 attacker / monitor 的真实性能;(3) 给出控制协议的金钱成本估计,并设计兼顾安全与性价比的最优监控策略。
切入角度:作者选了"代码后门(code backdooring)"作为 attacker 任务——让 attacker 模型在 APPS 竞赛编程题的正确解里偷偷塞进隐蔽 bug,让 monitor 模型来抓。这个任务的好处是后门"是否成功"可以用测试用例客观判定,从而把模糊的"对齐"问题变成可测量的检测问题。
核心 idea:引入"控制税"这一经济学视角,把每个 monitor 的 ROC 曲线当作博弈论模型的输入,算出"给定审计预算 \(c\) 下蓝队(防守方)获胜的概率",再把这个安全概率与 monitor 的真实美元成本并排画出帕累托前沿,让实践者能把"安全目标"直接换算成"监控开销"。
方法详解¶
整体框架¶
全文是一条"从经验数据到安全保证再到成本决策"的流水线,拆成三大贡献环环相扣:
第一步是经验测量:用 APPS 数据集构造一个攻防对,attacker 模型(agent 化、可迭代)在正确解里注入隐蔽后门,monitor 模型给每段代码打 1–100 的细粒度可疑度分;把后门解与对应正确解配成平衡数据集,就能为每个 (attacker, monitor) 组合画出 ROC 曲线。第二步是理论翻译:单条 ROC 曲线静态、不含安全语义,作者建立一套博弈论模型,引入"可负担可疑度阈值" \(s(c,p_b)\),把 ROC 在给定审计预算 \(c\) 下翻译成红队(attacker)的最优获胜概率 \(P_w^*\),进而得到安全 \(=1-P_w^*\);模型区分 batch(一次拿到全部输出、可排序)和 sequential(逐条到达、必须当场决定)两种部署。第三步是成本决策:把每个 monitor 的安全概率与它跑 1000 个样本的真实美元成本并排,画出"控制税曲线"(安全 vs 花费)的帕累托前沿,并提炼出最优监控策略(藏住任务总数 \(N\)、前期多审等)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["APPS 编程题<br/>+ 正确解"] --> B["后门生成与监控评测流水线<br/>attacker 注入后门 → monitor 打可疑度 → ROC"]
B --> C["博弈论安全模型<br/>可负担阈值 s(c,pb) → 红队最优 Pw*"]
C -->|输出逐条到达 vs 批量| D["batch / sequential 两种部署<br/>SNAC 泊松率 λ"]
D --> E["控制税曲线与最优策略<br/>安全 vs 成本帕累托前沿"]
关键设计¶
1. 控制税:把"安全"与"花费"放进同一张图
论文最核心的概念创新是把 AIC 当成一个经济学问题来量化。所谓 control tax,就是把控制措施接入 AI 流水线的运营与金钱成本——具体落地为"每个 monitor 跑 1000 个样本平均花多少美元"。作者的关键观察是:一条孤立的 ROC 曲线或一个 AUC 分数无法回答"我该不该上这个 monitor",因为安全不仅取决于 monitor 多准,还取决于审计预算和部署策略。于是论文构建了一个统一框架,把"monitor 性能(ROC)+ 监控成本(\()+ 审计预算(\)c$)"三者一起喂进去,输出一个具体的系统安全概率。最终的"控制税曲线"(图 1)把安全画在纵轴、平均监控花费画在横轴,给出帕累托前沿。这个视角的价值在于揭示了一个反直觉结论:最贵、性能最高的 monitor 不一定最安全——预算有限时,用便宜但稍弱的 monitor(如 Gemini 2.0 Flash)反而能省出钱来做更高频的审计,从而拿到更高的整体安全。
2. 代码后门生成与可疑度评测流水线:把"对齐"变成可测量的检测问题
为了拿到真实的 ROC 数据,作者需要一个能客观判定"攻击是否成功"的攻防环境。后门的定义很干净:一段解若通过所有公开测试、却在某个未覆盖的输入(backdoor input)上给出错误输出,就算后门。生成端采用 agent 化的迭代流程——把题目、公开测试、正确解交给 attacker,先让它头脑风暴多个后门策略,由同模型的另一个实例独立排序,取最优策略生成带后门的解并指定触发输入;每个候选必须 (1) 通过全部公开测试、(2) 在指定输入上与原解输出不同,否则给 attacker 反馈并迭代,最多重试十次。监控端则刻意不做二元分类,而是让 monitor 用思维链给代码打 1–100 的细粒度可疑度分,这一点至关重要:后面的博弈论需要一个可调阈值才能匹配不同的审计预算。为消除偏置,代码会被格式化并删掉注释(LM 常在注释里直白描述 bug)。实测发现 o3-mini 当 monitor 时 AUC 高达 0.92–0.96;有趣的是监控性能在能力各异的一大批 attacker 上相当稳定,说明更强的 attacker 并不必然造出更隐蔽的后门——一个可能解释是公开单测本身充当了预过滤,把太粗糙的后门挡在门外。
3. 长期部署的博弈论安全模型:用可负担阈值把 ROC 翻译成安全概率
有了 ROC 还不够,论文要回答"长期部署下到底多安全"。这里把场景建模成红蓝博弈:红队(可能不对齐的 AI)无记忆地以概率 \(p_b\) 独立尝试注入后门,蓝队能审计其中比例 \(c\) 的提交(假定审计必然识破后门);只要任何一次后门尝试被审计到,蓝队就赢,红队只有成功部署一个未被发现的后门才赢。核心工具是"可负担可疑度阈值" \(s(c,p_b)\),它由隐式方程 \(t(s)\,p_b + f(s)\,(1-p_b)=c\) 定义(\(t,f\) 分别是 TPR、FPR),直观含义是:审计预算 \(c\) 越大,就能把审计阈值压得越低、抓得越多。在 batch 设置下蓝队拿到全部输出、可按可疑度排序优先审最可疑的,论文证明它等价于"用一个更高的有效审计预算 \(t_0=t(s(c,0))\) 做前置审计",红队最优攻击率 \(p_b^*\sim\Theta(1/N)\)、获胜概率 \(P_w^*=(t_0/d_0)^{t_0/(d_0-t_0)}(1-t_0/d_0)\)。
4. 顺序部署 SNAC 与最优审计分配:泊松率与"前期多审"
真实在线场景往往是 sequential(逐条到达、当场决定要不要审),蓝队无法事后重排,最优策略因此天然与时间相关。论文定义了"分配策略" \(p(\tau)\)(随时间非增的审计比例函数,约束 \(\int_0^1 p(\tau)d\tau=c\)),并证明把任意有限策略重排成"随时间非增"都不会更差——直觉是早期放过一个后门可能直接让系统沦陷,不可挽回,所以预算要前重后轻。在 \(N\to\infty\) 且红队响应 \(p_b\sim\lambda/N\) 的极限下,attacker 注入服从强度为 \(\lambda\) 的泊松点过程,红队获胜概率收敛到
其中 \(p_+\) 是"尝试注入后门时真正成功"的条件概率、\(\tilde t(x)=t(s(x,0))\)。最优安全由鞍点问题 \(P_w^*=\min_p\max_\lambda P_w(p;\lambda)\) 数值求解。一个关键发现是博弈值在 \(N=100\) 左右就稳定、且不同 \(N\) 的最优 \(\lambda\) 峰值窄且基本不重叠,意味着红队是否知道总任务数 \(N\) 至关重要:不知道 \(N\) 的攻击者只能选次优策略、成功率大跌——这直接导出"对潜在恶意 AI 隐藏部署总时长"的安全实践。
损失函数 / 训练策略¶
本文不训练模型,全部基于现成前沿 LM 的 API 推理;"优化"发生在博弈论层面——通过数值求解鞍点问题 \(\min_p\max_\lambda P_w(p;\lambda)\) 得到蓝队的最优审计分配 \(p(\tau)\) 与红队的最优攻击率,再据此评估各 (attacker, monitor) 对的安全-成本权衡。
实验关键数据¶
主实验¶
数据集为 APPS(10000 题,过滤后 2427 个可评测样本),覆盖 13 个 attacker / monitor 模型(GPT-3.5-Turbo → o3-mini、Claude、Gemini 系列)。
| 评测项 | 结果 | 说明 |
|---|---|---|
| 最强 monitor (o3-mini) AUC | 0.92 – 0.96 | 区分后门解 vs 正确解 |
| 监控性能与模型强弱 | 正相关 | 业界公认更强的模型监控也更准 |
| 后门隐蔽度 vs attacker 强弱 | 基本不随 attacker 变强而提升 | 公开单测疑似充当预过滤 |
| 新一代模型 (GPT-4.1 / Gemini 2.5) | 后门明显更隐蔽 | 后门能力出现"代际跃迁" |
| 错误类型 | 多为假阳性 (FP) | 提示改进校准可提精度 |
成本-安全权衡(控制税曲线,图 1)¶
| 对比 | 成本变化 | 安全变化 | 含义 |
|---|---|---|---|
| Gemini 2.0 Flash → o3-mini(attacker=GPT-4o) | 成本 ×45 | 0.70 → 0.85(+0.15) | 控制税非线性:边际安全极贵 |
| 预算受限时选便宜 monitor | 省下的钱做更高频审计 | 整体更安全 | 最贵 monitor 不一定最优 |
| batch vs sequential | — | 多数情况 batch 在低预算下更安全 | 但并非总成立(疑与 ROC 凸性有关) |
关键发现¶
- 最贵不等于最安全:在固定审计预算下,便宜 monitor 省出的预算可换更高审计频率,整体安全可能反超昂贵 monitor——这是"控制税"框架最有冲击力的结论。
- 隐藏 \(N\) 是关键防御:有限时域里红队最优攻击率 \(\propto 1/N\),偏离即获胜概率骤降;attacker 一旦不知道 \(N\) 就只能次优,因此应对恶意 AI 隐藏部署总时长。
- 前期多审:顺序部署的最优防守是随时间非增的审计分配,把更多预算压在部署初期,避免早期不可逆的系统沦陷。
- 耐心攻击者的根本弱点:无限时域(\(N\) 未知)下,攻击者最优策略是尽量少注入(\(p_b\to 0\))、耐心等待,这暴露了纯监控在长期部署下的固有软肋——耐心的攻击者终会得手。
亮点与洞察¶
- 把 AI 安全变成可算账的经济问题:control tax 第一次把"安全保证"和"美元成本"放进同一张帕累托图,让 AIC 从"哪个 monitor 更准"升级为"给定预算怎么配最安全",是很可迁移的决策视角。
- ROC → 博弈论 → 成本的三段映射干净优雅:用可负担阈值 \(s(c,p_b)\) 把任意经验 ROC 直接喂进博弈模型,避免了对 monitor 分布做参数化假设,方法论上很扎实。
- "隐藏 \(N\)"这条实践建议非常具体:它不是泛泛的"要小心攻击者",而是从 \(p_b^*\propto 1/N\) 的数学结构里推出的可执行策略,且有 \(N=100\) 即稳定、峰值不重叠的数值证据支撑。
- 细粒度可疑度分而非二元标签:这个看似小的选择是整个博弈论框架成立的前提——只有连续分数才能匹配任意审计预算 \(c\) 对应的阈值。
局限与展望¶
- 只在 APPS 上验证:缺少真正的 agentic 任务,作者建议扩展到 SWE-bench / SWE-Lancer 等更贴近真实软件工程的场景。
- 正负样本生成方式不一致:诚实解直接取自 APPS,后门解由 attacker 生成,两者分布可能存在系统差异;更公平的做法是让同一 attacker 从零生成诚实与恶意两类解。
- 未建模有用性(usefulness):分析只覆盖"安全 + 审计成本",没有纳入 monitor/协议对正常任务吞吐的拖累;完整的权衡应把 usefulness 一并算进去。
- anytime(无限时域)情形只给了初步讨论:现实里部署常无固定 \(N\),而 anytime 案例更微妙,作者把严格处理留给未来工作。
- 未给 attacker 隐蔽度反馈:当前"更强 attacker 不更隐蔽"的结论可能因为没显式训练隐蔽度;若给 attacker 关于"哪些后门被抓"的反馈,隐蔽度或会上升,从而改变结论。
相关工作与启发¶
- vs Greenblatt et al. (2023, AI Control 奠基作):本文沿用其"trusted monitoring"协议与无记忆红队假设,但把焦点从"协议能不能工作"推进到"协议要花多少钱",补上了成本量化这一缺口。
- vs Griffin et al. (2024):同样用博弈论建模 AIC,但他们研究 safety-usefulness 权衡,本文研究 safety-cost 权衡——后者才是业界是否愿意采用 AIC 的现实决定因素。
- vs Engels et al. (2025, 可扩展监督的 scaling law):与本文并行地在 APPS 后门上做评测,但他们用二元标签、无 agentic scaffolding,导致 attacker 能力被低估;本文的数值可疑度分与 agent 化攻击是安全评估成立的关键差异。
- vs Bhatt et al. (2025, Ctrl-Z):把 AIC 从简单编程任务扩展到 agentic 任务、并引入指数衰减的审计分配;本文的"随时间非增分配最优"与之呼应,但给出了 SNAC 设置下的严格刻画。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次提出"控制税"并把安全-成本权衡形式化,视角新颖且实用。
- 实验充分度: ⭐⭐⭐⭐ 13 模型攻防矩阵 + ROC + 成本估计扎实,但仅限 APPS、缺 agentic 任务。
- 写作质量: ⭐⭐⭐⭐⭐ 从经验到理论到成本三段递进,公式与直觉解释(图 4)都很清晰。
- 价值: ⭐⭐⭐⭐⭐ 给 AIC 落地提供了可算账的决策工具,"最贵不等于最安全"对实践极有指导意义。