Comprehensive AI Governance Requires Addressing Non-Model Gains¶

会议: ICML2026
arXiv: 2606.00047
代码: 无
领域: AI安全
关键词: AI治理, 非模型增益, 前沿AI安全, 推理扩展, 多层治理

一句话总结¶

本文是一篇立场论文，论证当前以模型为中心的AI治理范式在"非模型增益"（推理增益、系统增益、资产增益）日益重要的背景下效力递减，需要系统治理、实体治理、代理治理和云治理等多层互补方案来填补监管空白。

研究背景与动机¶

领域现状：当前前沿AI治理主要依赖"模型级治理"（model-level governance），即通过评估和缓解模型的危险能力来管理风险。这种范式假设模型的能力主要由训练阶段的算力和数据决定，因此将前沿模型开发者作为安全工作的核心节点。各国监管（如欧盟AI法案）和企业自律框架（如Anthropic RSP、OpenAI Preparedness Framework）都集中在部署前评估与缓解。

现有痛点：随着推理模型（如OpenAI o1系列）、复杂scaffolding系统（如Google DeepMind的Big Sleep零日漏洞发现）以及国家安全机构与AI公司合作的兴起，越来越多的能力提升并非来自预训练扩展，而是来自部署后的"非模型增益"。这些增益成本低、扩散快，且模型开发者难以在部署前完全预见。

核心矛盾：模型级治理的有效性依赖于开发者在部署前穷尽式引出（elicitation）模型的下游能力。但非模型增益使得能力空间在部署后持续膨胀，导致三种治理失效：引出失败（无法预见所有增强方式）、缓解失败（难以控制已知危险能力）、滞后成本（未引出能力造成的预期危害增大）。

本文目标：(1) 形式化"非模型增益"概念并建立分类体系；(2) 分析每类增益如何削弱模型级治理；(3) 提出超越模型级的互补治理方案。

切入角度：作者从治理实践出发，观察到前沿模型预训练扩展贡献占比下降（推理扩展和后训练的重要性上升），且低资源行为者通过系统增益即可逼近前沿能力，这意味着治理的"杠杆点"正在从模型开发者向下游扩散。

核心 idea：非模型增益正在系统性削弱模型级治理的前提假设，需要建立包含系统、实体、代理和云层面的多层治理组合来应对。

方法详解¶

整体框架¶

作为一篇立场论文，本文的"方法"是一条环环相扣的论证链：先把部署后才出现的能力提升命名并归类为"非模型增益"，再逐类拆解它们各自从哪个环节击穿了模型级治理的假设，最后据此开出一套不再只盯着模型开发者的多层治理处方。三步之间是因果递进——没有清晰的分类就无法定位失效点，定位不到失效点就开不出对症的治理层。

关键设计¶

1. 非模型增益分类体系：把"部署后能力膨胀"拆成可分析的三类

模型级治理默认能力主要由训练期的算力和数据决定，于是把开发者当成安全的总闸门。但真正让能力在部署后继续膨胀的，是作者称为"非模型增益"的东西，它们模糊、难量化，得先归类才能分析。作者把当前已经发生的增益分成三种：推理增益（inference gain）靠加大推理算力换性能，典型是 reasoning 模型的思维链扩展，能让小模型逼近大模型——例如 Qwen3-4B 通过递归自聚合就摸到了 o3-mini 的水平；系统增益（systems gain）靠后训练阶段的 scaffolding、工具调用、多智能体编排堆出来，一旦"配方"被人发现就能零成本自由扩散；资产增益（asset gain）则来自接入受限资产（政府机密数据、专用硬件），一个对路的数据集就可能带来等效 \(1000\times\) 预训练算力的提升。除当前三类外，作者还前瞻性地列出具身化（embodiment）、持续学习（continual learning）和扩散效应（diffusion effects）三类未来增益。这套命名的价值在于把一个原本只能笼统抱怨的现象，变成了可以逐项追问"它会怎么破坏治理"的对象。

2. 治理失效机制分析：逐类说明它们各击穿了哪根支柱

光有分类还不够，作者要论证的是"改进模型级治理也救不回来"，所以把每类增益对准模型级治理的三根支柱（引出、缓解、滞后成本）逐一拆解。推理增益缩小了前沿与次前沿模型的差距，于是恶意行为者拿一个开放权重模型就能绕过针对前沿模型的监管；系统增益成本低、门槛低、扩散快，开发者在部署前根本预见不到下游会拼出什么样的 scaffold；资产增益最刁钻——受限资产本身是保密的，评估者连相关场景都无从测试。三者叠加，使部署前评估从"困难但可行"直接滑向"结构性不充分"，这正是作者主张范式必须转换、而非小修小补的依据。

3. 多层治理方案框架：按失效点分别派驻不同治理层

既然不同增益从不同环节漏，单一闸门必然漏风，作者就提出一套四层互补的治理组合，每层对准一类失效。系统治理（system governance）要求那些显著抬升基础模型能力的系统提供者也承担风险管理责任，正面应对系统增益；实体治理（entity governance）把视线从单个模型移到组织结构、激励机制和决策流程上；代理治理（agent governance）管的是 AI 代理的委托参数与自主交互，包括访问边界、行为约束和唯一代理 ID；云治理（cloud governance）则在推理层用 KYC、内容监控和计算模式监控做安全监察，去够推理增益所在的那一层。最后用社会韧性（societal resilience）作为所有层都漏掉时的兜底。这套组合的逻辑不是"多多益善地堆监管"，而是让每个风险向量都至少有一个对得上的节点来接。

实验关键数据¶

非模型增益与治理方案映射¶

非模型增益类型	治理失效机制	推荐治理层
推理增益	缩小前沿/次前沿差距，开放模型可绕过监管	模型级改进 + 实体治理 + 云治理
系统增益	低成本、快速扩散，开发者无法预见所有scaffold	模型级改进 + 实体/代理/系统治理
资产增益	受限资产无法评估，少数高能力行为者	部署后监控 + 国安合作
具身化增益	信息风险转化为物理安全风险	供应链对齐 + 系统治理
持续学习	安全训练可能被遗忘，模型行为漂移	部署后监控
扩散效应	单一文化风险、级联失效	实体/代理治理 + 社会韧性

推理增益的经验证据¶

案例	增益方式	效果
Qwen3-4B + 递归自聚合	推理时算力扩展	4B参数模型达到o3-mini (high)水平
DeepSeek-V3.2 vs Gemini 3	1.5-2.5倍token消耗	次前沿模型在多个benchmark超越前沿
专用数据集微调	资产增益	等效\(1000\times\)预训练算力
Big Sleep (Google DeepMind)	系统增益(scaffold+工具)	首个发现零日漏洞的LLM代理

关键发现¶

推理增益是目前最具量化前景的非模型增益类型，已有新兴的推理扩展法则（inference scaling laws）支持预测
系统增益最难防范——低资源行为者已证明可构建复杂的对抗性scaffold（如2025年中国国家支持组织构建的Claude Code scaffold）
资产增益虽影响行为者最少，但潜在危害最大，且因保密性质几乎无法提前评估
云治理面临重大商业、技术和法律障碍（隐私法规、跨提供商协调、机密计算技术成熟度）

亮点与洞察¶

非模型增益的形式化分类：将此前模糊的"部署后能力提升"概念清晰拆解为推理/系统/资产三类，并各自建立了与治理失效的因果链条，为政策制定提供了可操作的分析框架
"治理杠杆点转移"的核心洞见：随着非模型增益重要性上升，安全责任不应只压在模型开发者身上，而应沿价值链向系统集成商、部署平台和最终使用者分散——这一观点对当前过度聚焦模型开发者的监管思路有重要修正意义
推理增益作为"民主化利器"的双刃剑效应：推理扩展使小模型逼近大模型性能，一方面降低了AI能力的获取门槛，另一方面也降低了恶意使用的门槛，这对开放权重模型的安全政策有直接启示

局限与展望¶

作为立场论文缺乏实证验证，所提治理方案的可行性和有效性未经系统评估
对非模型增益之间的交互效应（如推理增益 × 系统增益的组合放大）分析不足，实际风险场景往往是多类增益叠加
云治理部分承认面临隐私法律、技术和商业可行性的重大挑战，短期内落地困难
未充分讨论治理方案之间的潜在冲突（如实体治理的准入门槛可能抑制竞争和创新）
未来可深入量化各类非模型增益的能力提升幅度，建立预测模型指导治理资源分配