跳转至

Emergency Response Measures for Catastrophic AI Risk

会议: NeurIPS 2025
arXiv: 2511.05526
代码: 无
领域: 其他
关键词: 灾难性AI风险, 应急响应, 前沿安全政策, AI治理, 危险能力评估

一句话总结

本文系统分析了前沿安全政策(FSPs)如何嵌入中国四阶段应急响应框架(预防-预警-响应-恢复)的前两个阶段,通过危险能力评估、分级阈值和预设安全措施来应对AI灾难性风险,并与欧盟AI法案、加州SB53等国际实践进行了对比。

研究背景与动机

领域现状:中国高层领导层近年来反复强调AI应急准备的重要性。2025年4月政治局学习会议、国务院安全白皮书、TC260发布的《生成式AI服务安全应急响应指南》等都表明,中国正在将AI安全应急纳入国家应急管理体系。国际上,欧盟AI法案、加州SB53、纽约RAISE法案等也在建立类似框架。

现有痛点:虽然四阶段应急响应框架(预防与准备、监测与预警、响应与救援、恢复与重建)的总体结构已经建立,但前两个阶段(预防和预警)的具体技术实现方案仍待完善。现有法规(如《暂行办法》、GB/T 45654-2025)主要针对内容安全和一般服务安全,尚未系统覆盖灾难性风险(如大规模杀伤性武器、AI失控)。

核心矛盾:AI灾难性风险具有前所未有的新颖性和不确定性,但中国已有成熟的应急管理体系架构。如何将国际上正在形成的前沿AI安全实践(如FSPs)与中国的制度优势相结合?

本文目标 分析FSPs模型如何为中国AI应急响应框架的前两个主动阶段(预防和预警)提供具体的技术实现路径。

切入角度:作者注意到FSPs的核心要素(危险能力评估、分级阈值、预设安全措施)与中国应急响应框架的预防和预警阶段高度吻合,且全球主要AI公司和政府正在趋同于类似的安全机制。

核心 idea:前沿安全政策的"评估-阈值-预案"模式是实现中国AI应急响应框架前两阶段的最佳候选方案。

方法详解

整体框架

本文是一篇政策分析论文,不涉及算法设计。其分析框架为:(1)梳理中国现有AI监管法规和行业自律框架;(2)系统对比国际实践,包括欧盟Code of Practice、加州SB53、纽约RAISE法案以及AI首尔峰会承诺等;(3)提出将FSPs整合到中国现有监管流程中的具体方案。

关键设计

  1. 前沿安全政策(FSPs)的核心结构:

    • 功能:为AI开发者提供系统化的灾难性风险管理机制
    • 核心思路:FSPs包含三个核心要素——(a)危险能力阈值分类:定义具体的AI能力水平层级,如CBRN武器工程能力、自主AI研发能力等;(b)预部署评估:在模型发布前测试其危险能力;(c)分级安全措施:当评估结果达到或超过阈值时,自动触发预设的安全措施(如增强安全过滤、限制API访问,直至暂停部署)
    • 设计动机:将被动的事后响应转变为主动的事前预防。FSP要求开发者提前定义"如果模型达到X能力就采取Y措施",避免了危机时才仓促制定方案的混乱
  2. 与四阶段应急框架的映射:

    • 功能:论证FSPs如何自然嵌入中国应急管理体系
    • 核心思路:预防阶段→FSPs要求提前定义阈值和预案;预警阶段→持续能力评估提供实时风险指标(类似地震监测);响应阶段→阈值触发预设措施自动执行;恢复阶段→评估数据支持事后分析和策略迭代
    • 设计动机:利用中国已有的制度化应急管理架构,降低FSPs落地的制度成本
  3. 注册制扩展方案:

    • 功能:将FSPs嵌入现有生成式AI服务提供商的注册审批流程
    • 核心思路:在GB/T 45654-2025的合规文档要求中增加FSP维护义务;在31项安全评估清单中增加灾难性风险能力评估(如WMDP-Bio、LAB-Bench等基准)。开发者在注册时需提交FSP,说明当前模型未达到的危险能力阈值及相应预案
    • 设计动机:复用现有的"先审后用"监管基础设施,最小化额外合规成本

损失函数 / 训练策略

本文为政策分析类论文,不涉及模型训练。

实验关键数据

主实验

本文不含实验,但提供了系统的政策对比分析:

监管框架 涵盖CBRN风险 涵盖失控风险 强制性 事件报告时限
中国TC260框架 标准(非法律) 未明确
欧盟Code of Practice 自律守则 2天(严重)/5天(网安)
加州SB53 法律 24小时
纽约RAISE法案 法律(待签) 72小时
Anthropic RSP 自律 通知政府

消融实验

应急响应阶段 当前中国实现状态 建议增强措施
预防与准备 基础法规框架已建立 强制FSPs + 信息共享 + 标准化基准
监测与预警 TC260指南草案 持续能力评估 + 异常查询监控
响应与救援 基本框架 模型访问暂停 + 算力限制 + 外部专家
恢复与改进 未明确 无过失调查 + 策略更新 + 桌面演练

关键发现

  • 全球主要AI监管框架在灾难性风险类型识别上高度趋同:CBRN武器、网络攻击、失控事件是共同关注点
  • 中国AI生态中已有显著的自律实践基础:17家中国AI公司已签署安全承诺,上海AI实验室发布了详细的前沿风险管理框架
  • FSPs的"评估-阈值-预案"机制与中国"分级管理"原则天然吻合
  • 现有GB/T 45654-2025标准的早期草案版本曾明确提及AI自我复制、编写恶意软件等灾难性风险,说明TC260已有前期思考基础

亮点与洞察

  • 精准对齐分析:将FSPs的技术要素逐一映射到中国应急响应框架的四个阶段,这种制度分析方法具有很强的说服力和实操性。关键洞察是:技术安全措施不需要从零设计,可以嵌入已有的制度通道
  • 全球趋同视角:系统梳理了中国、欧盟、美国在AI灾难性风险治理上的趋同趋势,为"中国版FSPs"的必要性和可行性提供了国际参照。避免了闭门造车的风险
  • 注册制扩展方案设计精巧:复用现有的"先审后用"流程,仅需在文档要求和评估清单中做增量扩展,极大降低了政策落地阻力

局限与展望

  • FSPs主要覆盖可预见的风险,对于最新颖和不可预见的威胁效果有限——而灾难性AI风险的本质恰恰是其不可预测性
  • FSPs的有效性严重依赖评估质量、阈值合理性和企业合规意愿。自我审计可能导致不透明或漏报
  • 本文聚焦于预防和预警阶段,对响应和恢复阶段的讨论相对简略
  • 缺乏具体的量化框架来评估FSPs落地后的实际效果

相关工作与启发

  • vs Anthropic RSP: Anthropic 的负责任扩展政策是业界最具影响力的FSPs实例,首先提出了ASL分级安全框架。本文将其作为核心参照,分析如何在中国语境下实现类似机制
  • vs 上海AI实验室前沿风险管理框架: 这是中国本土最接近FSPs的自律框架,包含黄线/红线阈值体系。本文将其视为中国AI企业采纳FSPs的先行案例
  • vs 欧盟Code of Practice: 两者在风险分类和报告机制设计上高度相似,但欧盟更强调跨境合规,中国更强调与已有应急管理体系的融合

评分

  • 新颖性: ⭐⭐⭐ 政策建议本身不算全新,但将FSPs与中国制度框架精准对齐的分析角度有价值
  • 实验充分度: ⭐⭐⭐ 作为政策分析论文无实验,但制度对比分析较为系统
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,论证逻辑严密,政策引用准确详实
  • 价值: ⭐⭐⭐⭐ 为AI灾难性风险的治理实践提供了可操作的制度融合方案