Emergency Response Measures for Catastrophic AI Risk¶
会议: NeurIPS 2025
arXiv: 2511.05526
代码: 无
领域: 其他
关键词: 灾难性AI风险, 应急响应, 前沿安全政策, AI治理, 危险能力评估
一句话总结¶
本文系统分析了前沿安全政策(FSPs)如何嵌入中国四阶段应急响应框架(预防-预警-响应-恢复)的前两个阶段,通过危险能力评估、分级阈值和预设安全措施来应对AI灾难性风险,并与欧盟AI法案、加州SB53等国际实践进行了对比。
研究背景与动机¶
领域现状:中国高层领导层近年来反复强调AI应急准备的重要性。2025年4月政治局学习会议、国务院安全白皮书、TC260发布的《生成式AI服务安全应急响应指南》等都表明,中国正在将AI安全应急纳入国家应急管理体系。国际上,欧盟AI法案、加州SB53、纽约RAISE法案等也在建立类似框架。
现有痛点:虽然四阶段应急响应框架(预防与准备、监测与预警、响应与救援、恢复与重建)的总体结构已经建立,但前两个阶段(预防和预警)的具体技术实现方案仍待完善。现有法规(如《暂行办法》、GB/T 45654-2025)主要针对内容安全和一般服务安全,尚未系统覆盖灾难性风险(如大规模杀伤性武器、AI失控)。
核心矛盾:AI灾难性风险具有前所未有的新颖性和不确定性,但中国已有成熟的应急管理体系架构。如何将国际上正在形成的前沿AI安全实践(如FSPs)与中国的制度优势相结合?
本文目标 分析FSPs模型如何为中国AI应急响应框架的前两个主动阶段(预防和预警)提供具体的技术实现路径。
切入角度:作者注意到FSPs的核心要素(危险能力评估、分级阈值、预设安全措施)与中国应急响应框架的预防和预警阶段高度吻合,且全球主要AI公司和政府正在趋同于类似的安全机制。
核心 idea:前沿安全政策的"评估-阈值-预案"模式是实现中国AI应急响应框架前两阶段的最佳候选方案。
方法详解¶
整体框架¶
本文是一篇政策分析论文,不涉及算法设计。其分析框架为:(1)梳理中国现有AI监管法规和行业自律框架;(2)系统对比国际实践,包括欧盟Code of Practice、加州SB53、纽约RAISE法案以及AI首尔峰会承诺等;(3)提出将FSPs整合到中国现有监管流程中的具体方案。
关键设计¶
-
前沿安全政策(FSPs)的核心结构:
- 功能:为AI开发者提供系统化的灾难性风险管理机制
- 核心思路:FSPs包含三个核心要素——(a)危险能力阈值分类:定义具体的AI能力水平层级,如CBRN武器工程能力、自主AI研发能力等;(b)预部署评估:在模型发布前测试其危险能力;(c)分级安全措施:当评估结果达到或超过阈值时,自动触发预设的安全措施(如增强安全过滤、限制API访问,直至暂停部署)
- 设计动机:将被动的事后响应转变为主动的事前预防。FSP要求开发者提前定义"如果模型达到X能力就采取Y措施",避免了危机时才仓促制定方案的混乱
-
与四阶段应急框架的映射:
- 功能:论证FSPs如何自然嵌入中国应急管理体系
- 核心思路:预防阶段→FSPs要求提前定义阈值和预案;预警阶段→持续能力评估提供实时风险指标(类似地震监测);响应阶段→阈值触发预设措施自动执行;恢复阶段→评估数据支持事后分析和策略迭代
- 设计动机:利用中国已有的制度化应急管理架构,降低FSPs落地的制度成本
-
注册制扩展方案:
- 功能:将FSPs嵌入现有生成式AI服务提供商的注册审批流程
- 核心思路:在GB/T 45654-2025的合规文档要求中增加FSP维护义务;在31项安全评估清单中增加灾难性风险能力评估(如WMDP-Bio、LAB-Bench等基准)。开发者在注册时需提交FSP,说明当前模型未达到的危险能力阈值及相应预案
- 设计动机:复用现有的"先审后用"监管基础设施,最小化额外合规成本
损失函数 / 训练策略¶
本文为政策分析类论文,不涉及模型训练。
实验关键数据¶
主实验¶
本文不含实验,但提供了系统的政策对比分析:
| 监管框架 | 涵盖CBRN风险 | 涵盖失控风险 | 强制性 | 事件报告时限 |
|---|---|---|---|---|
| 中国TC260框架 | ✓ | ✓ | 标准(非法律) | 未明确 |
| 欧盟Code of Practice | ✓ | ✓ | 自律守则 | 2天(严重)/5天(网安) |
| 加州SB53 | ✓ | ✓ | 法律 | 24小时 |
| 纽约RAISE法案 | ✓ | ✓ | 法律(待签) | 72小时 |
| Anthropic RSP | ✓ | ✓ | 自律 | 通知政府 |
消融实验¶
| 应急响应阶段 | 当前中国实现状态 | 建议增强措施 |
|---|---|---|
| 预防与准备 | 基础法规框架已建立 | 强制FSPs + 信息共享 + 标准化基准 |
| 监测与预警 | TC260指南草案 | 持续能力评估 + 异常查询监控 |
| 响应与救援 | 基本框架 | 模型访问暂停 + 算力限制 + 外部专家 |
| 恢复与改进 | 未明确 | 无过失调查 + 策略更新 + 桌面演练 |
关键发现¶
- 全球主要AI监管框架在灾难性风险类型识别上高度趋同:CBRN武器、网络攻击、失控事件是共同关注点
- 中国AI生态中已有显著的自律实践基础:17家中国AI公司已签署安全承诺,上海AI实验室发布了详细的前沿风险管理框架
- FSPs的"评估-阈值-预案"机制与中国"分级管理"原则天然吻合
- 现有GB/T 45654-2025标准的早期草案版本曾明确提及AI自我复制、编写恶意软件等灾难性风险,说明TC260已有前期思考基础
亮点与洞察¶
- 精准对齐分析:将FSPs的技术要素逐一映射到中国应急响应框架的四个阶段,这种制度分析方法具有很强的说服力和实操性。关键洞察是:技术安全措施不需要从零设计,可以嵌入已有的制度通道
- 全球趋同视角:系统梳理了中国、欧盟、美国在AI灾难性风险治理上的趋同趋势,为"中国版FSPs"的必要性和可行性提供了国际参照。避免了闭门造车的风险
- 注册制扩展方案设计精巧:复用现有的"先审后用"流程,仅需在文档要求和评估清单中做增量扩展,极大降低了政策落地阻力
局限与展望¶
- FSPs主要覆盖可预见的风险,对于最新颖和不可预见的威胁效果有限——而灾难性AI风险的本质恰恰是其不可预测性
- FSPs的有效性严重依赖评估质量、阈值合理性和企业合规意愿。自我审计可能导致不透明或漏报
- 本文聚焦于预防和预警阶段,对响应和恢复阶段的讨论相对简略
- 缺乏具体的量化框架来评估FSPs落地后的实际效果
相关工作与启发¶
- vs Anthropic RSP: Anthropic 的负责任扩展政策是业界最具影响力的FSPs实例,首先提出了ASL分级安全框架。本文将其作为核心参照,分析如何在中国语境下实现类似机制
- vs 上海AI实验室前沿风险管理框架: 这是中国本土最接近FSPs的自律框架,包含黄线/红线阈值体系。本文将其视为中国AI企业采纳FSPs的先行案例
- vs 欧盟Code of Practice: 两者在风险分类和报告机制设计上高度相似,但欧盟更强调跨境合规,中国更强调与已有应急管理体系的融合
评分¶
- 新颖性: ⭐⭐⭐ 政策建议本身不算全新,但将FSPs与中国制度框架精准对齐的分析角度有价值
- 实验充分度: ⭐⭐⭐ 作为政策分析论文无实验,但制度对比分析较为系统
- 写作质量: ⭐⭐⭐⭐ 结构清晰,论证逻辑严密,政策引用准确详实
- 价值: ⭐⭐⭐⭐ 为AI灾难性风险的治理实践提供了可操作的制度融合方案