Emergency Response Measures for Catastrophic AI Risk¶

会议: NeurIPS 2025
arXiv: 2511.05526
代码: 无
领域: 其他
关键词: 灾难性AI风险, 应急响应, 前沿安全政策, AI治理, 危险能力评估

一句话总结¶

本文系统分析了前沿安全政策（FSPs）如何嵌入中国四阶段应急响应框架（预防-预警-响应-恢复）的前两个阶段，通过危险能力评估、分级阈值和预设安全措施来应对AI灾难性风险，并与欧盟AI法案、加州SB53等国际实践进行了对比。

研究背景与动机¶

领域现状：中国高层领导层近年来反复强调AI应急准备的重要性。2025年4月政治局学习会议、国务院安全白皮书、TC260发布的《生成式AI服务安全应急响应指南》等都表明，中国正在将AI安全应急纳入国家应急管理体系。国际上，欧盟AI法案、加州SB53、纽约RAISE法案等也在建立类似框架。

现有痛点：虽然四阶段应急响应框架（预防与准备、监测与预警、响应与救援、恢复与重建）的总体结构已经建立，但前两个阶段（预防和预警）的具体技术实现方案仍待完善。现有法规（如《暂行办法》、GB/T 45654-2025）主要针对内容安全和一般服务安全，尚未系统覆盖灾难性风险（如大规模杀伤性武器、AI失控）。

核心矛盾：AI灾难性风险具有前所未有的新颖性和不确定性，但中国已有成熟的应急管理体系架构。如何将国际上正在形成的前沿AI安全实践（如FSPs）与中国的制度优势相结合？

本文目标 分析FSPs模型如何为中国AI应急响应框架的前两个主动阶段（预防和预警）提供具体的技术实现路径。

切入角度：作者注意到FSPs的核心要素（危险能力评估、分级阈值、预设安全措施）与中国应急响应框架的预防和预警阶段高度吻合，且全球主要AI公司和政府正在趋同于类似的安全机制。

核心 idea：前沿安全政策的"评估-阈值-预案"模式是实现中国AI应急响应框架前两阶段的最佳候选方案。

方法详解¶

整体框架¶

本文是一篇政策分析论文，不涉及算法设计。其分析框架为：（1）梳理中国现有AI监管法规和行业自律框架；（2）系统对比国际实践，包括欧盟Code of Practice、加州SB53、纽约RAISE法案以及AI首尔峰会承诺等；（3）提出将FSPs整合到中国现有监管流程中的具体方案。

关键设计¶

前沿安全政策（FSPs）的核心结构:
- 功能：为AI开发者提供系统化的灾难性风险管理机制
- 核心思路：FSPs包含三个核心要素——（a）危险能力阈值分类：定义具体的AI能力水平层级，如CBRN武器工程能力、自主AI研发能力等；（b）预部署评估：在模型发布前测试其危险能力；（c）分级安全措施：当评估结果达到或超过阈值时，自动触发预设的安全措施（如增强安全过滤、限制API访问，直至暂停部署）
- 设计动机：将被动的事后响应转变为主动的事前预防。FSP要求开发者提前定义"如果模型达到X能力就采取Y措施"，避免了危机时才仓促制定方案的混乱
与四阶段应急框架的映射:
- 功能：论证FSPs如何自然嵌入中国应急管理体系
- 核心思路：预防阶段→FSPs要求提前定义阈值和预案；预警阶段→持续能力评估提供实时风险指标（类似地震监测）；响应阶段→阈值触发预设措施自动执行；恢复阶段→评估数据支持事后分析和策略迭代
- 设计动机：利用中国已有的制度化应急管理架构，降低FSPs落地的制度成本
注册制扩展方案:
- 功能：将FSPs嵌入现有生成式AI服务提供商的注册审批流程
- 核心思路：在GB/T 45654-2025的合规文档要求中增加FSP维护义务；在31项安全评估清单中增加灾难性风险能力评估（如WMDP-Bio、LAB-Bench等基准）。开发者在注册时需提交FSP，说明当前模型未达到的危险能力阈值及相应预案
- 设计动机：复用现有的"先审后用"监管基础设施，最小化额外合规成本

损失函数 / 训练策略¶

本文为政策分析类论文，不涉及模型训练。

实验关键数据¶

主实验¶

本文不含实验，但提供了系统的政策对比分析：

监管框架	涵盖CBRN风险	涵盖失控风险	强制性	事件报告时限
中国TC260框架	✓	✓	标准（非法律）	未明确
欧盟Code of Practice	✓	✓	自律守则	2天（严重）/5天（网安）
加州SB53	✓	✓	法律	24小时
纽约RAISE法案	✓	✓	法律（待签）	72小时
Anthropic RSP	✓	✓	自律	通知政府

消融实验¶

应急响应阶段	当前中国实现状态	建议增强措施
预防与准备	基础法规框架已建立	强制FSPs + 信息共享 + 标准化基准
监测与预警	TC260指南草案	持续能力评估 + 异常查询监控
响应与救援	基本框架	模型访问暂停 + 算力限制 + 外部专家
恢复与改进	未明确	无过失调查 + 策略更新 + 桌面演练

关键发现¶

全球主要AI监管框架在灾难性风险类型识别上高度趋同：CBRN武器、网络攻击、失控事件是共同关注点
中国AI生态中已有显著的自律实践基础：17家中国AI公司已签署安全承诺，上海AI实验室发布了详细的前沿风险管理框架
FSPs的"评估-阈值-预案"机制与中国"分级管理"原则天然吻合
现有GB/T 45654-2025标准的早期草案版本曾明确提及AI自我复制、编写恶意软件等灾难性风险，说明TC260已有前期思考基础

亮点与洞察¶

精准对齐分析：将FSPs的技术要素逐一映射到中国应急响应框架的四个阶段，这种制度分析方法具有很强的说服力和实操性。关键洞察是：技术安全措施不需要从零设计，可以嵌入已有的制度通道
全球趋同视角：系统梳理了中国、欧盟、美国在AI灾难性风险治理上的趋同趋势，为"中国版FSPs"的必要性和可行性提供了国际参照。避免了闭门造车的风险
注册制扩展方案设计精巧：复用现有的"先审后用"流程，仅需在文档要求和评估清单中做增量扩展，极大降低了政策落地阻力

局限与展望¶

FSPs主要覆盖可预见的风险，对于最新颖和不可预见的威胁效果有限——而灾难性AI风险的本质恰恰是其不可预测性
FSPs的有效性严重依赖评估质量、阈值合理性和企业合规意愿。自我审计可能导致不透明或漏报
本文聚焦于预防和预警阶段，对响应和恢复阶段的讨论相对简略
缺乏具体的量化框架来评估FSPs落地后的实际效果

评分¶

新颖性: ⭐⭐⭐ 政策建议本身不算全新，但将FSPs与中国制度框架精准对齐的分析角度有价值
实验充分度: ⭐⭐⭐ 作为政策分析论文无实验，但制度对比分析较为系统
写作质量: ⭐⭐⭐⭐ 结构清晰，论证逻辑严密，政策引用准确详实
价值: ⭐⭐⭐⭐ 为AI灾难性风险的治理实践提供了可操作的制度融合方案