Military AI Needs Technically-Informed Regulation to Safeguard AI Research and its Applications¶
会议: NeurIPS 2025
arXiv: 2505.18371
代码: 无
领域: AI 政策 / AI 安全 / 军事 AI 治理
关键词: 自主武器系统, AI-LAWS, 军事 AI 监管, 行为导向定义, 技术知情政策, AI 研究自由
一句话总结¶
本文提出 AI-LAWS(AI 驱动致命性自主武器系统)的行为导向定义与监管框架,通过两条技术准则识别需特别监管的军事 AI 系统,并提出五项具体政策建议,呼吁 AI 研究者深度参与军事 AI 治理的全生命周期。
研究背景与动机¶
领域现状:AI 增强的军事武器系统(无人机、无人舰艇、战场协调平台等)已在全球范围内经历快速开发和实战部署。俄罗斯 Lancet 巡飞弹、以色列 Lavender 目标打击系统、美国 Project Maven 情报分析平台等代表性 AI-LAWS 已投入使用,覆盖空、陆、海、指挥控制四大领域。然而,治理框架严重滞后于技术发展。
现有痛点:(1) 现有 LAWS 定义过于宽泛或依赖"完全自主"等极端阈值(如联合国定义要求系统"在无操作员进一步干预的情况下识别、选择和攻击目标"),无法覆盖已部署的半自主系统;(2) 政策制定者缺乏 AI 技术背景,现有框架(如美国 DoD Directive 3000.09)基于高层原则而非系统实际行为;(3) 三种主流监管叙事——人道主义的"有意义人类控制"(MHC)、防务领域的"适当人类判断"(AHJ)、以及 AGI 存在性风险——都缺乏可操作的技术指标。
核心矛盾:现代 AI 的民用-军用技术鸿沟极小,民用 AI 研究可被军方快速复用,但研究者往往不知情。这导致三重风险叠加:军事领域的验证不足与脆弱性、地缘政治层面的冲突升级与军备竞赛、制度层面的科研自由侵蚀。同时最有能力评估 AI 系统行为的群体——AI 研究者——在军事治理讨论中严重缺位。
本文目标:为 AI-LAWS 提供一个基于系统行为(而非标签、意图或极端假设)的可操作监管框架,并提出具体政策建议,同时论证 AI 研究者为何以及如何参与军事 AI 政策制定。
切入角度:从 AI 系统的技术特性出发(不透明性、脆弱性、分布外泛化退化、部署后漂移),将这些技术概念系统性映射到军事风险和政策需求。
核心 idea:AI-LAWS 的监管必须锚定于系统的技术行为而非政策标签,AI 研究者必须成为监管生命周期中的核心参与者。
方法详解¶
整体框架¶
本文是一篇立场论文(position paper),采用"现状分析 → 行为导向定义 → 政策建议"的三段式结构。首先通过系统梳理全球已部署和开发中的 AI-LAWS(Table 2)以及其引入的独特风险(Table 1),论证现有监管框架的不足;然后提出基于系统行为的两条监管准则,作为识别需增强监管的 AI-LAWS 的判据;最后基于此定义提出五项技术知情的政策建议。虽非传统技术论文,但分析深植于 AI 领域核心技术概念。
关键设计¶
-
AI-LAWS 的双准则行为导向定义
功能:为混乱的军事 AI 术语场提供一个可操作的系统分类标准,区分需要增强监管的 AI-LAWS 与传统自动化武器。
核心思路:同时满足两个准则的系统被识别为 AI-LAWS——准则 1(AI 技术要求)要求系统使用了对其功能不可或缺的 AI/ML 方法(如神经网络),且存在目标误识别、不可预测升级、部署后漂移、分布外泛化不足等 AI 特有风险;准则 2(致命力介入)要求至少一项依赖 AI/ML 的能力参与了半自主或全自主的打击与力量运用决策。
设计动机:现有定义要么过于宽泛(联合国定义会涵盖海上水雷和热追踪导弹),要么设置过高阈值(要求"超人类学习"等极端条件使大多数已部署系统逃脱监管)。行为导向定义避免了标签化争论,直接聚焦于系统行为带来的实际风险。
-
三维度风险分析框架
功能:系统论证 AI-LAWS 为何需要区别于传统 LAWS 的独立监管体系。
核心思路:将 AI-LAWS 的风险分解为军事风险(脆弱性——训练分布外性能急剧下降;不透明性——黑箱决策难以审计;过度信任——操作员在压力下默认接受 AI 建议)、地缘政治风险(不可预测行为引发冲突升级;军备竞赛动力学;对未知能力的过度反应导致政策制定者倾向超额投入)、制度风险(军事资金渗透学术研究;出版限制与国际合作受阻;研究者在不知情下被引向军事应用)。
设计动机:多数军事 AI 讨论仅聚焦战场性能或伦理原则中的某一维度。三维度分析揭示这些风险相互交织,例如军事部署的不可预测性会驱动政策过度反应进而侵蚀科研自由—因此碎片化的监管方案注定失败。
-
五项具体政策建议
功能:将行为导向定义转化为可落地的政策方向,覆盖从核武器极端场景到日常机构边界的完整光谱。
核心思路:(1) 禁止 AI 控制核武器部署——包括发射决策和核战略建议系统;(2) 制定 AI-LAWS 国际验证标准——建立自愿性国际联盟,协调定义行为基准和上下文迁移性能阈值,采用类似互联网协议的迭代演化模式;(3) 禁止"AI 将军"——禁止 AI 系统自主指挥人类士兵("弥诺陶洛斯战争"模型),命令权须保留在人类手中;(4) 明确民用 AI 基础设施的法律地位——在日内瓦公约框架下界定 AI 模型、数据、算力何时成为合法军事目标(以 2025 年伊以冲突中 Weizmann 研究所被轰炸为例);(5) 建立机构层面军民边界——大学和公司应公开声明军民界限政策,保护学生免于无选择权地进入涉密工作。
设计动机:每项建议针对 AI-LAWS 特有风险而非泛化的 AI 伦理原则,且在现有政策对话中都有萌芽但缺乏技术支撑和细节。五项建议共同构建了从战略层到机构层的多层次监管体系。
损失函数 / 训练策略¶
不适用(本文为政策立场论文,非技术实验论文)。其论证逻辑相当于"训练策略"——基于 AI 安全文献中的成熟技术概念(脆弱性、分布漂移、对抗鲁棒性、可解释性、过度信任)构建政策论据,以公开部署的系统实例和已记录的失败模式作为"实验数据"。
实验关键数据¶
主实验¶
本文无量化实验,但提供了两张核心对照表作为分析基础。
表 2:全球已部署/开发中 AI-LAWS 系统概览
| 领域 | 系统名称 | 开发方 | 国家 | 用途 | 状态 |
|---|---|---|---|---|---|
| 指挥控制 | Defense Llama | Scale AI | 美国 | 指挥/目标打击/报告合成 | 演示 |
| 指挥控制 | Lattice | Anduril | 美国 | 战场协调 | 已部署 |
| 指挥控制 | Project Maven | NGA/DoD | 美国 | 情报分析 | 已部署 |
| 指挥控制 | Lavender | IDF | 以色列 | 目标打击 | 已部署 |
| 指挥控制 | ChatBIT | PLA | 中国 | 指挥决策 | 演示 |
| 空域 | Lancet | ZALA Aero | 俄罗斯 | 巡飞弹(自主瞄准) | 已部署 |
| 空域 | Saker Scout | Saker | 乌克兰 | 四旋翼无人机 | 已部署 |
| 空域 | Kargu | STM | 土耳其 | 巡飞弹 | 已部署 |
| 空域 | XQ-58A Valkyrie | Kratos | 美国 | 隐身自主僚机 | 开发中 |
| 陆域 | THeMIS | Milrem | 爱沙尼亚 | 地面无人车 | 已部署 |
| 陆域 | Uran-9 | 卡拉什尼科夫 | 俄罗斯 | 炮兵无人车 | 已部署 |
| 海域 | Orca XLUUV | Boeing | 美国 | 远程潜航器 | 演示 |
| 海域 | Ghost Fleet | DARPA/Leidos | 美国 | 水面舰艇编队 | 已部署 |
消融实验¶
表 1:AI-LAWS 引入的特有风险分类
| 风险类型 | 描述 | 典型场景 |
|---|---|---|
| 未检测的实战失败 | 验证不足 + 过度信任 → 部署后失败难以发现 | 森林环境训练的目标 AI 在沙漠中误识别车辆,指挥官轻信有缺陷的 AI 规划建议 |
| 黑箱决策不透明性 | AI 打击系统的决策基础难以理解或审计 | AI 打击系统基于错误传感器选择目标,操作员因来不及理解决策过程而未能及时阻止 |
| 研究自由侵蚀 | 涉密资金流和双用途限制 → 学术开放性下降 | 大学 AI 实验室被纳入军事保密管理体系,限制发表和国际合作 |
| AI 专才军事化导流 | 民用研究者被招入军事项目,有时无明确告知或退出机制 | 科学家发现其项目被国防资金接管,研究方向从开源 AI 转向涉密应用 |
| 军备竞赛加速 | AI-LAWS 的广泛扩散降低冲突升级门槛 | 未经充分测试便部署无人机集群,因技术不确定性引发安全困境 |
关键发现¶
- AI-LAWS 已是现实而非假设:横跨四个军事领域的多个 AI-LAWS 已实战部署,且开发国涵盖主要军事大国和中小国家
- 现有监管框架三重失败:MHC 缺乏"有意义控制"的可测量标准;AHJ 未定义"充分判断"的度量指标;AGI 风险叙事忽略已部署系统
- 过度信任效应在军事场景下被放大:指挥建议系统在形式上保持"人在回路中",但操作员在时间压力或权限不明时倾向于服从 AI 建议
- 民用 AI 研究正被快速军事化:美国 DIU 提议在大学嵌入军事 AI 研究中心,中国实施军民融合战略——界限模糊化侵蚀学术自由和国际合作
- 2025 年伊以冲突中 Weizmann 研究所被轰炸暗示民用 AI 研究机构可能因 AI 军事化而成为攻击目标
亮点与洞察¶
- 技术概念到政策语言的系统映射:将分布外泛化、对抗脆弱性、模型漂移、过度信任等 AI 领域成熟概念精准对应到军事风险,避免了政策论文常见的泛化空谈
- 行为导向定义的务实性:双准则设计绕过了"完全自主"的定义陷阱,能覆盖如 Lancet、Lavender 等半自主系统——这些才是真正需要监管的对象
- 国际联盟的迭代演化设计:借鉴互联网协议和金融风险审计的治理模式,提出自愿性联盟而非条约法,平衡了主权关切与共同责任
- 对 AI 研究者社区的独特呼吁:特别警告不要夸大基准测试结果,因为军方和智库密切关注 AI 技术论文,过度宣传可能导致不成熟技术的仓促军事化
- "弥诺陶洛斯战争"概念的剖析:分析了 LLM 充当战场指挥官的提案,指出幻觉、漂移、对抗脆弱性加上人类过度信任在指挥场景下的特殊危险性
局限与展望¶
- 五项政策建议的可行性分析薄弱:如自愿性国际联盟如何应对不参与或主动违反的国家(中俄等主要 AI-LAWS 开发国的政策环境未深入分析)
- 双准则定义在操作化层面存在模糊地带:如何客观判断 AI 对系统功能是否"不可或缺"?"半自主"与"全自主"的边界如何量化?
- 缺少验证标准的具体技术方案:仅论证了需要国际验证标准,但未给出行为基准或性能阈值的具体设计框架
- 对商业利益驱动的监管规避讨论不足:国防科技公司(如 Anduril、Palantir)的商业激励如何影响监管合规
- 论文引用的系统信息截至 2025 年中,AI 军事化速度极快,部分分析可能已需更新
相关工作与启发¶
- Scharre (2023) 的 LAWS 综合讨论和 Bode & Huelss (2023) 的联合国层面分析为本文提供了政策对话基础,本文在此基础上增加了 AI 技术视角
- 美国 DoD Directive 3000.09 和英国 2024 年指南分别代表 AHJ(适当人类判断)和更强监管两条路径,本文指出两者都缺乏 AI 特异性指标
- Rivera et al. (2024) 关于 AI 引发冲突升级的模拟工作、Lamparth et al. (2024) 关于 LLM 在军事场景中不可预测行为的研究,为本文的风险论证提供了实证支撑
- 对 AI 安全研究者的启示:模型鲁棒性、可解释性、分布外检测、对抗鲁棒性等基础研究对军事 AI 治理有直接且重大的政策影响——这些技术工作的价值远超学术论文本身
- 学术机构应主动建立军民研究边界规范并公开声明,而非被动等待政府监管或在模糊中丧失学术自由
评分¶
- 新颖性: ⭐⭐⭐⭐ 理由:行为导向的双准则定义和将 AI 技术概念系统映射到政策语言的方法具有原创性,五项政策建议在现有讨论中有所萌芽但本文给出了最系统的技术论证
- 实验充分度: ⭐⭐⭐ 理由:作为政策立场论文无量化实验,但系统梳理了全球 AI-LAWS 部署现状和风险案例,论据覆盖面广
- 写作质量: ⭐⭐⭐⭐⭐ 理由:论证逻辑严密,技术与政策语言衔接流畅,结构清晰且由浅入深,表格设计有效支撑分析
- 价值: ⭐⭐⭐⭐⭐ 理由:对 AI 军事治理具有重要现实意义,明确呼吁研究者社区参与而非回避,核武器红线和 AI 将军禁令等建议具有紧迫性
title: >- [论文解读] Military AI Needs Technically-Informed Regulation to Safeguard AI Research and its Applications description: >- [NeurIPS 2025][自主武器系统] 本文针对 AI 驱动的致命性自主武器系统 (AI-LAWS) 提出了基于系统行为(而非标签或意图)的监管标准,论证了 AI 研究者必须参与军事 AI 监管的全生命周期,并提出了五项具体的政策建议。 tags: - NeurIPS 2025 - 自主武器系统 - AI-LAWS - 军事 AI 监管 - 技术知情政策 - AI 研究自由
Military AI Needs Technically-Informed Regulation to Safeguard AI Research and its Applications¶
会议: NeurIPS 2025
arXiv: 2505.18371
代码: 无
领域: AI 政策 / AI 安全 / 军事 AI 治理
关键词: 自主武器系统, AI-LAWS, 军事 AI 监管, 技术知情政策, AI 研究自由
一句话总结¶
本文针对 AI 驱动的致命性自主武器系统 (AI-LAWS) 提出了基于系统行为(而非标签或意图)的监管标准,论证了 AI 研究者必须参与军事 AI 监管的全生命周期,并提出了五项具体的政策建议。
研究背景与动机¶
AI 增强的军事武器系统在近年来经历了快速发展和部署,包括无人机、无人舰艇和战场协调平台等。然而,现有的治理框架存在严重滞后:
定义模糊:现有的 LAWS(致命性自主武器系统)定义过于宽泛或依赖"完全自主"等极端阈值,无法覆盖已部署的实际系统
技术脱节:政策制定者缺乏 AI 技术背景,现有框架基于高层原则(如"人类在回路中")而非系统实际行为
AI 研究者缺席:最有能力评估系统行为的群体——AI 研究者——在军事治理讨论中严重缺位
民用→军用管线模糊:民用 AI 研究被军方直接复用的速度极快,但研究者往往不知情
作者指出,AI-LAWS 引入了三类独特风险:军事领域的验证不足和脆弱性、国际关系领域的升级和军备竞赛、以及制度领域的研究自由侵蚀。
方法详解¶
整体框架¶
本文是一篇政策立场论文(position paper),结构为:现状分析 → 行为导向的监管标准定义 → 具体政策建议。不涉及传统意义上的技术方法,但其分析植根于对 AI 系统技术特性的深入理解。
关键设计¶
-
AI-LAWS 的行为导向定义:提出两个准则 (criteria) 来识别需要加强监管的系统:
- 准则 1(AI 技术要求):系统使用了对其功能不可或缺的 AI/ML 方法(如神经网络),且存在目标误识别、不可预测升级、部署后漂移、在陌生环境中泛化不足等 AI 特有风险
- 准则 2(致命力介入):至少一项需要 AI/ML 的能力参与了半自主或全自主的打击和力量运用决策
同时满足两个准则的系统被识别为 AI-LAWS,需要特殊的监管机制。
-
AI-LAWS 的三类风险分析:
- 军事风险:脆弱性(训练分布外性能急剧下降)、不透明性(黑箱决策难以审计)、过度信任(操作员默认接受 AI 建议)
- 地缘政治风险:不可预测行为可能触发冲突升级、军备竞赛动力学、对未知能力的过度反应
- 制度风险:军事资金渗透学术研究、出版限制、国际合作受阻、研究者被无声地导向军事应用
-
五项政策建议:
- 禁止 AI 控制核武器部署:包括发射决策和核战略建议系统
- 制定 AI-LAWS 国际验证标准:建立自愿性国际联盟,协调制定行为基准和上下文迁移性能阈值
- 禁止"AI 将军":禁止 AI 系统自主指挥人类士兵,命令权必须保留在人类手中
- 明确民用 AI 基础设施的法律地位:在国际人道法下界定 AI 模型、数据、算力何时成为合法军事目标
- 建立机构层面的军民界限:大学和公司应公开声明其军民边界政策,保护学生免于无选择权地进入涉密工作
损失函数 / 训练策略¶
不适用(非技术实验论文)。本文的"训练"体现在其论证逻辑上——基于现有 AI 安全文献中的技术概念(脆弱性、分布漂移、对抗鲁棒性、可解释性)来构建政策论据。
实验关键数据¶
已部署/开发中的 AI-LAWS 系统概览¶
| 领域 | 系统名称 | 开发方 | 国家 | 用途 | 状态 |
|---|---|---|---|---|---|
| 指挥控制 | Defense Llama | Scale AI | 美国 | 指挥决策 | 演示 |
| 指挥控制 | Lattice | Anduril | 美国 | 战场协调 | 已部署 |
| 指挥控制 | Project Maven | NGA/DoD | 美国 | 情报分析 | 已部署 |
| 指挥控制 | Lavender | IDF | 以色列 | 目标打击 | 已部署 |
| 空域 | Lancet | ZALA Aero | 俄罗斯 | 巡飞弹 | 已部署 |
| 空域 | Saker Scout | Saker | 乌克兰 | 四旋翼无人机 | 已部署 |
| 空域 | Kargu | STM | 土耳其 | 巡飞弹 | 已部署 |
| 陆域 | THeMIS | Milrem | 爱沙尼亚 | 地面无人车 | 已部署 |
| 海域 | Orca XLUUV | Boeing | 美国 | 远程潜航器 | 演示 |
AI-LAWS 的关键风险分类¶
| 风险类型 | 描述 | 典型场景 |
|---|---|---|
| 未检测的实战失败 | 验证不足+过度信任→部署失败难以发现 | 森林训练的 AI 在沙漠中误识别车辆 |
| 黑箱决策不透明性 | AI 打击系统难以理解/审计 | AI 基于错误传感器选择打击目标,操作员来不及干预 |
| 研究自由侵蚀 | 涉密资金和双用途限制→开放性下降 | 大学 AI 实验室被纳入军事保密管理 |
| AI 专才军事化 | 民用研究者被引入军事项目,有时无明确告知 | 科学家项目被军方资金接管 |
| 军备竞赛加速 | AI-LAWS 降低冲突升级门槛 | 未充分测试便部署无人机集群 |
关键发现¶
- AI-LAWS 已是现实:横跨空、陆、海、指挥四个领域的多个 AI-LAWS 已实战部署(如俄罗斯 Lancet、以色列 Lavender)
- 现有监管框架三重失败:人道主义立场(MHC)缺乏可操作指标、军方立场(AHJ)缺乏技术度量、AGI 风险叙事忽略已部署系统
- 行为导向定义更具可操作性:比"完全自主"等极端阈值更能覆盖真正需要监管的系统
- AI 研究者的独特角色:只有 AI 专家能定义性能基准、识别失败模式、压力测试部署系统
亮点与洞察¶
- 技术视角切入政策问题:不同于一般政策论文的高层讨论,本文将 AI 领域特有的技术概念(分布外泛化、对抗脆弱性、模型漂移)系统性地映射到军事风险
- 提出的行为导向定义避免了"完全自主"的定义陷阱,能覆盖实际已部署的半自主系统
- 五项政策建议具体可操作:从核武器红线到机构层面的军民边界,覆盖了从最极端到最日常的场景
- 特别关注了 AI-LAWS 对科研自由和开放性的威胁——这一角度在军事 AI 讨论中经常被忽视
- 呼吁 AI 研究者不要夸大基准测试结果,因为军方和智库密切关注 AI 技术论文,过度宣传可能导致不成熟技术的仓促采用
局限与展望¶
- 作为立场论文,政策建议的可行性分析相对薄弱(如国际联盟如何应对不合作的国家)
- 对中国、俄罗斯等主要 AI-LAWS 开发国的政策环境分析不够深入
- "行为导向定义"的两个准则在实际操作中可能面临界定困难(如何判断 AI 对系统功能是否"不可或缺")
- 缺少对具体验证标准和性能基准的技术方案(仅提出需要但未给出具体框架)
- 对商业利益驱动下的监管规避策略讨论不足
相关工作与启发¶
- 与 Scharre (2023) 的 LAWS 讨论、Bode & Huelss (2023) 的联合国层面分析形成互补
- 美国 DoD Directive 3000.09 和英国 2024 指南分别代表了 AHJ 和更强监管两种路径
- 对 AI 安全研究者的启发:模型鲁棒性、可解释性和分布外检测等基础研究对军事 AI 治理有直接且重大的政策影响
- 学术界应主动建立军民研究边界规范,而非被动等待政府监管
评分¶
- 新颖性: ⭐⭐⭐⭐ (行为导向定义和 AI 研究者参与视角有新意)
- 实验充分度: ⭐⭐⭐ (政策论文无量化实验,但案例分析全面)
- 写作质量: ⭐⭐⭐⭐⭐ (论证逻辑严密,结构清晰,技术与政策结合紧密)
- 价值: ⭐⭐⭐⭐⭐ (对 AI 军事治理具有重要现实意义,呼唤研究者社区关注)