Military AI Needs Technically-Informed Regulation to Safeguard AI Research and its Applications¶
会议: NeurIPS 2025
arXiv: 2505.18371
代码: 无
领域: AI 政策 / AI 安全 / 军事 AI 治理
关键词: 自主武器系统, AI-LAWS, 军事 AI 监管, 行为导向定义, 技术知情政策, AI 研究自由
一句话总结¶
本文提出 AI-LAWS(AI 驱动致命性自主武器系统)的行为导向定义与监管框架,通过两条技术准则识别需特别监管的军事 AI 系统,并提出五项具体政策建议,呼吁 AI 研究者深度参与军事 AI 治理的全生命周期。
研究背景与动机¶
领域现状:AI 增强的军事武器系统(无人机、无人舰艇、战场协调平台等)已在全球范围内经历快速开发和实战部署。俄罗斯 Lancet 巡飞弹、以色列 Lavender 目标打击系统、美国 Project Maven 情报分析平台等代表性 AI-LAWS 已投入使用,覆盖空、陆、海、指挥控制四大领域。然而,治理框架严重滞后于技术发展。
现有痛点:(1) 现有 LAWS 定义过于宽泛或依赖"完全自主"等极端阈值(如联合国定义要求系统"在无操作员进一步干预的情况下识别、选择和攻击目标"),无法覆盖已部署的半自主系统;(2) 政策制定者缺乏 AI 技术背景,现有框架(如美国 DoD Directive 3000.09)基于高层原则而非系统实际行为;(3) 三种主流监管叙事——人道主义的"有意义人类控制"(MHC)、防务领域的"适当人类判断"(AHJ)、以及 AGI 存在性风险——都缺乏可操作的技术指标。
核心矛盾:现代 AI 的民用-军用技术鸿沟极小,民用 AI 研究可被军方快速复用,但研究者往往不知情。这导致三重风险叠加:军事领域的验证不足与脆弱性、地缘政治层面的冲突升级与军备竞赛、制度层面的科研自由侵蚀。同时最有能力评估 AI 系统行为的群体——AI 研究者——在军事治理讨论中严重缺位。
本文目标:为 AI-LAWS 提供一个基于系统行为(而非标签、意图或极端假设)的可操作监管框架,并提出具体政策建议,同时论证 AI 研究者为何以及如何参与军事 AI 政策制定。
切入角度:从 AI 系统的技术特性出发(不透明性、脆弱性、分布外泛化退化、部署后漂移),将这些技术概念系统性映射到军事风险和政策需求。
核心 idea:AI-LAWS 的监管必须锚定于系统的技术行为而非政策标签,AI 研究者必须成为监管生命周期中的核心参与者。
方法详解¶
整体框架¶
本文是一篇立场论文(position paper),采用"现状分析 → 行为导向定义 → 政策建议"的三段式结构。首先通过系统梳理全球已部署和开发中的 AI-LAWS(Table 2)以及其引入的独特风险(Table 1),论证现有监管框架的不足;然后提出基于系统行为的两条监管准则,作为识别需增强监管的 AI-LAWS 的判据;最后基于此定义提出五项技术知情的政策建议。虽非传统技术论文,但分析深植于 AI 领域核心技术概念。
关键设计¶
-
AI-LAWS 的双准则行为导向定义
功能:为混乱的军事 AI 术语场提供一个可操作的系统分类标准,区分需要增强监管的 AI-LAWS 与传统自动化武器。
核心思路:同时满足两个准则的系统被识别为 AI-LAWS——准则 1(AI 技术要求)要求系统使用了对其功能不可或缺的 AI/ML 方法(如神经网络),且存在目标误识别、不可预测升级、部署后漂移、分布外泛化不足等 AI 特有风险;准则 2(致命力介入)要求至少一项依赖 AI/ML 的能力参与了半自主或全自主的打击与力量运用决策。
设计动机:现有定义要么过于宽泛(联合国定义会涵盖海上水雷和热追踪导弹),要么设置过高阈值(要求"超人类学习"等极端条件使大多数已部署系统逃脱监管)。行为导向定义避免了标签化争论,直接聚焦于系统行为带来的实际风险。
-
三维度风险分析框架
功能:系统论证 AI-LAWS 为何需要区别于传统 LAWS 的独立监管体系。
核心思路:将 AI-LAWS 的风险分解为军事风险(脆弱性——训练分布外性能急剧下降;不透明性——黑箱决策难以审计;过度信任——操作员在压力下默认接受 AI 建议)、地缘政治风险(不可预测行为引发冲突升级;军备竞赛动力学;对未知能力的过度反应导致政策制定者倾向超额投入)、制度风险(军事资金渗透学术研究;出版限制与国际合作受阻;研究者在不知情下被引向军事应用)。
设计动机:多数军事 AI 讨论仅聚焦战场性能或伦理原则中的某一维度。三维度分析揭示这些风险相互交织,例如军事部署的不可预测性会驱动政策过度反应进而侵蚀科研自由—因此碎片化的监管方案注定失败。
-
五项具体政策建议
功能:将行为导向定义转化为可落地的政策方向,覆盖从核武器极端场景到日常机构边界的完整光谱。
核心思路:(1) 禁止 AI 控制核武器部署——包括发射决策和核战略建议系统;(2) 制定 AI-LAWS 国际验证标准——建立自愿性国际联盟,协调定义行为基准和上下文迁移性能阈值,采用类似互联网协议的迭代演化模式;(3) 禁止"AI 将军"——禁止 AI 系统自主指挥人类士兵("弥诺陶洛斯战争"模型),命令权须保留在人类手中;(4) 明确民用 AI 基础设施的法律地位——在日内瓦公约框架下界定 AI 模型、数据、算力何时成为合法军事目标(以 2025 年伊以冲突中 Weizmann 研究所被轰炸为例);(5) 建立机构层面军民边界——大学和公司应公开声明军民界限政策,保护学生免于无选择权地进入涉密工作。
设计动机:每项建议针对 AI-LAWS 特有风险而非泛化的 AI 伦理原则,且在现有政策对话中都有萌芽但缺乏技术支撑和细节。五项建议共同构建了从战略层到机构层的多层次监管体系。
损失函数 / 训练策略¶
不适用(本文为政策立场论文,非技术实验论文)。其论证逻辑相当于"训练策略"——基于 AI 安全文献中的成熟技术概念(脆弱性、分布漂移、对抗鲁棒性、可解释性、过度信任)构建政策论据,以公开部署的系统实例和已记录的失败模式作为"实验数据"。
实验关键数据¶
主实验¶
本文无量化实验,但提供了两张核心对照表作为分析基础。
表 2:全球已部署/开发中 AI-LAWS 系统概览
| 领域 | 系统名称 | 开发方 | 国家 | 用途 | 状态 |
|---|---|---|---|---|---|
| 指挥控制 | Defense Llama | Scale AI | 美国 | 指挥/目标打击/报告合成 | 演示 |
| 指挥控制 | Lattice | Anduril | 美国 | 战场协调 | 已部署 |
| 指挥控制 | Project Maven | NGA/DoD | 美国 | 情报分析 | 已部署 |
| 指挥控制 | Lavender | IDF | 以色列 | 目标打击 | 已部署 |
| 指挥控制 | ChatBIT | PLA | 中国 | 指挥决策 | 演示 |
| 空域 | Lancet | ZALA Aero | 俄罗斯 | 巡飞弹(自主瞄准) | 已部署 |
| 空域 | Saker Scout | Saker | 乌克兰 | 四旋翼无人机 | 已部署 |
| 空域 | Kargu | STM | 土耳其 | 巡飞弹 | 已部署 |
| 空域 | XQ-58A Valkyrie | Kratos | 美国 | 隐身自主僚机 | 开发中 |
| 陆域 | THeMIS | Milrem | 爱沙尼亚 | 地面无人车 | 已部署 |
| 陆域 | Uran-9 | 卡拉什尼科夫 | 俄罗斯 | 炮兵无人车 | 已部署 |
| 海域 | Orca XLUUV | Boeing | 美国 | 远程潜航器 | 演示 |
| 海域 | Ghost Fleet | DARPA/Leidos | 美国 | 水面舰艇编队 | 已部署 |
消融实验¶
表 1:AI-LAWS 引入的特有风险分类
| 风险类型 | 描述 | 典型场景 |
|---|---|---|
| 未检测的实战失败 | 验证不足 + 过度信任 → 部署后失败难以发现 | 森林环境训练的目标 AI 在沙漠中误识别车辆,指挥官轻信有缺陷的 AI 规划建议 |
| 黑箱决策不透明性 | AI 打击系统的决策基础难以理解或审计 | AI 打击系统基于错误传感器选择目标,操作员因来不及理解决策过程而未能及时阻止 |
| 研究自由侵蚀 | 涉密资金流和双用途限制 → 学术开放性下降 | 大学 AI 实验室被纳入军事保密管理体系,限制发表和国际合作 |
| AI 专才军事化导流 | 民用研究者被招入军事项目,有时无明确告知或退出机制 | 科学家发现其项目被国防资金接管,研究方向从开源 AI 转向涉密应用 |
| 军备竞赛加速 | AI-LAWS 的广泛扩散降低冲突升级门槛 | 未经充分测试便部署无人机集群,因技术不确定性引发安全困境 |
关键发现¶
- AI-LAWS 已是现实而非假设:横跨四个军事领域的多个 AI-LAWS 已实战部署,且开发国涵盖主要军事大国和中小国家
- 现有监管框架三重失败:MHC 缺乏"有意义控制"的可测量标准;AHJ 未定义"充分判断"的度量指标;AGI 风险叙事忽略已部署系统
- 过度信任效应在军事场景下被放大:指挥建议系统在形式上保持"人在回路中",但操作员在时间压力或权限不明时倾向于服从 AI 建议
- 民用 AI 研究正被快速军事化:美国 DIU 提议在大学嵌入军事 AI 研究中心,中国实施军民融合战略——界限模糊化侵蚀学术自由和国际合作
- 2025 年伊以冲突中 Weizmann 研究所被轰炸暗示民用 AI 研究机构可能因 AI 军事化而成为攻击目标
亮点与洞察¶
- 技术概念到政策语言的系统映射:将分布外泛化、对抗脆弱性、模型漂移、过度信任等 AI 领域成熟概念精准对应到军事风险,避免了政策论文常见的泛化空谈
- 行为导向定义的务实性:双准则设计绕过了"完全自主"的定义陷阱,能覆盖如 Lancet、Lavender 等半自主系统——这些才是真正需要监管的对象
- 国际联盟的迭代演化设计:借鉴互联网协议和金融风险审计的治理模式,提出自愿性联盟而非条约法,平衡了主权关切与共同责任
- 对 AI 研究者社区的独特呼吁:特别警告不要夸大基准测试结果,因为军方和智库密切关注 AI 技术论文,过度宣传可能导致不成熟技术的仓促军事化
- "弥诺陶洛斯战争"概念的剖析:分析了 LLM 充当战场指挥官的提案,指出幻觉、漂移、对抗脆弱性加上人类过度信任在指挥场景下的特殊危险性
局限与展望¶
- 五项政策建议的可行性分析薄弱:如自愿性国际联盟如何应对不参与或主动违反的国家(中俄等主要 AI-LAWS 开发国的政策环境未深入分析)
- 双准则定义在操作化层面存在模糊地带:如何客观判断 AI 对系统功能是否"不可或缺"?"半自主"与"全自主"的边界如何量化?
- 缺少验证标准的具体技术方案:仅论证了需要国际验证标准,但未给出行为基准或性能阈值的具体设计框架
- 对商业利益驱动的监管规避讨论不足:国防科技公司(如 Anduril、Palantir)的商业激励如何影响监管合规
- 论文引用的系统信息截至 2025 年中,AI 军事化速度极快,部分分析可能已需更新
相关工作与启发¶
- Scharre (2023) 的 LAWS 综合讨论和 Bode & Huelss (2023) 的联合国层面分析为本文提供了政策对话基础,本文在此基础上增加了 AI 技术视角
- 美国 DoD Directive 3000.09 和英国 2024 年指南分别代表 AHJ(适当人类判断)和更强监管两条路径,本文指出两者都缺乏 AI 特异性指标
- Rivera et al. (2024) 关于 AI 引发冲突升级的模拟工作、Lamparth et al. (2024) 关于 LLM 在军事场景中不可预测行为的研究,为本文的风险论证提供了实证支撑
- 对 AI 安全研究者的启示:模型鲁棒性、可解释性、分布外检测、对抗鲁棒性等基础研究对军事 AI 治理有直接且重大的政策影响——这些技术工作的价值远超学术论文本身
- 学术机构应主动建立军民研究边界规范并公开声明,而非被动等待政府监管或在模糊中丧失学术自由
评分¶
- 新颖性: ⭐⭐⭐⭐ 理由:行为导向的双准则定义和将 AI 技术概念系统映射到政策语言的方法具有原创性,五项政策建议在现有讨论中有所萌芽但本文给出了最系统的技术论证
- 实验充分度: ⭐⭐⭐ 理由:作为政策立场论文无量化实验,但系统梳理了全球 AI-LAWS 部署现状和风险案例,论据覆盖面广
- 写作质量: ⭐⭐⭐⭐⭐ 理由:论证逻辑严密,技术与政策语言衔接流畅,结构清晰且由浅入深,表格设计有效支撑分析
- 价值: ⭐⭐⭐⭐⭐ 理由:对 AI 军事治理具有重要现实意义,明确呼吁研究者社区参与而非回避,核武器红线和 AI 将军禁令等建议具有紧迫性
title: >- [论文解读] Military AI Needs Technically-Informed Regulation to Safeguard AI Research and its Applications description: >- [NeurIPS 2025][自主武器系统] 本文针对 AI 驱动的致命性自主武器系统 (AI-LAWS) 提出了基于系统行为(而非标签或意图)的监管标准,论证了 AI 研究者必须参与军事 AI 监管的全生命周期,并提出了五项具体的政策建议。 tags: - NeurIPS 2025 - 自主武器系统 - AI-LAWS - 军事 AI 监管 - 技术知情政策 - AI 研究自由