Agents Under Siege: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks¶

会议: ACL 2025
arXiv: 2504.00218
代码: 无
领域: LLM Agent / LLM安全
关键词: 多智能体安全、越狱攻击、排列不变性、最大流最小费用、对抗提示传播

一句话总结¶

本文首次系统研究了在带宽约束、延迟和安全机制的现实多智能体LLM系统中的对抗攻击问题，提出基于最大流最小费用的拓扑优化和排列不变蒙骗损失（PIEL）的攻击方法，在多个LLM架构上实现了高达7倍于传统攻击的成功率。

研究背景与动机¶

领域现状：多Agent LLM系统通过分布式推理和集体智慧增强任务性能，被越来越多地应用于自动化系统和AI治理等场景。关于LLM安全的研究主要集中在单Agent设置下的越狱攻击和防御。

现有痛点：多Agent系统引入了全新的安全风险维度——Agent间通信可以被利用为攻击向量。现有的多Agent攻击研究（如Evil Geniuses、Prompt Infection）假设攻击者可以不受限制地向Agent发送消息，忽略了实际系统中的通信约束：token带宽限制、消息延迟和安全过滤机制。

核心矛盾：在受限的多Agent系统中，攻击者面临三重约束：（1）每条通信边有token数量限制，完整的对抗提示无法通过单条边传输；（2）不同路径的消息到达顺序不确定；（3）部分通信边上部署了安全检测机制。如何在这些约束下成功实施攻击是一个未被研究的开放问题。

本文目标：在带有token带宽限制、异步消息到达和安全机制的现实多Agent系统中，设计最优的对抗提示传播策略。

切入角度：将攻击路径优化建模为图论中的最大流最小费用问题，同时设计排列不变的对抗损失确保攻击在任意chunk顺序下都有效。

核心 idea：将对抗提示分成多个chunk，通过最大流最小费用算法找到最优传播路径（最大化token流量、最小化检测风险），并用排列不变蒙骗损失优化chunk内容使其在任意排列下都能触发越狱。

方法详解¶

整体框架¶

方法分为两个解耦的模块：（1）Topological Optimization——给定多Agent系统的通信拓扑、带宽约束和安全机制部署，求解最优的攻击路径和chunk分配；（2）Permutation-Invariant Evasion Loss——在确定的chunk方案下，优化每个chunk的token内容使攻击在所有可能的到达顺序下都有效。

关键设计¶

最大流最小费用拓扑优化:
- 功能：在有约束的通信网络中找到最优的对抗提示传播路径
- 核心思路：定义流函数 \(f: \mathcal{E} \to \mathbb{R}_{\geq 0}\) 表示每条边传输的对抗token数量。优化目标是最小化总风险 \(\min \sum_{(u,v)} G(u,v) \cdot f(u,v)\)，约束为token容量 \(0 \leq f(u,v) \leq F(u,v)\)、流守恒和源汇约束。使用NetworkX实现的标准MFMC算法求解，输出每条边应传输的chunk长度
- 设计动机：直觉上，攻击者需要将一个完整的对抗提示"分装"到多条路径上传送到目标Agent，同时要避开有安全检测的"危险"路径。这本质上就是网络流问题
排列不变蒙骗损失（PIEL）:
- 功能：确保分块的对抗提示在任意到达顺序下都能触发越狱
- 核心思路：将对抗提示分为 \(K\) 个chunk \(\mathcal{C} = \{C_1, ..., C_K\}\)，损失函数定义为所有可能排列的平均负对数似然：\(\mathcal{L}(\mathcal{C}) = \frac{1}{K!} \sum_{\pi \in S_K} -\log p(x^*_{n+1:n+L} | \phi)\)，其中 \(\phi\) 是按排列 \(\pi\) 拼接chunk后的输入，\(x^*\) 是目标有害输出。使用GCG（Greedy Coordinate Gradient）方法迭代优化每个chunk中的token
- 设计动机：由于网络延迟，不同路径传输的chunk到达目标Agent的顺序是不确定的。如果对抗提示只在特定顺序下有效，攻击会因到达顺序随机性而频繁失败
随机PIEL（S-PIEL）:
- 功能：降低PIEL的计算复杂度
- 核心思路：当chunk数 \(K\) 较大时，\(K!\) 个排列的遍历不可行。S-PIEL随机采样 \(M\) 个排列近似完整期望：\(\tilde{\mathcal{L}}(\mathcal{C}) = \frac{1}{|\tilde{S}_K|} \sum_{\pi \in \tilde{S}_K} -\log p(x^*| \phi)\)
- 设计动机：\(K=5\) 时有120种排列，遍历计算成本已经很高。实验显示采样约50%的排列即可达到良好效果

损失函数 / 训练策略¶

使用GCG方法优化token选择：对每个token计算PIEL梯度，选择梯度最大的位置进行替换。每轮迭代中计算所有排列的损失、聚合梯度、执行token替换。在500步GCG迭代中优化，搜索宽度64。

实验关键数据¶

主实验¶

目标模型	方法	JailbreakBench ASR	AdversarialBench ASR	In-the-wild ASR
Llama-2-7B	Vanilla	0.000	0.000	0.144
Llama-2-7B	GCG	0.017	0.160	0.201
Llama-2-7B	Ours	0.726	0.533	0.561
Mistral-7B	Vanilla	0.000	0.000	0.215
Mistral-7B	GCG	0.324	0.212	0.203
Mistral-7B	Ours	0.812	0.543	0.627

消融实验¶

因素	ASR变化	说明
Chain拓扑	~60%	连通性最差，攻击最难
Complete拓扑	~78%	全连接最脆弱
S-PIEL M=8	0% (不收敛)	采样太少无法逼近
S-PIEL M=64	56%	约50% K!时效果良好
PIEL (M=K!)	72.6%	完整排列最优

关键发现¶

本文方法在Llama-2-7B上将ASR从GCG的1.7%提升到72.6%（JailbreakBench），提升了约43倍
现有安全机制（Llama-Guard各版本、PromptGuard）对本文攻击的检测F1-score下降约30%，说明分块传输的对抗提示更难检测
攻击具有良好的跨模型迁移性——在Llama-2上优化的攻击对Mistral和Gemma也有效（ASR 61-71%）
拓扑结构影响显著：Complete Graph最脆弱（78% ASR），Chain最安全（60% ASR）

亮点与洞察¶

将多Agent攻击建模为最大流最小费用是非常巧妙的形式化，完美捕捉了带宽约束和安全检测风险的权衡。这个建模方式也可以反向用于防御——设计拓扑使最大流最小
PIEL损失的排列不变性设计应对了异步通信的核心挑战，这个思想可以迁移到其他需要排列不变的场景（如分布式推理）
本文揭示了多Agent系统"增加连通性反而增加脆弱性"的反直觉现象，对系统安全设计有重要启示

局限与展望¶

仅在开源模型上评估，未测试GPT-4等商业模型
假设攻击者知道网络拓扑和安全机制位置，部分知识假设可能过强
静态安全机制和固定带宽的假设不适用于动态自适应的防御系统
仅考虑文本交互，多模态Agent系统的攻击面更广

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统化研究受限多Agent系统的攻击，MFMC建模和PIEL都很创新
实验充分度: ⭐⭐⭐⭐⭐ 五种模型、三个基准、多种拓扑的全面评估
写作质量: ⭐⭐⭐⭐ 技术描述详尽但篇幅较长
价值: ⭐⭐⭐⭐ 对多Agent安全防御有重要警示意义