Hierarchical Attacks for Multi-Modal Multi-Agent Reasoning¶

会议: CVPR 2026
arXiv: 2605.13213
代码: 论文称将公开 benchmark（系统基于开源框架 OxyGent），暂无确认仓库
领域: 多模态VLM / Agent / AI 安全 / 对抗攻击
关键词: 多模态多智能体, 对抗攻击, 分层攻击, 推理链注入, 通信拓扑

一句话总结¶

本文提出 HAM³，把对「多模态多智能体系统（MM-MAS）」的对抗攻击拆成感知层、通信层、推理层三个相互衔接的层次，系统性地刻画扰动如何从单点输入级联到集体决策，在 GQA 上对 ReAct/Plan-and-Solve/Reflexion 三种范式做实验，最高攻击成功率（ASR）达 78.3%，并发现推理层攻击最强、最隐蔽、最难纠正。

研究背景与动机¶

领域现状：多模态多智能体系统（MM-MAS）正快速铺开——一个主控 agent 协调多个专精子 agent（图像理解、目标检测、分割、写代码等），通过辩论、投票、角色分工等结构化通信协议协作完成复杂跨模态推理，已被用到社交交互、具身控制、自动驾驶等场景。系统越大、互联越密，安全性就越关键。

现有痛点：已有对抗攻击研究几乎都停留在「单 agent」或「单模态」：要么操纵单个 agent 的观测/提示/记忆来误导它的推理，要么只是把单 agent 的攻击原理简单平移到多 agent——往往只是篡改某个 agent 的消息内容或污染共享工具，其它 agent 在固定通信结构下被动传播错误。这类做法只触及「内容级」操纵。另一条线的多模态对抗攻击则瞄准模型层的感知（排版型、组合型、逻辑型视觉提示去 jailbreak VLM），却没攻击 agent 的决策流水线。

核心矛盾：MM-MAS 的脆弱性恰恰来自单 agent 设定里不存在的两类结构性维度——通信拓扑（谁连谁、消息怎么路由、共享记忆/上下文怎么被共用）和集体推理动态（多个 agent 的推理链如何相互引用、汇总、放大）。只盯内容级扰动，就看不到这些跨层、跨结构的漏洞。

本文目标：建一个统一框架，刻画扰动如何在感知 → 通信 → 推理三层之间传播，并量化哪一层最脆弱、不同推理范式的鲁棒性差异。

切入角度：把每个 agent 形式化为「感知—通信—推理」三层映射的复合，于是整个系统的攻击面天然分成三层；在每层注入针对性扰动，就能观察局部扰动如何级联到根 agent 的最终决策。

核心 idea：用一个分层（hierarchical）攻击模型 HAM³，把「攻击 MM-MAS」分解为感知层、通信层、推理层三类可独立实例化、又相互衔接的攻击，统一比较它们的传播性与破坏力。

方法详解¶

整体框架¶

HAM³ 把 MM-MAS 形式化为一组 agent \(S=\{A_1,\dots,A_N\}\)，每个 agent 由系统提示、工具集、记忆模块和通信接口构成。给定多模态输入 \(x=(x_{\text{image}}, x_{\text{text}})\)，系统映射 \(F\) 产出 \(y=F(x;\Theta)\)，最终输出由根 agent 给出 \(F(x)=o_{A_{\text{root}}}\)。关键在于：每个 agent 被拆成三层映射的复合——感知 \(f^{(1)}\)、通信 \(f^{(2)}\)、推理 \(f^{(3)}\)。叶子 agent 输出 \(o_A=f_A^{(3)}(f_A^{(2)}(f_A^{(1)}(x_A)))\)；内部 agent 先用聚合算子 \(\Phi_A\) 汇总所有子 agent 的输出再走通信、推理两层。于是攻击者可以对任意 agent \(A\)、任意层 \(l\in\{1,2,3\}\) 注入扰动 \(\delta_A^{(l)}\)，HAM³ 就是把这三层的攻击逐一实例化，并观察扰动沿协作流水线级联到根 agent 的过程。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多模态输入<br/>图像 + 文本"] --> B["三层攻击形式化<br/>每个 agent = 感知/通信/推理"]
    B --> C["感知层攻击<br/>跨模态注入 CMA"]
    C --> D["通信层攻击<br/>拓扑/记忆/上下文"]
    D --> E["推理层攻击<br/>思维链注入 CIA"]
    E --> F["根 agent 最终决策<br/>被级联误导"]

关键设计¶

1. 三层攻击形式化：把每个 agent 拆成感知-通信-推理映射，让攻击面结构化

痛点是：以往攻击只把多 agent 系统当成「一堆会传话的 agent」，无法描述扰动具体在哪个环节注入、又如何沿协作结构扩散。HAM³ 的做法是把每个 agent 显式建模为三层映射的复合 \(o_A=f^{(3)}(f^{(2)}(f^{(1)}(\cdot)))\)，并区分叶子 agent 直接吃输入、内部 agent 先用聚合算子 \(\Phi_A(\{o_C\mid C\in\text{Children}(A)\})\) 汇总孩子输出。这样一来，任意层都可挂一个扰动 \(\delta_A^{(l)}\)，攻击不再是「改某条消息」的零散操作，而是有明确层次坐标的系统性扰动。它有效，是因为这套形式化把「单点扰动 → 集体决策」的级联路径显式写出来，使得跨层、跨结构的漏洞第一次能被统一定义和比较

2. 感知层攻击：跨模态联合扰动，打 agent 入口处的视觉-语言对齐

感知层攻击在任何 agent 间协作之前就动手，扰动多模态输入。核心是跨模态注入攻击（Cross-Modal Injection Attack, CMA）：\(x'=(G_{\text{image}}(x_{\text{image}}), G_{\text{text}}(x_{\text{text}}))\)，其中 \(G_{\text{text}}\) 根据 query 和视觉内容生成误导文本，\(G_{\text{image}}\) 做语义图像编辑或在图上叠加文字。相比只改图（VIA）或只改文（TIA），同时扰动两个模态能更有效地骗过 agent 的视觉-语言对齐——因为系统往往靠图文一致性自检，单模态的错误常被下游推理或 agent 间通信纠回来，而联合扰动让图文「一起撒谎」，自检失效。实验里 CMA 在 87% 的任务上取得感知层最高 ASR，且本文用 Cross-Modal Consistency（CLIP 空间图文余弦相似度）说明扰动后图文语义仍对齐、攻击更隐蔽

3. 通信层攻击：动消息内容更动通信拓扑，攻击集体结构而非单点

这一层针对多 agent 独有的结构性依赖，含四种攻击：Agent Spoofing（ASA，伪造/替换通信图中的 agent，\(\Gamma'=G_{\text{topo}}(\Gamma,\delta_{\text{topo}})\)，劫持路由）、Structural Blocking（SBA，注入阻塞指令构造 \(A_i\to A_j\to A_k\to A_i\) 这样的循环等待，制造死锁/无限循环）、Shared Memory Pollution（SMPA，往目标 agent 集合 \(\Omega\) 的短期记忆注入伪造历史片段 \(D_{\text{adv}}\)）、Shared Context Injection（SCIA，往一组 agent 的系统提示插入同一条对抗先验 \(p_{\text{adv}}\)，让它们的偏置对齐、互相强化）。关键洞察是：消息级攻击（SMPA/SCIA）只造成 agent 回复不一致，常能靠交叉验证或消息重路由纠正；而结构级攻击（SBA）直接改网络拓扑，强行切断关键 agent 间的连接、断掉对正确专长的访问，难以恢复——所以 SBA 的 ASR 显著高于消息级攻击（ReAct+Qwen-7B 下 65.0%，Plan-and-Solve 下达 71.8%）

4. 推理层攻击：注入思维链中间步骤，错误被多 agent 放大且最难纠正

推理层攻击干扰每个 agent 的内部推理链。核心是思维链注入攻击（Chain-of-Thought Injection Attack, CIA）：给定推理序列 \(\text{CoT}=[r_1,\dots,r_T]\)，攻击者按位置 \(\tau\) 插入或替换中间状态 \(r^*\)，得到 \(\text{CoT}'=G_{\text{CIA}}(\text{CoT}, r^*, \tau)\)。它最强是因为：扰动早期/枢纽步骤引入的细微逻辑错误会沿推理链被放大，而当 CoT 在 agent 间被共享或摘要（ReAct/Plan-and-Solve/Reflexion 都会这么传），一段被污染的推理就能误导整个子团队；且它直接改中间推理步骤，不像污染记忆或工具那样是间接干扰，一旦推理轨迹被改，输出就不可靠且极难纠回。这使 CIA 拿到全实验最高 ASR 78.3%（ReAct+Qwen-7B），比最强通信攻击 SBA 高约 13 个点、比最强感知攻击 CMA 高约 17 个点

一个例子：CIA 为何比内容级攻击更致命¶

取 ReAct + Qwen-7B：感知层 CMA 把图文一起改，ASR 60.8%——但部分错误被后续 agent 协作纠回；通信层 SBA 切断关键 agent 连接，ASR 65.0%——结构破坏更难恢复；推理层 CIA 只在某个 agent 的 CoT 里塞一句误导推理，ASR 直冲 78.3%，且这条被污染的 CoT 在 agent 间被引用/摘要后，超过一半的成功攻击会让多个 agent 产生「一致的错误」，集体性地走偏。三层对照清晰说明：越靠近内部推理、越靠近被共享的中间状态，攻击越持久、越隐蔽、越系统性。

实验关键数据¶

主实验¶

评测在 GQA 上采样 5,984 个图文对（覆盖 10 个语义类别），MM-MAS 基于 OxyGent 搭建：1 个主控 agent + 6 个专精子 agent + 13 个工具，跑 ReAct / Plan-and-Solve / Reflexion 三种范式。文本攻击用 GPT-4o 生成、视觉攻击用 Nano Banana 生成。下表为 ReAct 范式下各层代表性攻击的 ASR（%），加粗为各层最强：

范式/模型	感知 CMA	通信 SBA	推理 CIA	全场最高
ReAct / Qwen-7B	60.8	65.0	78.3	CIA 78.3
ReAct / Qwen-32B	55.7	59.8	73.2	CIA 73.2
ReAct / GLM-4V+	53.7	62.2	71.3	TSA 72.0
ReAct / O1-Mini	44.0	51.3	71.5	CIA 71.5
ReAct / GPT-4o	43.2	49.0	65.0	CIA 65.0

跨范式看：Reflexion 最鲁棒（同样 CIA+Qwen-7B 下 ASR 降到 61.7%，比 ReAct 低约 16 点），Plan-and-Solve 居中（69.2%），ReAct 最脆弱（推理与行动交替却无显式校验，早期扰动易被放大）。模型越大越抗打：CIA 在 ReAct 下从 Qwen-7B 的 78.3% 降到 GPT-4o 的 65.0%。

消融/分析实验¶

任务成功率（TSR，%）在各层攻击下的下降（N.A. 为无攻击基线）：

范式	感知	通信	推理	无攻击 N.A.
ReAct	29.45	27.58	23.55	58.99
Plan-and-Solve	34.59	31.99	27.58	60.88
Reflexion	33.18	31.43	30.64	61.35

三范式无攻击基线都约 60%；攻击后 TSR 大幅下降，ReAct 在推理层降幅最大（最高掉约 35 个点），感知/通信层降幅中等（约 25–30 点），再次印证推理层最脆弱。

关键发现¶

推理层最脆弱：CIA 在所有设置下都拿最高 ASR，因为它直接改中间推理步骤、错误沿链放大，且 CoT 跨 agent 共享时单段污染就能误导整个子团队；超过一半的成功攻击导致多个 agent 产生「一致错误」。
结构攻击 > 内容攻击：通信层里 SBA（破坏拓扑、制造死锁）远强于 SMPA/SCIA（消息级），后者常被交叉验证/重路由纠回；ASA（伪造 agent）不稳定，因为假 agent 的噪声输出会被忽略。
外部鲁棒 vs 内部稳定的 trade-off：幻觉错误率（HER）从 Qwen-7B 约 8% 降到 GPT-4o 约 4%，大模型内部更稳；Reflexion 外部错误少但幻觉相关错误多，ReAct 反之——两者共同决定系统可靠性。

亮点与洞察¶

把攻击面「分层坐标化」：用 \(f^{(1)}/f^{(2)}/f^{(3)}\) 三层映射给每个 agent 建模，使得「扰动注在哪一层、怎么级联」第一次能被统一定义和横向比较——这套形式化本身比任何单个攻击更有迁移价值。
「越内部越致命」的清晰结论：感知 → 通信 → 推理，攻击破坏力单调上升，且推理层攻击隐蔽（CoT 看起来仍连贯）、持久（错误难纠）、系统性（沿共享 CoT 扩散到子团队），给鲁棒 MM-MAS 设计指了明确防御重点。
用 CMC 量化「隐蔽性」：借 CLIP 图文余弦相似度衡量扰动后是否仍保持跨模态语义对齐，高 CMC + 高 ASR 才算「既能骗又不易察觉」，把「攻击隐蔽性」做成可测指标，思路可迁移到其它多模态攻击评估。

局限与展望¶

评测主要在 GQA（外加补充材料的 EvoChart-QA），任务集中在视觉问答类多步推理，是否推广到具身控制、自动驾驶等真实 MM-MAS 场景未充分验证。
系统配置绑定在 OxyGent 框架的「1 主控 + 6 子 agent + 13 工具」这一特定拓扑上，攻击效力对 agent 数量、拓扑形态、协议（辩论/投票）的敏感性未系统扫描。
文章是「攻击侧」工作，提出了大量攻击但几乎没给对应防御/检测方案；作者把「设计更鲁棒系统」留作 future work，实际可防御性仍是开放问题。
⚠️ ASA「伪造 agent 输出噪声被忽略所以不稳定」这一解释偏定性，缺少对拓扑攻击在不同图结构下稳定性的定量分析。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统性研究 MM-MAS 对抗鲁棒性，分层形式化把感知/通信/推理三层攻击统一起来，视角清晰且原创。
实验充分度: ⭐⭐⭐⭐ 覆盖 3 范式 × 5 模型 × 10 种攻击，主表+TSR/HER/CMC 多维分析扎实；但只在 GQA 类任务、单一拓扑上评测，泛化性验证略薄。
写作质量: ⭐⭐⭐⭐ 三层结构叙事清楚，形式化与实验呼应；个别攻击的有效性解释偏定性。
价值: ⭐⭐⭐⭐⭐ 给出「推理层最脆弱、结构攻击 > 内容攻击」的明确结论与可测隐蔽性指标，对构建鲁棒多智能体系统有直接指导意义。