ARMS: Adaptive Red-Teaming Agent against Multimodal Models with Plug-and-Play Attacks¶

会议: ICLR 2026
OpenReview: wQ4OykcxaV
代码: 待确认（作者承诺开源到 GitHub + HuggingFace）
领域: 多模态安全 / 红队测试 / VLM 越狱
关键词: 多模态红队、VLM 安全、自适应攻击、分层记忆、MCP 即插即用

一句话总结¶

ARMS 是首个针对视觉-语言模型（VLM）、能按"风险定义"可控生成攻击样本的自适应红队 agent：它把 17 种多模态攻击各封装成一个 MCP server 做即插即用编排，用"风险类别 × 攻击策略"二维分层记忆配合 ε-greedy 探索来对抗模式崩溃、最大化攻击多样性，在 6 个评测上平均把攻击成功率（ASR）较最强基线提升 52.1 个百分点，甚至把以稳健著称的 Claude-4-Sonnet 攻破到 90%+ ASR。

研究背景与动机¶

领域现状：随着 VLM 被大规模部署到视觉问答、自动驾驶、医疗诊断等场景，它的多模态接口引入了纯文本模型没有的安全漏洞——比如跨模态注入生成有害内容、把私密文字"印"成图片（typographic transformation）绕过文本过滤、或通过视觉推理后门触发危险行为。要评估这些风险，主流做法是红队测试（red-teaming），主动构造对抗样本去诱导模型输出有害内容。

现有痛点：现有 VLM 红队框架有三个硬伤。其一，多数依赖静态 benchmark，跟不上现实风险和 VLM 架构的快速迭代——以前有效的攻击很快失效、新漏洞又不断冒出。其二，覆盖的对抗模式很窄，往往只盯着少数几种人工设计的 pattern。其三，严重依赖人工工程，缺乏规模化发现风险的能力。少数自动红队框架（Rainbow Teaming、AutoDAN-Turbo、X-Teaming 等）虽然能自动生成攻击，但几乎全是纯文本的，错过了多模态接口独有的失效模式（如 typographic transformation）。

核心矛盾：自动红队普遍存在模式崩溃（mode collapse）——即便风险定义在变，攻击器还是反复套用那几个 prompt 模板或图片改法，导致攻击多样性极低。于是问题归结为：如何在保证攻击有效性（高 ASR）的同时维持攻击多样性（覆盖多种风险与策略），二者天然存在张力。

本文目标：构建一个自动、可扩展、以多模态为中心、且按风险定义可控生成的 VLM 安全评测框架，把它拆成三个子问题——(1) 如何统一集成并随时扩展多样的多模态攻击；(2) 如何让 agent 不只是"选一个最好的策略"而是真正多步推理编排；(3) 如何在记忆机制层面强制多样性、对抗模式崩溃。

切入角度：作者先做了一轮专家引导的多模态红队，把成功攻击归纳成 5 类对抗模式，由此设计 11 种新多模态攻击策略；再用 Model Context Protocol（MCP）把每种策略封装成独立 server，使 agent 能像调工具一样即插即用地组合它们；最后用一个"风险×策略"二维记忆显式平衡覆盖面。

核心 idea：用"MCP 即插即用工具库 + 推理增强的多步攻击编排 + 风险×策略分层记忆（ε-greedy 调度）"替代"固定模板/单策略路由"，让红队 agent 在风险定义驱动下自适应地合成既有效又多样的多模态攻击。

方法详解¶

整体框架¶

ARMS 要解决的是：给定一个有害行为（instance-based，直接拿现成有害指令）或一个高层风险定义（policy-based，只给一段政策描述），自动产出能攻破目标 VLM 的多模态对抗样本，并在过程中不断积累经验、保持攻击多样性。

整条 pipeline 这样转：在 policy-based 模式下，ARMS 先从风险分布 $P$ 采样种子有害指令、再做多样化过滤，得到一批覆盖该政策违规面的指令（instance-based 模式则跳过这步直接用现成指令 $x$）。拿到指令 $x$ 后，ARMS 用 ε-greedy 算法查询它的分层记忆，召回相关的历史成功经验；接着用自身的多模态推理能力，从 MCP 攻击库里选择并多步编排攻击策略，每一步在上一版对抗样本 $I^t_{adv}=(\text{Image}^t_i,\text{Text}^t_i)$ 基础上增量精炼出新样本 $I^{t+1}_{adv}$。ARMS 要么继续叠加另一个策略精炼当前样本，要么用当前样本去查询受害 VLM、拿到回复 $y^{t+1}$ 交给基于政策的 LLM judge 打有害分 $J(y)$。若回复不够有害，ARMS 就带着 judge 反馈迭代增强，直到攻击成功或耗尽优化预算 $T$（默认 $T=30$）。攻击目标形式化为：对每条有害指令 $x_i$，优化对抗样本以最大化期望有害分 $\mathbb{E}_{x_i\sim P}[J(M(\pi_{ARMS}(x_i)))]$，其中 $M$ 是受害 VLM、$\pi_{ARMS}$ 是被记忆模块 $D_\theta$ 增强的红队 agent。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：有害行为<br/>或风险定义"] --> B["可控的政策驱动生成<br/>种子生成 + 多样化过滤"]
    B --> C["分层记忆 + ε-greedy 检索<br/>召回相关历史经验"]
    C --> D["MCP 即插即用攻击库<br/>17 策略 / 5 对抗模式"]
    D --> E["推理增强的多步编排<br/>逐步精炼对抗样本"]
    E --> F["查询受害 VLM"]
    F --> G["政策驱动 judge 打有害分"]
    G -->|不够有害| E
    G -->|攻击成功/耗尽预算 T| H["写回记忆 + ARMS-BENCH"]

关键设计¶

1. MCP 即插即用的统一攻击库：把 17 种攻击做成可热插拔的工具

现有框架要么策略写死、要么策略之间各自为政，新攻击难以接入、也无法灵活组合。ARMS 把每一种红队策略都封装成一个独立的 MCP server（Model Context Protocol，Anthropic 2024），策略通过 MCP 传输协议被 agent 像调外部工具一样请求。这样带来三个好处：模块化执行、高效通信、以及对外部攻击贡献者的无缝扩展——任何人写一个新攻击 server 就能即插即用接进来。这 17 种攻击覆盖作者归纳的 5 类对抗模式：视觉上下文伪装（rule-based 把有害 prompt 包进流程/合规图、email/Slack/新闻报道伪装、场景扮演、叙事掩盖）、排版变换（flowchart 把恶意逻辑画成图、编号列表图把分步指令嵌成图片文字以绕过关键词与 OCR 检测）、视觉多轮升级（Crescendo 从无害渐进升级、Actor attack 把恶意角色拆给虚构 agent 共同构造、Acronym 把无害缩写展开成有害含义）、视觉推理劫持（多模态触发后门、many-shot mixup 用无害样例稀释对抗输入、伪造 function-call 骗模型"执行"假函数）、视觉扰动（低层失真、jigsaw 打乱图块、多模态错位破坏图文 grounding）。关键是这些策略只是"种子"，真正威力来自下面的多步编排。

2. 推理增强的多步攻击编排：不是"选一个最好的策略"，而是组合推理

一个自然的质疑是：ARMS 会不会只是把请求路由给当前最有效的那个策略？作者用一个"暴力 oracle"做对照——对每个请求穷举所有策略、只留最高 judge 分。在 StrongReject 打 Claude-3.7 上，这个有后见之明的 oracle 只到 84.0% ASR，仍明显低于 ARMS 的 95.2%。这说明 ARMS 做的远不止路由：它利用强多模态推理，在多步中主动优化并编排策略——可以串行（一个策略的产物喂给下一个继续精炼）也可以并行地组合多种攻击，合成单个策略给不出的复合对抗样本。每一步都参考 judge 的反馈做有针对性的增强，直到攻破或耗尽预算。这种"多步推理编排"正是 ARMS 超越纯路由、也超越纯文本自动红队的核心。消融也印证了这点：禁掉推理会让 ASR 暴跌 12.3 个百分点，比去掉视觉模态（掉 3.1 pp）影响大得多。

3. 多样性增强的分层记忆 + ε-greedy 调度：用记忆结构对抗模式崩溃

为了同时要"有效"和"多样"，ARMS 维护一个按风险类别 $c_r$ × 主导攻击策略 $s_a$ 二维索引的记忆 $D=\{D[c_r,s_a]=\zeta \mid c_r\in C, s_a\in S\}$，每个槽位存一条高有害分的攻击轨迹 $\zeta$。这个二维 schema 本身就强制了风险与策略空间上的均衡分布——这是多样性的前提。记忆更新：第 $i$ 条轨迹完成后，抽取它的风险类别 $c^i_r$ 和最有效策略 $s^i_a$，放进空槽，或在已占用时只替换有害分更低的那条，从而保证记忆里始终是最有效的攻击。记忆检索：以概率 $\epsilon_i$ 不依赖记忆做探索、否则召回存储轨迹，且 $\epsilon$ 随迭代指数衰减 $$\epsilon_i = \epsilon_{min} + (\epsilon_{max}-\epsilon_{min})\cdot\exp(-\lambda\cdot(i-1)),$$ 让 ARMS 从早期广探索逐渐转向后期聚焦利用（默认 $\epsilon_{max}=1.0,\epsilon_{min}=0.1,\lambda=1.0$）。利用时按相似度取 top-$k$ 记忆，相似度同时考虑类别与 prompt 两个层面： $$\text{score}(\zeta) = \cos(\phi(c^i_r),\phi(c^\zeta_r)) + \alpha\cdot\cos(\phi(x_i),\phi(x^\zeta)),$$ 其中 $\phi$ 是 embedding 函数、$\alpha$（默认 1.2）平衡类别级与 prompt 级相似度。"类别×策略分桶 + 容量上限替换 + ε-greedy 先探索后利用"三者合起来，既防止过拟合到一两种攻击 pattern、系统性促进跨风险的多样生成，又靠"替换低分保高分"维持强有效性。

损失函数 / 训练策略¶

ARMS 本身不训练受害模型，而是用现成 LLM 做 agent 骨干（默认 GPT-4o，temperature=0.8）做推理时优化（优化预算 $T=30$，受害模型 temperature=0）。其产出被进一步用于安全对齐：基于 ARMS 发现的多样漏洞构建 ARMS-BENCH（30K 红队样本、51 风险类别，含 27,776 单轮 + 2,224 多轮 4~12 轮对话），并把原本顺从的有害回复替换成"推理增强的拒答"（拒答理由同时解释为何拒绝、违反了哪条政策），再叠加 deep safety alignment 数据增强，用于对受害 VLM 做安全微调。

实验关键数据¶

主实验¶

评测设两种设置：instance-based（StrongReject、JailbreakBench、JailbreakV 三个公开 benchmark）与 policy-based（对齐 EU AI Act、OWASP、FINRA 三套真实法规、按风险定义可控生成）。指标为攻击成功率 ASR（%），judge 用 GPT-4o；policy-based 用五点 Likert，仅当 judge 分达到上界阈值 $\tau=5$ 才算成功，评判极严。受害模型含 4 个闭源（Claude-4/3.7/3.5-Sonnet、GPT-4o）+ InternVL3 系列。

受害模型	方法	StrongReject	JailbreakBench	JailbreakV	EU AI Act	OWASP	FINRA
Claude-4-Sonnet	X-Teaming（最强基线）	57.7	26.0	35.0	40.0	13.8	33.8
Claude-4-Sonnet	ARMS	93.3	89.0	73.8	75.4	96.0	91.3
Claude-3.7-Sonnet	X-Teaming	72.1	75.0	40.0	49.2	56.0	75.0
Claude-3.7-Sonnet	ARMS	95.2	90.0	72.5	81.5	98.0	95.0
GPT-4o	X-Teaming	86.5	79.0	52.5	49.2	50.0	71.3
GPT-4o	ARMS	93.1	90.0	82.5	76.9	94.0	93.8
InternVL3-38B	X-Teaming	82.7	86.0	51.3	50.8	54.0	75.0
InternVL3-38B	ARMS	98.5	98.0	87.5	87.7	100.0	100.0

ARMS 在全部 6 个评测、5 个受害模型上都超过最强基线，平均较 X-Teaming 提升约 52.1 个百分点；把以稳健著称、constitutionally-aligned 的 Claude-4-Sonnet 在 3 个评测上攻破到 90%+ ASR。把 ASR 按 45 个风险类别细分，ARMS 在 32 个类别 ≥90% ASR 且从不低于 40%，是唯一能稳定攻破"加密破解、市场操纵、供应链攻击"等法规重点风险的方法。

多样性：以 $1-\cos(\text{CLIP}(x),\text{CLIP}(y))$ 衡量样本多样性，ARMS 均值 0.423，远高于 X-Teaming(0.216)、SI-Attack(0.294)、FigStep(0.205)，对应较 X-Teaming 约 95.83% 的多样性提升。

安全对齐 / 微调（ARMS-BENCH，ASR 越低越安全）¶

配置	ARMS-ASR↓(inst)	ARMS-ASR↓(policy)	MMMU↑	MathVista↑
InternVL3-38B 原始	98.5	87.7	63.8	71.0
++JailbreakV 微调	98.0	87.7	60.0	69.0
++ARMS-BENCH 微调	69.6	29.2	64.5	71.7

用 ARMS-BENCH 微调在"稳健 vs 效用"上取得最佳折中：把 ARMS 攻击的 ASR 从 98.5%→69.6%、policy-based 从 87.7%→29.2%，同时 MMMU/MathVista 等通用能力不降反升（JailbreakV 微调则降通用能力且防护更弱）。

消融实验¶

配置	关键指标(StrongReject vs Claude-3.7)	说明
Full ARMS	95.2% ASR	完整模型
top-$k$=0（无记忆）	89.4%	去掉记忆召回掉 5.8 pp
top-$k$=7（召回过多）	85.6%	上下文太杂反而降
w/o 视觉模态	-3.1 pp	跨模态感知有贡献
w/o 推理	-12.3 pp	多步推理是最大贡献项
$\lambda$=0（禁利用）	86.0%	ε-greedy 退化为纯探索掉 9.2 pp
骨干换 Qwen3-235B	80.6%	更强多模态骨干更有利

关键发现¶

推理 > 记忆 > 视觉：禁推理掉 12.3 pp 是最致命的，说明 ARMS 的威力主要来自多步推理编排而非单纯策略堆叠；记忆召回（k=0 掉 5.8 pp）、视觉模态（掉 3.1 pp）次之。
记忆要"少而精"：top-$k$ 在 $k=3$ 时峰值（95.2%），$k=7$ 反而降到 85.6%——召回太多历史会污染上下文。
ε-greedy 的"先探索后利用"缺一不可：$\lambda=0$（禁利用）掉到 86.0%，$\lambda=2$（衰减太慢）也变差，$\lambda=1$ 最佳。
judge 越强 ASR 越高：把 judge 从 GPT-4o 换成会推理的 o3-mini，policy-based ASR 从 76.9%→100.0%，提示更强的 judge 能识别更隐蔽的有害回复。
越大越脆：InternVL3 从 2B 到 38B，ARMS 始终 >87% ASR，且 38B 是被攻破最彻底的（多处 100%），稳健性并未随规模单调提升。

亮点与洞察¶

"风险定义 → 可控攻击生成"是首创：以往红队多是给定有害指令去攻击，ARMS 第一次做到只给一段政策/风险定义就能自动生成对应的违规攻击样本，天然对接 EU AI Act/OWASP/FINRA 这类法规评测，实用价值很高。
MCP 当攻击插件总线很聪明：把每个攻击做成 MCP server，等于给红队建了一个可热插拔的工具生态，社区贡献新攻击零成本接入——这套"agent 工具化"思路可直接迁移到防御侧或其他 agentic 评测。
"oracle 对照"实验有说服力：用穷举所有策略取最优的 oracle（84.0%）当上界来证明 ARMS（95.2%）不是简单路由而是真编排，这种证伪式实验设计值得借鉴。
记忆的二维分桶 = 把多样性写进数据结构：用"风险×策略"索引 + 替换式容量上限直接在记忆层强制覆盖均衡，比事后加多样性正则更干净，是对抗 mode collapse 的一个可复用范式。
攻防闭环：ARMS 发现漏洞 → ARMS-BENCH 收集 → 安全微调，且微调后通用能力不降，给"用红队产物反哺对齐"提供了完整且正向的样例。

局限与展望¶

依赖强商用骨干与 judge：默认用 GPT-4o 当 agent 和 judge、o3-mini 进一步提升 ASR，换成开源 Qwen3-235B 就掉到 80.6%；方法的强度部分绑定在闭源大模型上，可复现性与成本是隐忧。
judge 即天花板：ASR 高度依赖 judge 的判别力（换 judge 能从 76.9% 跳到 100%），意味着评测结论对 judge 选择敏感，跨论文比较 ASR 时要小心 judge 不一致带来的偏差。
明显的双刃剑/滥用风险：这是一套高效的多模态越狱生成器，作者也给了 warning；虽然配套了防御数据集，但攻击能力本身的开源会带来现实滥用面。
policy-based 评测随法规漂移：方法绑定具体法规版本（2024/2025），需要持续维护才能保持时效；作者承诺维护，但长期成本未知。
多样性指标偏代理：用 CLIP 余弦距离衡量多样性是 proxy，未必等同于"语义/攻击机制层面的真多样"，可能存在表面变化大、本质同质的情况。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个按风险定义可控生成的多模态红队 agent，MCP 工具化 + 风险×策略分层记忆 + 多步推理编排均有原创性
实验充分度: ⭐⭐⭐⭐⭐ 8 个受害模型 × 6 评测 + 多样性 + 安全微调 + 详尽消融，并用 oracle 证伪"只是路由"
写作质量: ⭐⭐⭐⭐ 结构清晰、动机扎实，公式与设置交代到位；个别细节（如部分消融数值）需查附录
价值: ⭐⭐⭐⭐⭐ 攻防闭环 + 法规对齐评测 + 30K 安全数据集，对 VLM 安全评测与对齐有直接且持久的实用价值