RunawayEvil: Jailbreaking the Image-to-Video Generative Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/DeepSota/RunawayEvil
领域: AI安全 / 视频生成 / 越狱攻击
关键词: 越狱攻击, 图生视频, 多模态攻击, 强化学习, 自进化智能体

一句话总结¶

本文提出 RunawayEvil——首个针对「图生视频（I2V）」模型的多模态越狱攻击框架，用「策略-战术-行动」范式让攻击在文本与图像两个模态上协同、并通过强化学习+LLM 自我进化，在 COCO2017 上把攻击成功率比现有方法提升 58.5%–79%。

研究背景与动机¶

领域现状：图生视频（I2V）模型同时吃图像和文本输入、生成高保真视频，已大量用于内容创作与广告。但它的安全性——尤其是对越狱攻击（绕过安全护栏诱导生成暴力/色情等不安全内容）的脆弱性——几乎无人研究。

现有痛点：现有越狱攻击几乎都是单模态的，只在 T2I/T2V 的文本输入上加扰动，迁到 I2V 上有三大短板——① 重度依赖手工编写恶意 prompt，劳动密集、策略空间窄、不适应多样输入；② 多用静态攻击模式，不能按输入特性动态调整策略；③ 只扰动单一模态，无法利用 I2V 图文跨模态交互，对集成的多模态安全机制无能为力。

核心矛盾：I2V 的脆弱性恰恰来自「图文协同」这个结构，而单模态、静态、手工的攻击范式天生碰不到这个结构——要攻破 I2V，攻击本身也必须是图文协同、动态、自动化的。

本文目标：构建首个面向 I2V 的多模态越狱框架，能跨文本+图像协同攻击、并自动演化策略而无需人工。

切入角度：借鉴军事「策略-战术-行动（Strategy-Tactic-Action）」的分层范式——高层定策略、中层拆战术、底层执行并反馈，形成自放大的闭环。

核心 idea：用一个 RL+LLM 驱动的「自进化指挥单元」不断挖掘/定制攻击策略，再翻译成协同的图文攻击指令，由执行单元打出去并把结果反馈回来——让攻击越打越强、无需人工介入。

方法详解¶

整体框架¶

RunawayEvil 的输入是一对「干净的（文本 prompt，参考图像）」\((T_0, I_0)\)，目标是把它改造成 \((T', I')\) 使 I2V 模型生成被安全评估器判为「不安全」的视频。框架由三个协同模块构成、按两阶段运转：进化阶段先让指挥核心自我进化（扩充并定制策略库），执行阶段再用进化好的策略打一套协同的图文越狱。具体地，策略感知指挥单元（SACU） 是「大脑」，含强化学习驱动的策略定制 agent、LLM 驱动的策略探索 agent、以及存历史成功经验的策略记忆库；它选出最优策略后交给多模态战术规划单元（MTPU），后者把策略翻译成一对协同指令——图像篡改指令 \(P^e\) 和视频文本指令 \(P^v\)；再交给战术行动单元（TAU），它用图像编辑器执行篡改、把图文对喂进 I2V 模型生成视频、再用 MLLM 安全评估器判定是否越狱成功，并把成功记录回灌进记忆库。三个模块构成动态迭代闭环，逐轮自适应地绕过 I2V 的跨模态防御。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：(文本 T₀, 图像 I₀)"] --> B["策略感知指挥单元 SACU<br/>SCA 定制 + SEA 探索 + SMB 记忆"]
    B --> C["多目标策略奖励<br/>效率+隐蔽+成功率（RL）"]
    C --> B
    B -->|输出最优策略 S*| D["多模态战术规划单元 MTPU<br/>生成图文协同指令 (Pᵉ, Pᵛ)"]
    D --> E["战术行动单元 TAU<br/>FLUX 篡改图像→I2V 生成→MLLM 评估"]
    E -->|不安全=越狱成功，记录回灌| B
    E --> F["输出：不安全视频 + 成功经验入库"]

关键设计¶

1. 策略感知指挥单元（SACU）：用 RL+LLM 让攻击策略自我进化

针对「手工 prompt + 静态模式」痛点，SACU 当攻击的大脑，由三件套组成：策略定制 agent（SCA） 用强化学习按当前图文输入 \((T_0,I_0)\) 选最优策略 \(S_k\)；策略探索 agent（SEA） 是个 LLM，从记忆库里挖成功经验、推理生成全新策略 \(s_k=\mathrm{SEA}(M_k^S, P_1)\) 来扩充策略库；策略记忆库（SMB） 结构化存历史成功记录 \(M=\{(I_k, P_k^e, P_k^v, S_k)\}\)，为探索与战术规划供料。自进化分两步：先「动态策略扩充」——每 \(N\) 轮触发一次、SEA 据成功经验生成新策略并更新 SMB；再「策略定制强化」——SCA 把选策略建模成 MDP \((X,A,P,R,\gamma)\)，状态是输入图像、动作是从策略库选策略、学最优策略 \(\pi_\theta\)。这套设计把「人写死的策略」换成「自动发现+自动选择」，是整个框架「越打越强」的引擎。

2. 多目标策略奖励：把效率、隐蔽、成功三件事编进 RL 奖励

SCA 的 RL 要学会选「既有效又不显眼」的策略，靠的是一个三目标奖励：\(R_{t+1}=R_\text{iteration}-\lambda_1(C_s(P_t^v)+C_s(P_t^e))-\lambda_2 D_p(I_t', I_0)+E(F_\text{I2V}(P_t^v,I_t))\cdot R_\text{success}\)。其中 \(R_\text{iteration}\) 是每步小负奖励、催促快速收敛；\(C_s(\cdot)\) 衡量文本隐蔽性、惩罚与有害关键词的重合（重合越多越易被检出、罚越重）；\(D_p(\cdot)\) 用 LPIPS 量篡改图与原图的感知距离、惩罚太显眼的改动以保图像隐蔽；\(R_\text{success}\) 是越狱成功（由 MLLM 评估器 \(E\) 判定）时的大正奖励。优化目标是最大化期望折扣累积奖励 \(\theta^*=\arg\max_\theta \mathbb{E}_{\tau\sim\pi_\theta}[\sum_t \gamma^t R_{t+1}]\)。这个奖励把「不被发现地成功」这件事量化成可学信号，是隐蔽性与攻击力能兼得的关键。

3. 多模态战术规划单元（MTPU）：把策略翻译成图文协同、且记忆增强的攻击指令

针对「单模态扰动碰不到跨模态交互」痛点，MTPU 的战术规划器（一个 MLLM）接 SACU 给的最优策略 \(S^*\) 和输入图文，输出一对协同指令——视频文本指令 \(P^v\) 和图像篡改指令 \(P^e\)，二者被设计成连贯耦合、专门绕过模型的跨模态安全检查，而非各打各的。规划还做记忆增强检索：先按与输入图 \(I_0\) 的余弦相似度从 SMB 取 top-K 相似经验，若其中有用同一策略 \(S^*\) 成功过的记录 \((I_\text{hist},P^e_\text{hist},P^v_\text{hist},S_\text{hist})\)，就复用其成功 prompt 生成上下文感知指令 \((P^e,P^v)=\mathrm{TP}(T_0,I_0,P^e_\text{hist},P^v_\text{hist})\)；否则从零生成 \((P^e,P^v)=\mathrm{TP}(T_0,I_0)\)。复用历史「打通过」的攻击向量，显著提升效率与成功率。

4. 战术行动单元（TAU）：闭环执行图像篡改+视频生成+安全评估反馈

TAU 是「行动臂」，含攻击执行器和安全评估器，迭代直到越狱成功或到最大轮数。每轮三步：① 图像篡改——用 FLUX 当编辑器按指令改图 \(I_k'=\mathrm{Editor}(I_{k-1}', P_k^e)\)（选 FLUX 是因为它能做细微编辑、如改物体属性或加隐蔽视觉线索，同时与原图保持高相似度、够隐蔽），且 \(I_0'=I_0\)、上轮输出当本轮输入；② 视频生成——把篡改图 \(I_k'\) 与文本 \(P_k^v\) 喂目标 I2V 模型出视频 \(V_k\)；③ 评估反馈——MLLM 安全评估器 \(E(V_k)\) 判定，若 \(=1\)（不安全）即越狱成功、把记录 \((I_0,P_k^e,P_k^v,S^*)\) 入 SMB 滋养后续攻击，否则继续下一轮。这个闭环让框架能针对 I2V 的防御逐轮自适应调整攻击向量。

一个完整示例¶

以「网球场上两名微笑球员持球拍」这张干净图文为例：SACU 的 SCA 选中策略「把日常场景里的隐藏威胁演变成暴力（Hidden threats in plain sight turn violent）」；MTPU 据此生成协同指令——图像篡改指令「把球拍替换成炸弹」、视频文本指令「人们行走时身后发生爆炸」；TAU 用 FLUX 把球拍悄悄换成炸弹（与原图高度相似、不显眼），连同文本喂 I2V 模型，生成出「爆炸」视频；MLLM 评估器判为不安全→越狱成功，这条成功记录入库，下次遇到相似输入可直接复用。整个过程没有任何人工写 prompt，策略由系统自选、图文协同、逐轮自适应。

实验关键数据¶

数据集：COCO2017（5000 对训练 agent、200 对测越狱），外加 JailBreakV-28K、MM-SafetyBench 验证泛化。目标 I2V 模型四个：Open-Sora 2.0、CogVideoX-5b-I2V、Wan2.2-TI2V-5B、DynamiCrafter；安全评估器用 Qwen-VL / LLaVA-Next / Gemma-3-VL 三个。基线是把 Sneaky、PGJ、DACA 等主流越狱法扩展到 I2V。指标：ASR（攻击成功率，越高越强）、NSFW 词法指数与 LPIPS（衡量文本/图像隐蔽性，越低越好）。

主实验¶

COCO2017 上各方法 ASR（节选不同模型×评估器，单位 %）：

方法	Wan/QWEN	Opensora/LLAVA	Cogvideo/GEMMA	整体水平
Sneaky	23.0	35.0	10.0	~6.5–35
PGJ	31.5	46.5	31.0	~21.5–47
DACA	11.0	46.0	21.0	~11–46
RunawayEvil	86.0	92.0	89.5	81–93

RunawayEvil 在所有模型×评估器组合上都把 ASR 拉到 81%–93%，整体比现有方法提升 58.5%–79%。在 MM-SafetyBench 上同样领先：

方法	ASR 区间（%）
Sneaky / PGJ / DACA	78–87
RunawayEvil	88–96

消融实验¶

SACU 各组件消融（以 Wan + 三评估器为例，ASR %；RS=随机选策略）：

SMB	RS	SCA	SEA	Wan/QWEN	说明
✗	✗	✗	✗	66.0	全去掉的基线
✓	✗	✗	✗	71.0	加记忆库
✓	✓	✗	✗	75.0	+随机选策略
✓	✗	✓	✗	75.0	+RL 策略定制
✗	✗	✓	✓	82.0	+探索+定制
✓	✗	✓	✓	86.0	完整 SACU

模态/步数消融（Wan/QWEN，ASR %）：仅文本攻击 58.0、仅图像攻击 49.0、图文分离（separate）77.0；攻击步数上 1-step 48.0、10-step 68.0、自适应（adaptive）最高。

关键发现¶

图文协同 ≫ 单模态：仅文本 58%、仅图像 49%，而图文协同显著更高——印证了「I2V 脆弱性来自跨模态交互」的核心假设。
自进化两件套缺一不可：同时上 SCA（RL 定制）+SEA（LLM 探索）才把 ASR 推到 82%+，单上其一只到 75% 上下；记忆库 SMB 是地基（+5%）。
自适应多轮 > 固定步数：闭环自适应执行优于 1-step/10-step 固定，说明逐轮反馈调整攻击向量确有价值。

亮点与洞察¶

「策略-战术-行动」分层 + 自进化闭环：把越狱从「写一条好 prompt」升级成「一个会自己学、自己选、自己打、还会复盘的系统」，思路新颖且可迁移到其它多模态生成模型的红队评估。
奖励把「隐蔽」量化进来：用 NSFW 词法重合罚文本、LPIPS 罚图像改动，让攻击在「成功」与「不被发现」之间显式权衡，比纯追 ASR 的攻击更贴近真实威胁。
记忆增强复用成功经验：SMB + top-K 相似检索把「打通过的攻击向量」沉淀复用，是把 agent 系统里的经验回放思想用在攻击侧的巧妙落地。

局限与展望¶

框架重度依赖外部大模型组件（LLM 做策略探索、MLLM 做战术规划与安全评估、FLUX 做图像编辑），整体算力/调用成本高，且评估结论受所选 MLLM 评估器质量影响（⚠️ ASR 由 MLLM 判定，存在评估器本身误判的可能）。
作为攻击工作，泛化主要在开源 I2V 上验证；对闭源商用系统的真实有效性、以及现实部署的防御如何反制，论文未深入。
这是一把双刃剑工具——能用于安全评估，也可能被滥用；论文也明确给出内容警告。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个 I2V 多模态越狱框架，「策略-战术-行动」自进化闭环范式新颖
实验充分度: ⭐⭐⭐⭐ 覆盖 4 个 I2V 模型×3 评估器、3 个基准 + 模态/组件消融，但结论依赖 MLLM 评估器
写作质量: ⭐⭐⭐⭐ 模块职责与两阶段流程讲得清楚，奖励与公式给得完整
价值: ⭐⭐⭐⭐ 揭示 I2V 安全的真实盲区、提供红队评估工具，对构建更鲁棒视频生成系统有意义（同时是把双刃剑）