跳转至

Robust Multimodal Safety via Conditional Decoding

会议: ACL2026
arXiv: 2604.00310
代码: 未在论文中提供公开代码
领域: 多模态安全 / 语音语言模型 / 安全对齐
关键词: 多模态越狱防御, 条件解码, 安全注意力, Qwen2.5-Omni, CASA

一句话总结

本文提出 CASA 条件解码框架,让多模态模型在生成回答前先预测安全 token,并用安全注意力放大恶意信号,在文本、视觉和音频越狱基准上把平均攻击成功率降低 97% 以上,同时基本保持良性输入的多模态能力。

研究背景与动机

领域现状:多模态大语言模型已经能同时处理文本、图像和音频,但安全对齐往往主要来自文本侧的拒答训练。当模型接入视觉或语音编码器后,跨模态交互可能绕开原有安全边界,使文本中较稳固的对齐行为在多模态输入下退化。

现有痛点:主流做法是 supervised safety fine-tuning,即用恶意问题配拒答、良性问题配正常回答来微调模型。但这个目标把安全和效用放在同一个生成目标里竞争:拒答能力增强可能导致过度拒答,良性任务能力下降;同时不同模态又需要额外安全数据和超参搜索。

核心矛盾:模型内部其实可能已经区分了安全与不安全输入,但普通解码不会显式调用这种内部判断。恶意提示只要在长上下文、图像或音频中隐藏关键意图,就可能诱导模型绕开安全拒答。因此问题不是单纯“模型不知道危险”,而是“模型没有在生成前稳定地先做安全判别”。

本文目标:作者希望设计一种不依赖外部分类器、不增加独立安全头、不针对每种模态单独训练的机制,让模型先判断输入是否安全,再根据判断结果条件化后续生成,从而兼顾鲁棒防御和良性效用。

切入角度:作者对 Qwen2.5-Omni 的最后层表示做 PCA,发现良性与恶意查询在内部表示上有可分性。于是他们把安全判断改成生成流程的第一个 token,并设计安全注意力模块直接影响安全 token 的 logit。

核心 idea:把“拒答还是回答”从隐式生成偏好变成显式二分类 token,让后续回答条件化在安全 token 上;再用从模型内部表示计算的安全注意力强化恶意信号,使模型在多模态越狱前先被安全门控拦住。

方法详解

CASA 的设计非常简洁:它不在模型外面套一个检测器,也不训练额外的分类头,而是让原模型在每次响应开头先生成一个安全标签。这个标签不是给用户看的最终内容,而是控制后续生成轨迹的条件变量。方法的另一个关键是安全注意力模块,它只在预测安全 token 的时间步工作,用 prompt 表示和安全查询 embedding 计算一个恶意程度权重,进而缩放 safe/unsafe token 的 logit。

整体框架

训练阶段,CASA 将普通良性回答改写为 {C_safe, response},将恶意问题的拒答改写为 {C_unsafe, refusal}。这样模型不再直接在“输出正常回答”与“输出拒答”之间纠缠,而是先预测输入状态,再在该状态下生成合适文本。

推理阶段,模型在安全 token 时间步只能从 safe 和 unsafe 两个标签中选择。安全注意力模块根据 prompt hidden states 计算权重,如果输入像恶意查询,就提高 unsafe token 的 logit;如果输入像良性查询,就提高 safe token 的 logit。安全 token 生成后,后续响应自然被这个 token 条件化。

实验基座是 Qwen2.5-Omni 3B 和 7B。训练数据包含约 6.2k 恶意问题和 10k Alpaca 良性问题;评估覆盖文本越狱、视觉越狱和音频拼写攻击,并用 Claude 3.7 作为 LLM judge,同时用 13 名人工标注者验证安全与效用评价。

关键设计

  1. Classify Before You Generate:

    • 功能:把安全判断显式放在回答生成之前,避免模型一边判断风险一边组织内容。
    • 核心思路:训练目标从生成 y_respy_ref 改为生成 {C_safe, y_resp}{C_unsafe, y_ref};响应概率可写成先预测安全变量 P(y0=C|x),再生成后续 token 的乘积。
    • 设计动机:SSFT 的安全和效用目标容易竞争,而安全 token 让两者变成串行决策:先判别上下文,再按类别生成。
  2. Safety Attention 模块:

    • 功能:在安全 token 预测时放大隐藏在多模态输入中的恶意信号。
    • 核心思路:用 prompt hidden states 作为 key/value,用冻结预训练模型得到的安全 embedding 作为 query,聚合注意力得到权重 v_s;对 unsafe logit 使用 v_s 缩放,对 safe logit 使用 1-v_s 缩放。stop-gradient 让注意力模块学习区分恶意与良性,而不把梯度乱传回 prompt 表示。
    • 设计动机:越狱输入常把恶意意图藏在长上下文或音频/图像细节中,普通拒答训练可能只学到表层模板;安全注意力迫使模型在关键时间步聚焦风险线索。
  3. 安全 token 的受限解码:

    • 功能:防止模型绕开安全判别步骤。
    • 核心思路:推理时在安全 token 时间步 mask 掉词表中除 safe/unsafe 以外的 token,并用学习到的缩放因子替换对应 logit;后续正常生成不再重复计算安全注意力。
    • 设计动机:如果允许模型自由生成,它可能跳过安全标签或输出其他前缀。受限解码保证安全判断一定发生,同时只增加一次前置计算。

损失函数 / 训练策略

CASA 延续 SSFT 的良性/恶意配对训练,但把目标序列加入安全 token。训练目标中 β 控制恶意拒答与良性回答的权重。安全注意力的梯度来自 logit 缩放项,一部分训练注意力参数,一部分训练原 MLLM。作者使用 PEFT/LoRA 微调 Qwen2.5-Omni 3B 和 7B,没有引入外部检测器或模态专用安全微调。

实验关键数据

主实验

表格展示了多模态越狱攻击成功率 ASR,数值越低越好。CASA 在文本、视觉和音频攻击上都能显著降低 ASR。

模型 Safety Prompt 3B JB-Prompt 3B JBV-28k 3B MM-SB 3B AIAH 7B JB-Prompt 7B JBV-28k 7B MM-SB 7B AIAH
Pretrained 42.3 36.8 37.7 81.3 33.5 37.9 38.1 64.2
SSFT 18.4 7.9 14.9 71.0 0.0 7.5 8.8 25.0
Circuit Breaker 0.9 3.9 5.1 2.3 0.3 5.7 5.4 24.4
CASA 0.0 4.6 9.2 2.3 0.0 0.7 9.0 1.1
CASA 0.0 1.4 1.2 0.0 0.9 0.0 0.2 0.6

消融实验

配置 JBV-28k ASR MM-SB ASR AIAH ASR 说明
CASA + Safety Attention + Safety Prompt 1.4 1.2 0.0 完整配置,视觉和音频都接近完全防御
CASA + Safety Attention,无 Safety Prompt 4.6 9.1 2.3 仍明显优于无注意力版本
CASA 无 Safety Attention + Safety Prompt 8.2 18.3 60.2 音频拼写攻击尤其脆弱
CASA 无 Safety Attention,无 Safety Prompt 13.2 26.8 61.9 说明安全 token 本身不足以覆盖所有多模态攻击

关键发现

  • 在 prefill 攻击中,Pretrained 的 ASR 随 prefill 长度从 65.3 上升到 84.7,SSFT 和 Circuit Breaker 的表现波动较大,而 CASA 在 2、4、9、12 token prefill 下均为 0.0 ASR。
  • MME 效用评估中,CASA 不仅没有降低多模态能力,还在 3B 上达到 Perception 1621.23、Cognition 530.71,在 7B 上达到 Perception 1651.98、Cognition 652.85,均高于 Pretrained、SSFT 和 Circuit Breaker。
  • 人工安全评价与 Claude judge 的一致性较高:安全任务 Cohen's κ 为 0.79,人类内部 Krippendorff's α 为 0.60;效用任务 Human-LLMaJ 一致性为 0.68。
  • 安全注意力值在训练中对恶意查询趋近 1、对良性查询趋近 0,说明模块确实学到了可解释的风险门控信号。

亮点与洞察

  • CASA 的核心洞察很干净:多模态安全失败不一定是模型“完全不知道危险”,而是生成过程没有把安全判断前置。显式安全 token 是一个低成本但行为上很强的干预。
  • 方法避免了外部安全分类器的部署复杂度,也避免了每种模态都单独训练防御器。对工业多模态系统来说,这种内生式门控比串联多个外部 guard 更容易维护。
  • 安全注意力只在安全 token 时间步计算一次,抓住了“拒答行为往往集中在生成开头”的现象,既高效又符合安全对齐的机制分析。
  • 效用结果很有意思:CASA 在 MME 上优于 SSFT 和 CB,说明把安全与效用解耦后,模型不必通过牺牲正常回答能力来获得防御能力。

局限与展望

  • 论文评估了多种文本、视觉和音频越狱,但作者承认仍可能存在更复杂的攻击形式,尤其是组合式、多轮式或上下文诱导式攻击。
  • Safety Attention 对整个 prompt 做 cross-attention,长上下文下可能成为计算瓶颈;虽然只计算一次,但超长视频、长音频或多文档输入仍需进一步优化。
  • 本文的安全范围主要是显式恶意查询,对“表面安全、上下文组合后产生危害”的间接风险覆盖不足。
  • CASA 依赖模型内部表示已经包含可分的安全信号;对更弱模型、非指令模型或表示可分性较差的领域,效果可能下降。

相关工作与启发

  • vs SSFT: SSFT 通过同一个生成目标学习拒答和正常回答,容易出现安全-效用冲突;CASA 把安全判断作为第一个条件变量,降低了两个目标的竞争。
  • vs Circuit Breaker: Circuit Breaker 是强防御基线,但在部分效用和音频攻击上不稳定;CASA 的优势是安全 token 与注意力门控直接进入解码过程。
  • vs 外部安全分类器: 外部分类器需要额外部署、可能错过模型内部跨模态线索;CASA 直接使用 MLLM hidden states,更贴近模型实际生成路径。
  • 启发: 很多对齐问题可以从“回答前的显式状态变量”入手,比如事实性 token、权限 token、隐私 token。关键是让后续生成条件化在可控状态上,而不是事后过滤输出。

评分

  • 新颖性: ⭐⭐⭐⭐☆ 条件安全 token 的想法简洁有效,安全注意力把机制做实,但整体仍建立在 SSFT 和 token-level gate 之上。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖文本、视觉、音频、多种攻击、效用和人工评价,证据链很完整。
  • 写作质量: ⭐⭐⭐⭐☆ 方法解释清楚,表格信息充分;部分公式排版略密,但不影响理解。
  • 价值: ⭐⭐⭐⭐⭐ 对多模态模型安全部署很有现实意义,尤其适合不想引入外部分类器的系统。