JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=DJkQ236C8B
代码: https://github.com/sfofgalaxy/JALMBench
领域: 音频语言模型安全 / Benchmark
关键词: LALM, 越狱攻击, 音频对抗样本, 安全对齐, 模态迁移

一句话总结¶

JALMBench 构建了首个大规模、统一的大型音频语言模型（LALM）越狱评测基准——含 24.5 万条音频样本、1000+ 小时、12 个模型、8 种攻击、5 种防御——系统揭示了 LALM 在音频模态下的安全脆弱性及其与编码架构的关联。

研究背景与动机¶

领域现状：大型音频语言模型（LALM）在语音理解、口语问答、音频描述等任务上表现亮眼，但作为多模态模型同样面临越狱攻击——既可把 LLM 的文本越狱手法迁移到音频输入（text-transferred），也可直接操纵音频本身发起攻击（audio-originated）。

现有痛点：LALM 安全研究极度碎片化。各家代码实现不一致、TTS 服务查询成本高昂，导致攻击方法各自孤立开发，缺乏统一评测框架和大规模数据集，无法做公平横向对比。同期基准（Jailbreak-AudioBench、Audio Jailbreak、MULTI-AUDIOJAIL）覆盖面有限，只聚焦扰动型/多语言/口音单一维度。

核心矛盾：LALM 正快速进入真实部署，但学界既不清楚「文本侧安全对齐能否迁移到音频」，也不知道「不同音频编码架构（连续特征 vs 离散 token）如何影响安全性」，更没有任何专为 LALM 设计的防御方法。

本文目标：提供一个全面、模块化、可扩展的越狱评测基准，覆盖攻击效率、话题敏感度、语音多样性、模型架构四个分析维度，并首次评估面向 LALM 的防御策略。

核心 idea：[统一基准] 把 4 个文本越狱 + 4 个音频原生越狱 + 12 个主流 LALM + 5 种防御整合进一套标准化抽象类 API；[模态-架构归因] 通过大规模实验发现安全性由模态和编码策略共同决定——离散 tokenization 比连续特征提取更能保留文本模态固有的安全特性。

方法详解¶

整体框架¶

JALMBench 不是提出新攻击，而是一个模块化评测管线：从 4 个文本越狱基准（AdvBench、JailbreakBench、MM-SafetyBench、HarmBench）筛出 246 条去重有害查询作为种子，经 TTS 与各类攻击算法扩展成三大数据子集，再灌入 12 个 LALM 跑攻击/防御评估，最后用 LLM-as-a-judge 统一打分。

flowchart LR
    A[4 个文本有害基准] --> B[筛选去重<br/>246 条 THarm]
    B --> C[Harmful Query<br/>原始+TTS+多样性变体]
    B --> D[Text-Transferred<br/>ICA/DAN/DI/PAP]
    B --> E[Audio-Originated<br/>SSJ/AMSE/BoN/AdvWave]
    C & D & E --> F[12 个 LALM]
    F --> G[5 种防御<br/>prompt/response 级]
    G --> H[GPT-4o LLM-as-judge<br/>5 分制 ASR]

关键设计¶

1. 三层数据集构造：从有害种子到 24.5 万音频样本 —— 全部数据从 246 条精选有害查询 THarm 出发分三类扩展。第一类 Harmful Query 是 vanilla 有害查询及其音频对应物 AHarm（Google TTS，en-US 中性嗓音），并额外生成多样性变体 ADiv（9 种语言、2 种性别嗓音、3 种口音、3 种 TTS 方法，外加真人录音）以拆解语音因素对安全的影响。第二类 Text-Transferred 对 THarm 施加 4 种文本越狱（ICA 上下文示例注入、DAN 角色扮演模板、DI 直接注入、PAP 每条生成 40 个劝说变体），共 11,070 条文本及其 TTS 音频。第三类 Audio-Originated 用 4 种专攻 LALM 的攻击（SSJ 文本-音频信息分离、AMSE 6 种音频编辑、BoN 每样本 600 变体、AdvWave 对抗优化）生成 229,857 条音频。

2. text-transferred 与 audio-originated 的攻击二分法 —— 基准刻意区分两类威胁面。文本迁移攻击复用 LLM 越狱思路，验证「文本侧攻击在音频通道还灵不灵」；音频原生攻击（如 BoN 加背景噪声、AMSE 调语速语调、AdvWave 黑盒对抗优化）直接利用音频模态独有的扰动空间。这种二分让基准能定量回答「相比文本，音频模态额外引入了多少脆弱性」——结果显示音频原生攻击普遍 ASR 更高，AdvWave 近乎完美（平均 ASR 提升达 97%）。

3. 基于编码策略的架构归因分析 —— 12 个模型按音频编码方式分两组：连续特征提取组（SALMONN、Qwen2-Audio、DiVA 等，用 Whisper 类编码器把音频映射为连续向量再与文本 embedding 拼接）与离散 token 组（SpeechGPT、Spirit LM、GLM-4-Voice，用 HuBERT/GLM-Tokenizer 把音频离散化成 token）。核心发现：编码策略从根本上决定系统安全属性——离散 tokenization 比连续特征提取更能保留文本模态固有的安全特性，因为离散 token 更接近文本 token 的对齐空间，文本侧安全对齐更易迁移；而交错（interleaved）音频-文本策略能带来更鲁棒的跨模态泛化。

4. 统一 LLM-as-a-judge 评测协议 —— 用 GPT-4o-2024-11-20 对响应在 1（最安全）到 5（最不安全）的 5 分制上打分，得分 ≥4 判定越狱成功，ASR 为成功率。可靠性经严格验证：三次重复采样仅 0.83% 不一致、与贪心解码 0.46% 分歧、跨模型 Krippendorff's \(\alpha=0.913\)、180 样本人工核对 Cohen's \(\kappa=0.97\)、误报率仅 1.7%。

实验关键数据¶

主实验¶

设置	关键指标
非对抗有害查询（音频模态平均 ASR）	21.5%
非对抗有害查询（文本模态平均 ASR）	17.0%
最强攻击 AdvWave	ASR 96.2%（近乎完美）
PAP（最通用文本攻击）	多数模型 >90%
鲁棒性最强模型	GPT-4o-Audio、DiVA
最脆弱模型	VITA-1.0、LLaMA-Omni

防御实验¶

防御层级	最佳方法平均 ASR 降幅	备注
Prompt 级	−19.6 个百分点	伴随明显效用下降（安全-效用权衡）
Response 级	−18.0 个百分点	效用影响较小
通用防御整体	仅 ~11.3% 改善	通用 moderation 收效有限

关键发现¶

音频比文本更危险：多数模型在音频模态下 ASR 更高，部分因音频侧安全对齐不足（如 LLaMA-Omni、VITA-1.0）。
低成本可行性：ASR>60% 通常需 ≥100 秒处理，但仅 10 秒就能达到约 40% ASR，凸显现实低成本攻击的可行性。
话题敏感度不均：LALM 较能拒绝露骨仇恨内容，却对错误信息（misinformation）等微妙类别脆弱。
口音影响安全：非美式口音倾向提高 ASR，可能源于训练数据中代表性不足。

亮点与洞察¶

规模与统一性：24.5 万音频样本 / 1000+ 小时是同类基准的数量级飞跃，且首次把 LLM 迁移攻击与 LALM 原生攻击、文本/音频防御都纳入同一框架公平对比。
架构-安全因果洞察：把脆弱性归因到「连续特征 vs 离散 token」编码策略，给「为什么有的 LALM 更安全」提供了机理级解释，而非停留在排行榜。
可扩展工程设计：用户只需实现抽象类即可接入新模型/数据/防御，降低后续研究复现门槛。
防御现状的清醒结论：现有通用 moderation 只能小幅改善（~11.3%），明确指出音频模态专用防御仍是空白。

局限与展望¶

不提新攻防方法：定位是基准与分析，攻击和防御均复用既有方法，未提出 LALM 专用防御（作者也将此列为未来方向）。
TTS 合成偏差：大量音频由 Google TTS 等合成，真人语音子集有限，合成语音与真实攻击场景可能存在分布差异。
闭源模型黑盒限制：GPT-4o-Audio、Gemini-2.0 等只能黑盒评估，架构归因结论主要建立在开源模型上。
判官单点依赖：ASR 依赖 GPT-4o 单一判官，虽有可靠性验证，但仍受判官自身偏差影响。

评分¶

新颖性: ⭐⭐⭐⭐ 不在攻击方法上创新，而在「首个大规模统一 LALM 越狱基准 + 架构级安全归因」这一系统性贡献，填补明确空白。
实验充分度: ⭐⭐⭐⭐⭐ 12 模型 × 8 攻击 × 5 防御，24.5 万样本，外加效率/话题/语音/架构四维分析与严格判官可靠性验证，覆盖极全面。
写作质量: ⭐⭐⭐⭐ 结构清晰、图表与数据支撑充分，结论提炼到位；攻击/防御细节较多需对照附录。
价值: ⭐⭐⭐⭐⭐ 为 LALM 安全研究提供了急需的统一评测底座与可扩展工程框架，架构-安全洞察对后续模型设计有长期参考价值。