S2S-Arena: Evaluating Paralinguistic Instruction Following in Speech-to-Speech Models¶
会议: ACL2026
arXiv: 2503.05085
代码: https://github.com/FreedomIntelligence/S2S-Arena
领域: 语音交互 / Speech-to-Speech 模型 / 评测基准
关键词: 语音到语音, 副语言信息, Arena评测, Elo, 指令跟随
一句话总结¶
S2S-Arena 提出一个直接在语音模态评测 S2S 模型的 benchmark,用四级副语言交互协议、1,243 条语音样本和 1,001 次 pairwise comparison 揭示当前系统在复杂语气、情绪、说话风格和表达控制上的明显差距。
研究背景与动机¶
领域现状:LLM 推动了 speech-to-speech 系统从 ASR→LLM→TTS 级联走向更统一的语音交互模型。现有模型通常包含 speech encoder、LLM backbone 和 speech decoder,代表系统包括 GPT-4o-realtime、Qwen2.5-Omni、GLM-4-Voice、Kimi-Audio、LLaMA-Omni、Mini-Omni 等。
现有痛点:许多语音 benchmark 仍把模型输出转成文本再评测,或者只关注语音理解任务。这样会丢掉 prosody、emotion、speaker traits、speaking style 等副语言信息,而这些恰恰决定 S2S 交互是否自然、共情、符合场景。
核心矛盾:真实语音交互既要求语义正确,也要求模型能感知输入语气并在输出中表达合适语音属性。文本化评测能测语义,却难以衡量“说得是否像人、语气是否对、表达是否符合指令”。
本文目标:作者希望建立一个 speech-native benchmark,让 S2S 模型在语音输入和语音输出层面接受 pairwise comparison,系统评估语义理解和副语言表达能力。
切入角度:S2S-Arena 设计四级交互协议,从纯语义指令到完整副语言交互逐步增加难度;同时用人工 seed + speech-native self-instruction 扩展数据,并用 Gemini 2.5-Pro 作为与人类较一致的自动语音裁判。
核心 idea:把 S2S 评测从“转写文本是否答对”升级到“语音交互本身是否满足语义和副语言指令”,并用 arena Elo 排名持续比较模型。
方法详解¶
S2S-Arena 的贡献不是一个新模型,而是一个评测体系。它定义任务层级、构建语音样本、验证自动裁判,然后对多个 S2S 系统做 speech-native pairwise evaluation。
整体框架¶
数据侧,作者先设计四级 S2S interaction protocol,再在教育、娱乐、社交、医疗咨询四个领域下组织 19 个代表性任务。人工 seed 数据由脚本、配音、录音和高质量语料构成,经过四位中文母语 annotator 质检;扩展数据用 GPT-4o 生成脚本,再由 Doubao-TTS、AudioX、Parler-TTS 等可控 TTS 系统合成,最终得到 1,243 条语音样本。
评测侧,系统不把输出转写成文本,而是把 spoken instruction 和两个候选模型的 spoken response 拼成音频输入,让裁判直接比较哪一个更满足指令。评价标准包括 instruction alignment、paralinguistic expressiveness 和 output audio quality。最终用 Elo 更新模型分数。
关键设计¶
-
四级副语言交互协议:
- 功能:把 S2S 能力拆成逐步变难的四类场景,方便定位模型瓶颈。
- 核心思路:L1 只测语义指令执行;L2 要从输入语音感知年龄、情绪、风格等副语言线索并调整语义回答;L3 输入可中性,但输出必须按指令表达特定语速、情绪或风格;L4 同时要求感知输入副语言线索并生成匹配的表达。
- 设计动机:很多模型在 L1 已经表现可用,但一到 L3/L4 的 expressive generation 和 full interaction 就明显掉队。分级协议能揭示这种能力断层。
-
两阶段数据构建:
- 功能:在质量和规模之间折中,既有人工控制的高质量样本,也有自动扩展的多样任务。
- 核心思路:Seed 部分包含 293 条样本,覆盖 19 个任务;Augment 部分通过 few-shot self-instruction 生成 950 条样本,扩展到 100+ tasks。随机抽样人工验证显示 difficulty level 一致率 90%,paralinguistic consistency 一致率 93%。
- 设计动机:完全人工采集成本高,完全自动生成又可能漂移。seed + self-instruction 能保留任务结构,同时形成足够多样的语音输入。
-
语音原生 Arena 评测:
- 功能:在不依赖参考答案和文本转写的情况下比较 S2S 模型。
- 核心思路:所有模型初始 Elo 为 1000,每次 pairwise comparison 后按标准 Elo 公式更新。模型配对不是均匀采样,而是偏向中等 rating gap 的 pairs,以避免过于容易或过于微小的比较。
- 设计动机:语音生成质量常没有唯一参考答案,pairwise preference 更接近真实用户选择;Elo 也便于未来持续加入新模型。
损失函数 / 训练策略¶
本文是评测 benchmark,不训练被评测模型。自动裁判验证中,作者在 Seed 集上让 19 位人类 annotator 与 Gemini 2.5-Pro、Qwen2.5-Omni 对比,发现 Gemini 2.5-Pro 与人类一致性更高,因此用于大规模 Augment 评测。Elo 更新使用 \(K=32\),模型对局结果是严格 win/loss,不设置平局。
实验关键数据¶
主实验¶
首先验证自动裁判与人类的一致性。Gemini 2.5-Pro 明显优于 Qwen2.5-Omni,因此后续大规模排名采用 Gemini 2.5-Pro。
| 自动裁判 | Cohen's kappa | Agreement | 说明 |
|---|---|---|---|
| Gemini 2.5-Pro | 0.6553 | 82.87% | 与人类判断较一致 |
| Qwen2.5-Omni | 0.4667 | 73.15% | 一致性较低 |
作者随后对 10 个 S2S 系统进行 1,001 次 pairwise comparison。工业模型整体领先,学术模型在复杂副语言任务上差距更大。
| 模型 | Elo | Win Rate | W/L | Matches | 观察 |
|---|---|---|---|---|---|
| Qwen 2.5-Omni | 1246.1 | 59.0% | 134/93 | 227 | 总 Elo 第一 |
| GPT-4o-realtime | 1239.2 | 65.7% | 140/73 | 213 | 胜场最多,语义可靠 |
| Doubao | 1231.9 | 67.9% | 133/63 | 196 | 胜率最高,表达性强 |
| GLM-4-Voice | 1148.2 | 58.3% | 119/85 | 204 | 中上梯队 |
| FunAudioLLM | 1088.3 | 51.0% | 128/123 | 251 | 娱乐/社交场景较强 |
| Kimi-Audio | 1056.7 | 49.3% | 142/146 | 288 | 中间梯队 |
| LLaMA-Omni | 908.7 | 44.4% | 68/85 | 153 | 最接近工业模型的学术系统 |
| Mini-Omni2 | 727.4 | 33.1% | 59/119 | 178 | 复杂表达能力不足 |
| SpeechGPT | 677.1 | 27.3% | 42/112 | 154 | 排名靠后 |
| Mini-Omni | 676.4 | 26.1% | 36/102 | 138 | 排名靠后 |
消融实验¶
这篇论文没有传统模型消融,而是通过任务类别和难度层级分析系统能力差异。
| 模型 | Education | Entertainment | Medical | Social | 平均 | 结论 |
|---|---|---|---|---|---|---|
| GPT-4o-realtime | 1230.2 | 1166.8 | 1124.4 | 1056.6 | 1144.5 | 知识型任务强 |
| Doubao | 1214.5 | 1144.6 | 1055.7 | 1133.0 | 1136.9 | 表达和对话自然性强 |
| Qwen 2.5-Omni | 1096.7 | 1097.0 | 1056.0 | 1155.9 | 1101.4 | 社交场景最高 |
| FunAudioLLM | 999.3 | 1105.9 | 876.2 | 1123.3 | 1026.2 | 娱乐/社交明显好于医疗 |
| LLaMA-Omni | 922.3 | 1004.6 | 948.3 | 913.6 | 947.2 | 学术模型中较强 |
| 模型 | L1 | L2 | L3 | L4 | 平均 | 结构观察 |
|---|---|---|---|---|---|---|
| GPT-4o-realtime | 1064.4 | 1199.2 | 1241.7 | 1071.3 | 1144.2 | 高难表达任务很强 |
| Doubao | 1029.5 | 1163.7 | 1148.2 | 1205.8 | 1136.8 | L4 完整交互最强 |
| Qwen 2.5-Omni | 1072.2 | 1109.1 | 1136.2 | 1123.0 | 1110.1 | Whisper-large + flow matching 表现稳 |
| LLaMA-Omni | 977.7 | 965.2 | 920.2 | 942.4 | 951.4 | L1 尚可,L3/L4 明显落后 |
| Mini-Omni | 985.8 | 803.0 | 769.8 | 835.7 | 848.6 | 小 backbone 和小 encoder 限制副语言能力 |
关键发现¶
- 工业系统整体领先,但领先方式不同:Qwen 2.5-Omni 总 Elo 最高,GPT-4o-realtime 胜场最多,Doubao 胜率最高且在 L4 表现突出。
- 学术系统与工业系统的差距随任务难度增大而扩大。L1 基础指令跟随差距不算极端,但到 L3/L4 副语言表达和完整交互时,差距可超过 300 Elo。
- 架构因素很重要:强 backbone 有利于语义指令,Whisper-large 等更强 encoder 有利于副语言感知,flow-matching speech decoder 对 expressive generation 尤其关键。
亮点与洞察¶
- 这篇论文抓住了 S2S 评测的盲点:语音模型不是只要转写后答对,还要“以合适方式说出来”。这个转向对下一代语音助手非常关键。
- 四级协议很有诊断价值。它能区分模型是听懂了语义、听懂了情绪、能控制输出风格,还是能完成完整的副语言互动。
- Arena 形式适合开放式语音输出。很多表达质量没有唯一参考答案,pairwise preference 比 BLEU、WER 或文本 LLM judge 更贴近用户体验。
- 论文的模型分析指出了技术路线差异:语义能力、声学感知、生成解码器分别影响不同层级,这比单一排行榜更有信息量。
局限与展望¶
- 数据规模 1,243 条相对真实语音交互空间仍偏小,且扩展数据依赖高质量合成语音,可能偏向适应该分布的模型。
- 当前主要是 utterance-level 和 short-range interaction,还没有覆盖长程 persona consistency、长期情绪变化和多轮 discourse coherence。
- 自动裁判虽然与人类一致性较高,但仍可能有模型偏好、语音质量偏好或语言/口音偏差,需要持续校准。
- 语音评测涉及潜在误用和隐私风险,论文采用匿名化和受控研究设置,但未来开放 benchmark 仍需要明确数据许可和安全边界。
相关工作与启发¶
- vs Dynamic-SUPERB / AudioBench / MMAU: 这些 benchmark 重点测 speech understanding 或音频理解,S2S-Arena 同时评测语义理解和语音输出中的副语言表达。
- vs VoiceBench / SD-Eval / Voxdialogue: 这些更接近对话评测,但多依赖文本化评估;S2S-Arena 直接在 speech modality 做比较。
- vs Vstyle / AIR-Bench / Multivox: 后者开始关注 style 或语音生成,但 S2S-Arena 系统化设计 L1-L4 难度,并用 Arena/Elo 支持持续排名。
- 对模型开发的启发: 仅提升 LLM backbone 不够,S2S 系统还需要更强 speech encoder 捕捉副语言信号,以及更可控的 speech decoder 表达情绪、节奏和风格。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 核心是评测设计创新,四级副语言协议和 speech-native arena 很有针对性。
- 实验充分度: ⭐⭐⭐⭐☆ 10 个模型、1,001 次比较和多维分析较充分,但样本规模和长程交互覆盖仍有限。
- 写作质量: ⭐⭐⭐⭐☆ 结构清楚,表格信息密集;部分模型案例分析偏定性,但能帮助理解排行榜。
- 价值: ⭐⭐⭐⭐⭐ 对 S2S 模型评测非常有价值,推动社区从文本正确性走向语音交互质量和人类对齐。