跳转至

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=I9ED9VWZq6
代码: https://github.com/AmphionTeam/SpeechJudge
领域: 语音合成 / 奖励模型 / 人类偏好对齐
关键词: 语音自然度、人类偏好数据集、生成式奖励模型、GRPO、AudioLLM

一句话总结

为了给语音合成补上"大规模自然度人类偏好语料"这块缺失的拼图,本文一次性放出数据集(99K 偏好对)、评测基准(1000 条高一致性样本)和奖励模型三件套,并用"SFT 冷启动 + GRPO 强化"两阶段把 Qwen2.5-Omni-7B 训成生成式奖励模型 SpeechJudge-GRM,在判别语音哪个更自然这个任务上达到 77.2%(推理时投票后 79.4%)准确率,显著超过经典 Bradley-Terry 奖励模型(72.7%)。

研究背景与动机

领域现状:文本、图像、视频生成早就有了 Pick-a-Pic、ImageReward、VideoReward 这类大规模人类偏好语料,配合 RLHF/奖励模型把生成模型对齐到人的口味。语音合成里,"自然度(naturalness)"一直是衡量质量最核心、最通用的主观指标,但偏好数据这一环却一直缺位。

现有痛点:语音领域已有的人类反馈语料要么是早期的 MOS 数据集(用的 TTS 模型老旧、只有逐条打分而非成对偏好、规模小),要么聚焦在某个狭窄属性上——低层声学质量、可懂度(intelligibility)、口语对话的指令遵循等。真正围绕"整体自然度"建立的大规模成对偏好语料,以及据此训练的奖励模型,几乎是空白。

核心矛盾:没有人类偏好语料,就无法训练真正贴合人耳感知的自动评判器;而现成的客观指标(WER、SIM、FAD)和 MOS 预测器(UTMOS、DNSMOS)跟人类偏好只有弱相关,面对当代先进 TTS 模型生成的两条语音,常常只有 50%~60% 的判对率,接近瞎猜。即便是最强的 AudioLLM——Gemini-2.5-Flash——和人类的一致率也不到 70%。自动评判语音自然度,还远没到能用的水平。

本文目标:把这个缺口一次补齐,拆成三个子问题——(1) 造一个大规模、成对、覆盖多模型多语种多风格的自然度偏好数据集;(2) 从中筛出高质量子集做成一个有区分度的评测基准,量化现有方法到底差多少;(3) 训一个真正能逼近人类判断的奖励模型。

切入角度:作者观察到,虽然现成 AudioLLM 零样本判自然度只有 60% 出头,但它们已经展现出"显著潜力"(远好于客观指标的随机水平),说明 AudioLLM 内在的音频理解能力是有的,缺的是被"激发(elicit)"出来对齐人类偏好的判断能力。

核心 idea:用"自建的 99K 人类偏好数据"把一个通用 AudioLLM 后训练成生成式奖励模型(GRM)——先用强教师模型的思维链做 SFT 冷启动,再把人类标签当作可验证奖励、对教师都判错的难例做 GRPO 强化,从而让模型既能给出判断又能给出可解释的推理,还支持推理时投票放大。

方法详解

整体框架

SpeechJudge 是"数据集 → 基准 → 奖励模型"三位一体的工程。先用 6 个不同架构的零样本 TTS 模型在多语种、常规/富表现力两种风格下合成语音对,招募 69 名标注员花两个月做"可懂度逐条标 + 自然度成对标",得到 99K 偏好对(SpeechJudge-Data);再从中筛出标注员高度一致的 1000 条做成评测基准(SpeechJudge-Eval),系统性地把客观指标、MOS 预测器、Deepfake 检测器、各路 AudioLLM 拉出来遛一遍,证明这个任务有多难;最后把人类偏好喂给一个两阶段后训练流程,把 Qwen2.5-Omni-7B 炼成生成式奖励模型 SpeechJudge-GRM。奖励模型本身的训练是核心 pipeline:教师模型 Gemini-2.5-Flash 给每条样本生成思维链,按"教师判断是否和人类一致"把数据劈成两半——一致的拿去 SFT 冷启动,不一致的(难例)留给 GRPO 强化,用人类标签做可验证奖励。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["6 个 TTS 模型<br/>多语种 / 常规+富表现力"] --> B["数据集构建<br/>69 标注员 → 99K 成对偏好"]
    B --> C["评测基准<br/>筛全一致样本 → 1000 条"]
    B --> D["教师生成思维链<br/>Gemini-2.5-Flash 出 CoT"]
    D -->|教师与人类一致| E["SFT 冷启动<br/>学指令遵循+推理"]
    D -->|教师判错的难例| F["GRPO 强化<br/>人类标签作可验证奖励"]
    E --> F
    F --> G["SpeechJudge-GRM<br/>判断+推理+投票放大"]
    C -.评测.-> G

关键设计

1. SpeechJudge-Data:用多样化合成 + 成对人标,造出 99K 自然度偏好语料

针对"语音领域根本没有大规模成对自然度偏好数据"这个空白,作者把数据多样性做到了极致。合成端选了 6 个覆盖三种架构的零样本 TTS 模型——自回归类(ARS、CosyVoice2、CosyVoice2-INTP、Ints-INTP)、流匹配类(F5-TTS)、掩码生成类(MaskGCT),让被比较的语音对在"生成器画风"上充分铺开;参考语音同时取常规(Emilia-Large)和富表现力(情感、口音、耳语、游戏角色音)两类;目标文本覆盖中、英、中英混合,并设计单语(en2en、zh2zh)与跨语(zh2en、en2zh 等)两种合成场景。语音对既有同模型内(intra-model)也有跨模型(inter-model)配对。标注上,给定一个三元组 \((t, a_1, a_2)\),标注员做两件事:对可懂度做二分类(语音是否准确读出文本、有无增删错读),对自然度做五档 CMOS(Comparative MOS)成对打分判哪个更像真人。每条样本平均 2.49 人标,分歧时引入第三人。最终 99K 对,市场价值估算超 50 万人民币——这个规模和成对偏好的形式,正是过去 MOS 数据集所不具备的。

2. SpeechJudge-Eval:用"全员一致"筛出高质量地面真值,暴露现有方法的天花板

光有数据还不够,评测基准必须"干净"才有说服力。作者把任务收敛成最朴素的形式——给定文本 \(t\) 和一对语音 \((a_1, a_2)\),判哪个更自然,是个"赢/输"二分类,准确率定义为 \(\text{Accuracy} = \frac{1}{|D|}\sum_{d} \mathbb{I}(y_M = y_H)\),其中 \(y_M\)\(y_H\) 分别是模型和人类的答案。为保证地面真值可靠,作者先剔除带"Tie"的样本,再只保留标注全员一致(Full Agreement)的样本,按风格(常规/富表现力)和三种语言比例采样,最终凑成 1000 条。把这把尺子架上去后结论很扎心:客观指标和 MOS 预测器普遍不到 60%、时常接近瞎猜;Deepfake 检测器擅长辨"机器 vs 真人",但比较两条都由机器生成的语音时与自然度目标不对齐;AudioLLM 是最有希望的一档,多个模型能超过 60%,但最强的 Gemini-2.5-Flash 总体也只有 69.1%。这张"难度地图"既论证了任务价值,也直接为下一步选教师模型(Gemini-2.5-Flash)提供了依据。

3. 两阶段后训练(SFT 冷启动 + GRPO 强化):把通用 AudioLLM 炼成生成式奖励模型

作者最初想直接对 Qwen2.5-Omni 做 RLVR(用人类偏好当可验证奖励的强化学习),但发现它的指令遵循和推理能力太弱,冷启动不动,于是改成"SFT + RL"两阶段(基于 Qwen2.5-Omni-7B 的 Thinker,LoRA 微调)。SFT 阶段用 Gemini-2.5-Flash 当教师:对每条样本用 CoT 提示 \(I_{CoT}\) 生成带推理的输出 \(O_{teacher}\),从中解析出偏好 \(y_M\)。若教师和人类一致(\(y_M = y_H\)),就把 \([I_{CoT}, O_{teacher}]\) 拼成一条 SFT 样本(只对 \(O_{teacher}\) 段做下一 token 预测),教模型"怎么有条理地说出判断理由";若教师判错,这条样本被定义为难例,留给 RL 阶段。RL 阶段把人类偏好当可验证奖励,在 SFT 模型基础上跑 GRPO:对每条难例让策略模型多次 rollout,第 \(i\) 次解析出偏好 \(y_M^i\),按规则给奖励——\(y_M^i = y_H\)\(+1\),否则 \(-1\),只约束最终判断对齐人类、放手让模型自行优化推理过程。这样设计的妙处在于"分工明确":教师能教会的简单样本走模仿学习,教师都搞不定的难例走强化学习,正好把训练资源压在最有价值的边界上。由于 GRM 是生成式的,推理时还能多次采样做多数投票(Voting@10)进一步抬准确率,这是只输出一个标量的 BTRM 给不了的。

损失函数 / 训练策略

SFT 阶段是标准的下一 token 预测,但只在教师输出段 \(O_{teacher}\) 上计算损失。RL 阶段用 GRPO,奖励为规则化的 \(r = +1\,(y_M^i = y_H)\)\(-1\,(\text{否则})\)。训练数据 SpeechJudge-Data (train) 的构造:先剔除全分歧(FD)样本,对 FA/WA/WD 三档用标注员多数投票定标签,再排除"Tie",只留偏好数据。SFT 与 RL 两阶段均用 LoRA 微调。基线 SpeechJudge-BTRM 则在同一个 Qwen2.5-Omni-7B 上加一层线性输出标量奖励,用同样的数据和 LoRA 训练,作为公平对照。

实验关键数据

主实验:现有方法在 SpeechJudge-Eval 上的表现(节选)

类别 模型 常规 富表现力 总体
客观指标 WER 59.3 57.0 57.9
客观指标 SIM 47.5 42.5 44.5
MOS 预测器 UTMOS 54.0 53.5 53.7
Deepfake AASIST 40.5 50.8 46.7
开源 AudioLLM Kimi-Audio-7B 65.5 68.0 67.0
闭源 AudioLLM GPT-4o Audio 71.5 64.7 67.4
闭源 AudioLLM Gemini-2.5-Flash 73.5 66.2 69.1

最强模型 Gemini-2.5-Flash 总体也只有 69.1%,与人类一致率不到 70%;客观指标/MOS 预测器普遍接近随机猜测。

奖励模型对比

模型 常规 富表现力 总体
Qwen2.5-Omni-7B(零样本) 62.0 59.7 60.6
Gemini-2.5-Flash(教师) 73.5 66.2 69.1
SpeechJudge-BTRM 77.5 69.5 72.7
SpeechJudge-GRM (SFT) 77.8 73.7 75.3
  w/ Voting@10 77.4 77.6 77.6
SpeechJudge-GRM (SFT+RL) 79.0 76.0 77.2
  w/ Voting@10 80.5 78.7 79.4

消融与下游验证

配置 关键指标 说明
BTRM vs GRM(SFT) 72.7 → 75.3 换成生成式 + CoT,总体 +2.6
GRM(SFT) → (SFT+RL) 75.3 → 77.2 难例上 GRPO 强化再 +1.9
单次 → Voting@10 +约 2 个百分点 生成式特性带来的推理时放大
TTS 后训练 w/ GRM(online) N-CMOS 0.25 当作在线 DPO 奖励,自然度提升最大

关键发现

  • 生成式 + 强化各贡献一截:从 BTRM 的 72.7% 到 GRM(SFT) 的 75.3%(生成式 CoT 贡献),再到 SFT+RL 的 77.2%(难例 GRPO 贡献),两步叠加共 +4.5 个百分点,且富表现力子集涨幅更明显(69.5→76.0)。
  • 推理时投票几乎免费涨点:Voting@10 把 SFT 模型从 75.3% 抬到 77.6%、把 SFT+RL 从 77.2% 抬到 79.4%,这是标量 BTRM 结构上做不到的。
  • 能当奖励函数真正改善 TTS:把 GRM 作为在线 DPO 奖励后训练一个全新的 Qwen2.5-0.5B-TTS(未参与建数据),自然度 N-CMOS 达到 0.25(最高),且说话人相似度不降反略升,证明它不只是"会评判",还能"驱动生成变好"。
  • 富表现力语音更难:无论人类标注一致率还是模型判别准确率,富表现力子集都明显低于常规子集,说明带情感/口音/耳语的语音评判本质上更难。

亮点与洞察

  • "教师对/错"天然劈数据:用教师模型判断是否与人类一致,把数据自动切成"能模仿的简单样本(SFT)"和"要强化的难例(RL)",省去了人工划难度,且让强化学习的算力精准压在边界上——这个思路可迁移到任何"有强教师 + 有人类地面真值"的偏好建模任务。
  • 生成式奖励模型的两个额外红利:相比只吐标量的 BTRM,GRM 既给可解释的 CoT,又能靠推理时多数投票几乎免费抬准确率,把"评判质量"变成了可以用算力换的量。
  • 基准的"全员一致"过滤很关键:只保留标注全一致样本作地面真值,让 1000 条基准既干净又有区分度,直接把"现有方法到底差多少"量化得明明白白,是这类评测可信度的核心 trick。
  • 从评判到生成闭环:把奖励模型回插进 TTS 后训练(离线/在线 DPO),证明"判得准"能转化成"生成得更自然",让这套数据-基准-奖励真正形成对齐闭环。

局限与展望

  • 只聚焦自然度单一维度:可懂度虽也标了,但奖励模型主攻自然度;多维度(韵律、情感保真、说话人一致等)联合建模尚未展开。
  • 依赖强闭源教师:SFT 冷启动重度依赖 Gemini-2.5-Flash 生成 CoT,教师的偏见/盲区可能被继承,且复现成本和可得性受限。
  • 数据偏向中英:语种集中在中、英及中英混合,对其他语言/方言的泛化未验证。
  • 下游 TTS 验证规模有限:后训练实验只在一个 0.5B 小模型上做,能否扩展到更大、更强的 TTS 仍待观察。
  • 改进思路:把可懂度与自然度做成多目标奖励、用开源教师替代闭源、引入更多语种与副语言风格、在更大 TTS 上验证在线 DPO 的稳定性。

相关工作与启发

  • vs MOS 数据集(UTMOS/DNSMOS 训练语料): 它们用老旧 TTS、只给逐条标量分、规模小;本文用 6 个先进 TTS、给成对偏好、99K 规模,且实测这些 MOS 预测器在新基准上接近随机猜测,说明旧范式跟不上当代生成模型。
  • vs AudioJudge(并行工作): AudioJudge 用提示工程评估 AudioLLM 当评判器的能力与局限;本文不止评估,而是真正后训练出一个对齐人类的奖励模型,并把它用作 TTS 后训练的奖励函数。
  • vs SpeechJudge-BTRM(自身基线): BTRM 在同一底座加线性层输出标量奖励,72.7%;GRM 改成生成式 + CoT + 难例 GRPO,77.2%(投票 79.4%),且支持解释与推理时放大——直接论证了"生成式奖励模型 > 经典 Bradley-Terry"在语音自然度上的优势。
  • vs 文本/图像 RLHF(ImageReward、Pick-a-Pic 等): 把成熟的"人类偏好语料 + 奖励模型 + RLVR"范式系统性移植到语音合成,填上了这条赛道长期缺失的偏好数据拼图。

评分

  • 新颖性: ⭐⭐⭐⭐ 不是发明新算法,而是补齐语音自然度偏好数据这块空白并配套基准+奖励模型,"系统性填空"价值很高
  • 实验充分度: ⭐⭐⭐⭐⭐ 横扫四类现有方法做基准、奖励模型逐阶段消融、再到下游 TTS 后训练闭环验证,链条完整
  • 写作质量: ⭐⭐⭐⭐ 三件套动机清晰、表格扎实,难例划分与两阶段逻辑讲得透
  • 价值: ⭐⭐⭐⭐⭐ 数据集/基准/模型全开源,对语音合成对齐研究是直接可用的基础设施