跳转至

SpeakerSleuth: Can Large Audio-Language Models Judge Speaker Consistency across Multi-turn Dialogues?

会议: ACL 2026
arXiv: 2601.04029
代码: https://github.com/holi-lab/SpeakerSleuth
领域: 音频语音
关键词: 大型音频语言模型, 说话人一致性, 多轮对话, 基准测试, 模态偏差

一句话总结

SpeakerSleuth 构建了首个评估 LALM 多轮对话说话人一致性判断能力的基准(1,818 实例),系统评测 12 个 LALM 和 6 种嵌入方法后发现:模型在检测和定位声学不一致时表现挣扎,存在严重的文本优先于声学的模态偏差,但在比较/排序声学变体时表现较好。

研究背景与动机

领域现状:语音合成技术已能生成自然的人类语音,被广泛应用于语音助手、播客、电影配音和对话代理等场景。维持多轮对话中说话人身份的一致性(音色、音高、声音质量)是基本要求。

现有痛点: - 即使最新的语音合成模型也存在说话人混淆、音色漂移、声音质量变化等问题 - 现有评估方法基于嵌入模型计算成对相似度,无法整体评估整个对话的一致性,且需手动设定阈值 - LALM 虽能一次性处理整个对话直接输出判断,但其声学判别能力是否可靠完全未知

核心矛盾:LALM 理论上可以作为全面的音频-语言评判者,但缺乏系统性基准来评估其是否具备可靠的声学判别能力,尤其是在多轮对话场景下。

本文目标:构建基准系统性评估 LALM 和嵌入方法在多轮对话说话人一致性判断上的能力,揭示其优缺点和核心局限。

切入角度:设计三个递进任务——检测(是否一致)→定位(哪个轮次不一致)→判别(比较和排序变体)——全面评估不同层次的声学判别能力。

核心 idea:通过控制变量的实验设计(同一对话 × 三种场景:完全一致/性别切换/相似说话人替换),隔离声学因素进行系统评估,揭示 LALM 的模态偏差。

方法详解

整体框架

SpeakerSleuth 基准包括:(1) 从 4 个数据集收集多轮对话音频;(2) 对每段对话生成 3 种场景(完全一致 S1、性别切换 S2、相似说话人 S3);(3) 通过人工验证确保质量;(4) 在检测、定位、判别三个任务上评测 12 个 LALM 和 6 种嵌入方法。

关键设计

  1. 三种受控场景设计:

    • 功能:通过控制变量隔离声学判别能力
    • 核心思路:
      • S1(完全一致):原始对话作为正样本
      • S2(性别切换):随机选一轮用语音转换替换为异性说话人,制造明显声学偏差
      • S3(相似说话人):替换为声学最相似的同性说话人(ECAPA-TDNN 嵌入余弦相似度最高者),测试细粒度判别能力
    • 设计动机:S1/S2/S3 使用完全相同的对话内容,性能差异直接反映声学判别能力;S2→S3 的难度递增测试模型的声学敏感度梯度
  2. 三级任务体系:

    • 功能:评估从粗到细的不同层次声学判别能力
    • 核心思路:
      • 检测(绝对判断):判断所有轮次是否属于同一说话人,需要模型有稳定的内部阈值
      • 定位(精细分析):指出具体哪个轮次不一致,需要 turn 级别的声学特征区分
      • 判别(相对比较):给定三个候选音频排序声学相似度,测试相对判断能力(分类和排序两种形式)
    • 设计动机:对应实际 TTS 工作流——先检测不一致→定位问题轮次→重新生成并选择最优
  3. 模态偏差实验(文本上下文影响):

    • 功能:揭示 LALM 在文本与声学信号间的模态失衡
    • 核心思路:在主实验基础上,额外提供其他说话人轮次的文本上下文,观察对检测性能的影响
    • 设计动机:实际应用中 LALM 同时接收音频和文本,需验证模型是否会因文本连贯性而忽略声学不一致

损失函数 / 训练策略

SpeakerSleuth 是评估基准而非训练方法。数据构建涉及:FreeVC 做语音转换 + 自动文本过滤(Qwen3-32B)+ 人工音频质量验证。

实验关键数据

主实验(检测 - 平衡准确率)

模型 S1 Acc S2 Acc S3 Acc 平衡准确率 说明
Gemini-2.5-Pro 73.9 71.6 39.3 64.7 最强 LALM
GPT-4o-audio 72.9 32.8 29.5 52.0 检测能力弱
Pairwise (WavLM) 91.8 38.4 37.7 64.9 最强嵌入方法
Pairwise (ECAPA) 36.0 88.4 86.3 61.7 过度检测

判别任务

模型 分类准确率 NDCG@1 精确匹配 说明
Gemini-2.5-Pro 81.5 88.8 71.5 相对判断能力强
Pairwise (ECAPA) 99.2 99.6 58.6 嵌入方法排序优秀

文本上下文影响(检测)

模型 S2 Audio-only S2 +文本 Δ 说明
GPT-4o-audio 32.8 6.3 -26.5 文本严重干扰
Gemini-2.5-Flash-Lite 70.3 3.3 -67.0 几乎完全失效
Gemini-2.5-Pro 71.6 46.8 -24.8 受影响但仍有一定判别力

关键发现

  • 检测阈值不稳定:LALM 在反对角线上聚集——要么过度预测一致(如 MiniCPM-o),要么过度预测不一致(如 Qwen2.5-Omni-7B),缺乏校准的内部阈值
  • 定位能力极弱:大多数模型要么默认不标记任何轮次,要么不分青红皂白标记所有轮次(如 Gemma-3n,95% recall 但仅 19% precision)
  • 判别任务表现好:同样的模型在相对比较/排序声学变体时表现优秀(Gemini-2.5-Pro 88.8% NDCG@1),说明模型具有固有的声学判别能力,只是绝对判断不可靠
  • 严重的文本偏差:添加文本上下文后,模型优先考虑文本连贯性而忽略声学线索,即使是性别切换这种极明显的不一致也无法检测
  • 嵌入方法也有系统性偏差:ECAPA-TDNN 偏向过度检测,WavLM 偏向遗漏

亮点与洞察

  • 发现了 LALM 中"文本优先于声学"的根本性模态偏差,这一发现对构建可靠的音频-语言评判者有重要警示
  • "检测差但判别好"的反直觉发现揭示了问题本质:不是模型缺乏声学感知能力,而是缺乏可靠的内部决策阈值
  • 三种场景(一致/性别切换/相似说话人)的受控设计很精巧,干净地隔离了声学因素
  • 同时评测 LALM 和嵌入方法,提供了两类方法的公平比较和互补洞察

局限与展望

  • 基准中语音转换工具可能引入伪影,影响某些场景的自然度
  • 仅测试了英语对话数据,跨语言评估待补充
  • 每个目标说话人固定 5 个轮次,更长对话中的一致性评估未涉及
  • 评测集规模(1,818 实例)相对有限,统计功效可能不足以区分某些模型间的微小差异

相关工作与启发

  • vs 传统说话人验证(ECAPA-TDNN): 传统方法做成对比较,SpeakerSleuth 评估整体对话级一致性判断
  • vs LALM-as-Judge(语音质量评估): 现有 LALM 评判者主要关注单维度语音质量,SpeakerSleuth 首次评估跨轮次的说话人一致性
  • vs 说话人识别/分离: 传统任务识别"谁在说话",SpeakerSleuth 评估"声称是同一人的发言是否声学一致"

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个多轮对话说话人一致性评估基准,模态偏差的发现具有重要启示价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 12 个 LALM + 6 种嵌入方法、三级任务、文本影响分析、参考音频影响分析均全面
  • 写作质量: ⭐⭐⭐⭐ 任务设计→基准构建→实验分析的逻辑清晰,关键发现总结到位