跳转至

SpeakerSleuth: Can Large Audio-Language Models Judge Speaker Consistency across Multi-turn Dialogues?

会议: ACL 2026
arXiv: 2601.04029
代码: https://github.com/holi-lab/SpeakerSleuth
领域: 音频语音
关键词: 大型音频语言模型, 说话人一致性, 多轮对话, 基准测试, 模态偏差

一句话总结

SpeakerSleuth 构建了首个评估 LALM 多轮对话说话人一致性判断能力的基准(1,818 实例),系统评测 12 个 LALM 和 6 种嵌入方法后发现:模型在检测和定位声学不一致时表现挣扎,存在严重的文本优先于声学的模态偏差,但在比较/排序声学变体时表现较好。

研究背景与动机

领域现状:语音合成技术已能生成自然的人类语音,被广泛应用于语音助手、播客、电影配音和对话代理等场景。维持多轮对话中说话人身份的一致性(音色、音高、声音质量)是基本要求。

现有痛点: - 即使最新的语音合成模型也存在说话人混淆、音色漂移、声音质量变化等问题 - 现有评估方法基于嵌入模型计算成对相似度,无法整体评估整个对话的一致性,且需手动设定阈值 - LALM 虽能一次性处理整个对话直接输出判断,但其声学判别能力是否可靠完全未知

核心矛盾:LALM 理论上可以作为全面的音频-语言评判者,但缺乏系统性基准来评估其是否具备可靠的声学判别能力,尤其是在多轮对话场景下。

本文目标:构建基准系统性评估 LALM 和嵌入方法在多轮对话说话人一致性判断上的能力,揭示其优缺点和核心局限。

切入角度:设计三个递进任务——检测(是否一致)→定位(哪个轮次不一致)→判别(比较和排序变体)——全面评估不同层次的声学判别能力。

核心 idea:通过控制变量的实验设计(同一对话 × 三种场景:完全一致/性别切换/相似说话人替换),隔离声学因素进行系统评估,揭示 LALM 的模态偏差。

方法详解

整体框架

SpeakerSleuth 想回答一个此前没人系统验证过的问题:大型音频语言模型能否在多轮对话里可靠判断"声称是同一个人的发言是否声学一致"。基准从 4 个对话数据集收集多轮音频,对每段对话派生三种受控场景,再用 FreeVC 做语音转换、Qwen3-32B 自动过滤文本、人工逐条验证音频质量,最终得到 1,818 个实例;在此之上让 12 个 LALM 和 6 种嵌入方法同台跑检测、定位、判别三个递进任务,并额外注入文本上下文探测模态偏差,从而把"声学判别能力"逐层拆开测量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["4 个多轮对话数据集"] --> S1
    subgraph S1["三种受控场景(内容固定,仅改说话人身份)"]
        direction TB
        B["S1 完全一致(原始对话作正样本)"]
        C["S2 性别切换(FreeVC 替换一轮为异性)"]
        D["S3 相似说话人(替换为 ECAPA 最相似同性)"]
    end
    S1 --> E["Qwen3-32B 文本过滤 + 人工逐条验证<br/>→ 1,818 实例"]
    E --> F["12 个 LALM + 6 种嵌入方法同台评测"]
    F --> G["三级任务体系<br/>检测 → 定位 → 判别"]
    G --> H["模态偏差探针<br/>注入文本上下文,检验声学判断是否被压制"]

关键设计

1. 三种受控场景:让性能差异只反映声学

整段对话的内容、轮次和语义完全保持一致,唯一变化的是说话人身份是否被动过手脚,这样任何场景间的准确率落差都只能归因于声学判别,而非内容理解。S1(完全一致)用原始对话作正样本;S2(性别切换)随机挑一轮用语音转换替换成异性说话人,制造最明显的声学偏差;S3(相似说话人)则替换为 ECAPA-TDNN 嵌入余弦相似度最高的同性说话人,把难度推到细粒度边界。S2→S3 的难度递增天然构成一条声学敏感度梯度,能看出模型在"明显不一致"和"细微不一致"上的表现断层。

2. 三级任务体系:从粗到细对应真实 TTS 工作流

三个任务刻意对齐生成系统的实际修复链路——先检测有没有问题、再定位是哪一轮、最后重新生成并挑最优。检测是绝对判断,要求模型判断所有轮次是否同属一人,依赖一个稳定的内部阈值;定位要求精确指出哪一轮不一致,需要 turn 级别的声学区分;判别是相对比较,给定三个候选音频按声学相似度排序(含分类和排序两种形式),考察的是相对而非绝对判断。三层难度不同,能定位模型究竟卡在哪一环。

3. 模态偏差探针:暴露文本对声学的压制

实际应用里 LALM 同时拿到音频和文本,作者在主实验之外额外把其他说话人轮次的文本上下文喂给模型,观察检测性能怎么变。如果模型本该靠声学线索判断不一致,却因为文本读起来连贯就改判一致,性能就会塌方——实验里 Gemini-2.5-Flash-Lite 在性别切换场景下因此从 70.3 跌到 3.3,干净地证明了"文本优先于声学"的模态失衡。

实验关键数据

主实验(检测 - 平衡准确率)

模型 S1 Acc S2 Acc S3 Acc 平衡准确率 说明
Gemini-2.5-Pro 73.9 71.6 39.3 64.7 最强 LALM
GPT-4o-audio 72.9 32.8 29.5 52.0 检测能力弱
Pairwise (WavLM) 91.8 38.4 37.7 64.9 最强嵌入方法
Pairwise (ECAPA) 36.0 88.4 86.3 61.7 过度检测

判别任务

模型 分类准确率 NDCG@1 精确匹配 说明
Gemini-2.5-Pro 81.5 88.8 71.5 相对判断能力强
Pairwise (ECAPA) 99.2 99.6 58.6 嵌入方法排序优秀

文本上下文影响(检测)

模型 S2 Audio-only S2 +文本 Δ 说明
GPT-4o-audio 32.8 6.3 -26.5 文本严重干扰
Gemini-2.5-Flash-Lite 70.3 3.3 -67.0 几乎完全失效
Gemini-2.5-Pro 71.6 46.8 -24.8 受影响但仍有一定判别力

关键发现

  • 检测阈值不稳定:LALM 在反对角线上聚集——要么过度预测一致(如 MiniCPM-o),要么过度预测不一致(如 Qwen2.5-Omni-7B),缺乏校准的内部阈值
  • 定位能力极弱:大多数模型要么默认不标记任何轮次,要么不分青红皂白标记所有轮次(如 Gemma-3n,95% recall 但仅 19% precision)
  • 判别任务表现好:同样的模型在相对比较/排序声学变体时表现优秀(Gemini-2.5-Pro 88.8% NDCG@1),说明模型具有固有的声学判别能力,只是绝对判断不可靠
  • 严重的文本偏差:添加文本上下文后,模型优先考虑文本连贯性而忽略声学线索,即使是性别切换这种极明显的不一致也无法检测
  • 嵌入方法也有系统性偏差:ECAPA-TDNN 偏向过度检测,WavLM 偏向遗漏

亮点与洞察

  • 发现了 LALM 中"文本优先于声学"的根本性模态偏差,这一发现对构建可靠的音频-语言评判者有重要警示
  • "检测差但判别好"的反直觉发现揭示了问题本质:不是模型缺乏声学感知能力,而是缺乏可靠的内部决策阈值
  • 三种场景(一致/性别切换/相似说话人)的受控设计很精巧,干净地隔离了声学因素
  • 同时评测 LALM 和嵌入方法,提供了两类方法的公平比较和互补洞察

局限与展望

  • 基准中语音转换工具可能引入伪影,影响某些场景的自然度
  • 仅测试了英语对话数据,跨语言评估仍需进一步扩展
  • 每个目标说话人固定 5 个轮次,更长对话中的一致性评估未涉及
  • 评测集规模(1,818 实例)相对有限,统计功效可能不足以区分某些模型间的微小差异

相关工作与启发

  • vs 传统说话人验证(ECAPA-TDNN): 传统方法做成对比较,SpeakerSleuth 评估整体对话级一致性判断
  • vs LALM-as-Judge(语音质量评估): 现有 LALM 评判者主要关注单维度语音质量,SpeakerSleuth 首次评估跨轮次的说话人一致性
  • vs 说话人识别/分离: 传统任务识别"谁在说话",SpeakerSleuth 评估"声称是同一人的发言是否声学一致"

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个多轮对话说话人一致性评估基准,模态偏差的发现具有重要启示价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 12 个 LALM + 6 种嵌入方法、三级任务、文本影响分析、参考音频影响分析均全面
  • 写作质量: ⭐⭐⭐⭐ 任务设计→基准构建→实验分析的逻辑清晰,关键发现总结到位