SpeakerSleuth: Can Large Audio-Language Models Judge Speaker Consistency across Multi-turn Dialogues?¶

会议: ACL 2026
arXiv: 2601.04029
代码: https://github.com/holi-lab/SpeakerSleuth
领域: 音频语音
关键词: 大型音频语言模型, 说话人一致性, 多轮对话, 基准测试, 模态偏差

一句话总结¶

SpeakerSleuth 构建了首个评估 LALM 多轮对话说话人一致性判断能力的基准（1,818 实例），系统评测 12 个 LALM 和 6 种嵌入方法后发现：模型在检测和定位声学不一致时表现挣扎，存在严重的文本优先于声学的模态偏差，但在比较/排序声学变体时表现较好。

研究背景与动机¶

领域现状：语音合成技术已能生成自然的人类语音，被广泛应用于语音助手、播客、电影配音和对话代理等场景。维持多轮对话中说话人身份的一致性（音色、音高、声音质量）是基本要求。

现有痛点： - 即使最新的语音合成模型也存在说话人混淆、音色漂移、声音质量变化等问题 - 现有评估方法基于嵌入模型计算成对相似度，无法整体评估整个对话的一致性，且需手动设定阈值 - LALM 虽能一次性处理整个对话直接输出判断，但其声学判别能力是否可靠完全未知

核心矛盾：LALM 理论上可以作为全面的音频-语言评判者，但缺乏系统性基准来评估其是否具备可靠的声学判别能力，尤其是在多轮对话场景下。

本文目标：构建基准系统性评估 LALM 和嵌入方法在多轮对话说话人一致性判断上的能力，揭示其优缺点和核心局限。

切入角度：设计三个递进任务——检测（是否一致）→定位（哪个轮次不一致）→判别（比较和排序变体）——全面评估不同层次的声学判别能力。

核心 idea：通过控制变量的实验设计（同一对话 × 三种场景：完全一致/性别切换/相似说话人替换），隔离声学因素进行系统评估，揭示 LALM 的模态偏差。

方法详解¶

整体框架¶

SpeakerSleuth 基准包括：(1) 从 4 个数据集收集多轮对话音频；(2) 对每段对话生成 3 种场景（完全一致 S1、性别切换 S2、相似说话人 S3）；(3) 通过人工验证确保质量；(4) 在检测、定位、判别三个任务上评测 12 个 LALM 和 6 种嵌入方法。

关键设计¶

三种受控场景设计:
- 功能：通过控制变量隔离声学判别能力
- 核心思路：
  - S1（完全一致）：原始对话作为正样本
  - S2（性别切换）：随机选一轮用语音转换替换为异性说话人，制造明显声学偏差
  - S3（相似说话人）：替换为声学最相似的同性说话人（ECAPA-TDNN 嵌入余弦相似度最高者），测试细粒度判别能力
- 设计动机：S1/S2/S3 使用完全相同的对话内容，性能差异直接反映声学判别能力；S2→S3 的难度递增测试模型的声学敏感度梯度
三级任务体系:
- 功能：评估从粗到细的不同层次声学判别能力
- 核心思路：
  - 检测（绝对判断）：判断所有轮次是否属于同一说话人，需要模型有稳定的内部阈值
  - 定位（精细分析）：指出具体哪个轮次不一致，需要 turn 级别的声学特征区分
  - 判别（相对比较）：给定三个候选音频排序声学相似度，测试相对判断能力（分类和排序两种形式）
- 设计动机：对应实际 TTS 工作流——先检测不一致→定位问题轮次→重新生成并选择最优
模态偏差实验（文本上下文影响）:
- 功能：揭示 LALM 在文本与声学信号间的模态失衡
- 核心思路：在主实验基础上，额外提供其他说话人轮次的文本上下文，观察对检测性能的影响
- 设计动机：实际应用中 LALM 同时接收音频和文本，需验证模型是否会因文本连贯性而忽略声学不一致

损失函数 / 训练策略¶

SpeakerSleuth 是评估基准而非训练方法。数据构建涉及：FreeVC 做语音转换 + 自动文本过滤（Qwen3-32B）+ 人工音频质量验证。

实验关键数据¶

主实验（检测 - 平衡准确率）¶

模型	S1 Acc	S2 Acc	S3 Acc	平衡准确率	说明
Gemini-2.5-Pro	73.9	71.6	39.3	64.7	最强 LALM
GPT-4o-audio	72.9	32.8	29.5	52.0	检测能力弱
Pairwise (WavLM)	91.8	38.4	37.7	64.9	最强嵌入方法
Pairwise (ECAPA)	36.0	88.4	86.3	61.7	过度检测

判别任务¶

模型	分类准确率	NDCG@1	精确匹配	说明
Gemini-2.5-Pro	81.5	88.8	71.5	相对判断能力强
Pairwise (ECAPA)	99.2	99.6	58.6	嵌入方法排序优秀

文本上下文影响（检测）¶

模型	S2 Audio-only	S2 +文本	Δ	说明
GPT-4o-audio	32.8	6.3	-26.5	文本严重干扰
Gemini-2.5-Flash-Lite	70.3	3.3	-67.0	几乎完全失效
Gemini-2.5-Pro	71.6	46.8	-24.8	受影响但仍有一定判别力

关键发现¶

检测阈值不稳定：LALM 在反对角线上聚集——要么过度预测一致（如 MiniCPM-o），要么过度预测不一致（如 Qwen2.5-Omni-7B），缺乏校准的内部阈值
定位能力极弱：大多数模型要么默认不标记任何轮次，要么不分青红皂白标记所有轮次（如 Gemma-3n，95% recall 但仅 19% precision）
判别任务表现好：同样的模型在相对比较/排序声学变体时表现优秀（Gemini-2.5-Pro 88.8% NDCG@1），说明模型具有固有的声学判别能力，只是绝对判断不可靠
严重的文本偏差：添加文本上下文后，模型优先考虑文本连贯性而忽略声学线索，即使是性别切换这种极明显的不一致也无法检测
嵌入方法也有系统性偏差：ECAPA-TDNN 偏向过度检测，WavLM 偏向遗漏

亮点与洞察¶

发现了 LALM 中"文本优先于声学"的根本性模态偏差，这一发现对构建可靠的音频-语言评判者有重要警示
"检测差但判别好"的反直觉发现揭示了问题本质：不是模型缺乏声学感知能力，而是缺乏可靠的内部决策阈值
三种场景（一致/性别切换/相似说话人）的受控设计很精巧，干净地隔离了声学因素
同时评测 LALM 和嵌入方法，提供了两类方法的公平比较和互补洞察

局限与展望¶

基准中语音转换工具可能引入伪影，影响某些场景的自然度
仅测试了英语对话数据，跨语言评估待补充
每个目标说话人固定 5 个轮次，更长对话中的一致性评估未涉及
评测集规模（1,818 实例）相对有限，统计功效可能不足以区分某些模型间的微小差异

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个多轮对话说话人一致性评估基准，模态偏差的发现具有重要启示价值
实验充分度: ⭐⭐⭐⭐⭐ 12 个 LALM + 6 种嵌入方法、三级任务、文本影响分析、参考音频影响分析均全面
写作质量: ⭐⭐⭐⭐ 任务设计→基准构建→实验分析的逻辑清晰，关键发现总结到位