Finding A Voice: Exploring the Potential of African American Dialect and Voice Generation for Chatbots¶
会议: ACL 2025
arXiv: 2501.03441
代码: https://github.com/emorynlp/AAVE-Chat
领域: 音频与语音 / 对话系统
关键词: 语音对话, 方言生成, 聊天机器人, 个性化, 非裔美式英语
一句话总结¶
对文本和语音两种模态下将非裔美式英语(AAE)融入聊天机器人进行系统研究,发现文本AAE反而损害用户体验,但配合非裔口音的语音机器人受到AAE使用者青睐,揭示了语言个性化中模态选择的关键作用。
研究背景与动机¶
领域现状:聊天机器人个性化是提升用户信任和参与度的关键方向。视觉相似性(头像肤色匹配)已被证明有效,语言相似性(代码切换、多语言)也有初步探索,但方言层面的个性化研究极其稀缺。
现有痛点: - 约 80% 的非裔美国人日常使用 AAE,但现有聊天机器人完全基于标准美式英语(SAE),造成语言代表性缺失 - AAE 在 NLP 中长期被边缘化(Twitter UD 解析、ASR 歧视等),技术偏见打击社区信任 - 已有 AAE 生成研究仅限于 tweet 风格文本,未探索多轮对话场景 - 口音对用户感知的影响在本族群体中几乎未被研究
核心矛盾:直觉上语言相似性应提升亲和力,但已有文本 AAE 研究结果喜忧参半——方言强度、模态(文本 vs 语音)、口音三者的交互效应不明
本文目标 (1) 系统评估 LLM 生成不同强度 AAE 文本的能力 (2) 比较文本和语音模态下 AAE 对用户体验的影响 (3) 探索非裔口音与方言强度的最优组合
切入角度:将方言表达和回复生成解耦(先生成 SAE 回复再翻译为 AAE),控制方言强度为 Low/Medium/High 三档,同时引入 F5-TTS 生成非裔口音语音,文本和语音双通道评估
核心 idea:通过解耦方言翻译和回复生成,系统比较文本 vs 语音模态下 AAE 对真实使用者的影响,发现口音比方言更能有效提升个性化效果。
方法详解¶
整体框架¶
SODA 多轮对话数据集 → SAE 回复生成 → LLM 方言翻译(SAE→AAE,Low/Med/High 三档)→ 文本聊天机器人评估 + F5-TTS 非裔口音合成 → 语音聊天机器人评估 → 12 名(文本)/ 8 名(语音)AAE 使用者的 Likert 量表评估
关键设计¶
-
解耦式方言翻译策略:
- 回复生成与方言表达分离:先用 LLM 生成标准回复,再用另一个 prompt 将其翻译为 AAE
- 翻译函数 E(I, SAE, AAE) → O,三档 prompt 强度控制 AAE 特征密度
- 设计动机:避免方言直接影响回复内容(语义不变、仅改变表层风格),排除内容偏见的混淆因素
-
AAE 语言特征自动标注系统:
- 用 Claude-Sonnet-3.5 自动识别和标注生成文本中的 AAE 语言特征
- 覆盖 30+ 种 AAE 特征:语音(final consonant cluster reduction)、形态(habitual "be")、句法(多重否定)、语义(lexical items)
- 测试集:90 个 AAE 文本、136 个特征标签 → Claude 准确率 91%
- 设计动机:定量分析不同 LLM 在不同方言强度下的 AAE 特征分布
-
非裔口音语音合成:
- 使用 F5-TTS(Diffusion Transformer + ConvNeXt V2)进行 voice cloning
- 参考音频来源:CORAAL 语料库中的真实非裔美式英语说话者
- 预处理:数字/符号转文字 → spaCy 分句 → 逐句合成 → 拼接 + 停顿
- 设计动机:独立控制方言(文本)和口音(语音)两个维度,分析各自贡献
评估体系¶
| 维度 | 指标(共 15 个) | 类型 |
|---|---|---|
| 文本+语音通用 | 理解力、亲和力、无冒犯性、可信度、自我相似感、沟通舒适度、角色适当性、互动偏好 | 属性 |
| 仅文本 | 方言表达度、忠实度、语法性、人设一致性 | 评分 |
| 仅语音 | 自然度、清晰度、声音人设一致性 | 评分 |
实验关键数据¶
实验规模¶
| 维度 | 数量 |
|---|---|
| 文本机器人配置 | 9(3 LLM × 3 方言强度)+ 1 SAE 基线 |
| 语音机器人配置 | 4(SAE/Low/Med/High × AA 口音)+ 1 SA 基线 |
| 对话数量 | 100(5 领域 × 20 对话,每对话 10 轮) |
| 评估者(文本) | 12 名 AAE 使用者 |
| 评估者(语音) | 8 名 AAE 使用者 |
| 评估维度 | 15 个 Likert 量表 |
文本机器人: AAE 特征分布(每轮平均特征数)¶
| LLM | 方言强度 | 语音特征 | 形态特征 | 句法特征 | 语义特征 |
|---|---|---|---|---|---|
| Claude | High | ~3.0 | ~1.2 | ~2.0 | ~0.4 |
| Claude | Low | ~0.8 | ~0.5 | ~0.8 | ~0.1 |
| Llama | High | >3.0 | ~1.0 | ~1.0 | ~0.1 |
| GPT-4o | High | ~2.5 | ~0.8 | ~1.5 | ~0.3 |
核心结论对比¶
| 指标 | 文本 AAE vs SAE 基线 | 语音 AA 口音 +SAE vs SA 基线 |
|---|---|---|
| 理解力 | ↓ 下降 | ↑ 提升 |
| 亲和力 | ↓ 下降 | ↑ 提升 |
| 可信度 | ↓ 显著下降 | ≈ 持平 |
| 自我相似感 | ≈ 持平or↓ | ↑ 提升 |
| 互动偏好 | ↓ 下降 | ↑ 提升 |
| 无冒犯性 | ≈(Low/Med),↓(High) | ≈ 持平 |
关键发现¶
- 文本 AAE 全面失败:所有方言强度下 SAE 基线在几乎所有指标上胜出,High AAE 尤其糟糕
- 语音口音是制胜因素:AA 口音 + SAE 方言的组合在所有维度上超越基线,是最优配置
- High AAE 的问题根源:主要是语音特征过度表达(每轮 3+ 次拼写变化),导致文本看起来像在嘲讽 AAE
- Claude 在 AAE 生成上最均衡:句法特征表达最好,是唯一跨 Low/Med/High 保持较好平衡的 LLM
- 模态是关键调节变量:同样的方言内容在文本中被负面感知,到语音中配合合适口音反而正面——模态改变了语言个性化的效果方向
亮点与洞察¶
- 首个在真实 AAE 使用者中系统评估 AAE 聊天机器人的研究:不是问普通人"你觉得 AAE 怎么样",而是让日常使用 AAE 的人评估"这个机器人像不像我"
- "口音 > 方言"的发现极具实践价值:对于方言/社区语言的聊天机器人设计,优先投入语音合成而非文本风格迁移可能更高效
- 解耦设计消除了内容混淆:方言不影响回复内容只影响表达形式,是方言研究的重要方法论改进
局限与展望¶
- 离线评估:评估者是"旁观"对话而非直接交互,可能无法完全捕捉真实交互中的情感反应
- 评估者群体有限:仅限大学生 AAE 使用者,未覆盖年龄、地区、教育背景的多样性
- TTS 模型的 SAE 偏见:F5-TTS 主要在 SAE 数据上训练,可能无法完美复现 AA 口音的细微特征
- 未探索动态方言调整:真实 AAE 使用者会根据语境动态调整方言强度,固定强度不够自然
相关工作与启发¶
- vs Deas et al. (2023):两者都评估 LLM 的 AAE 生成,但 Deas 仅限 tweet 文本;本文扩展到多轮对话 + 语音模态
- vs Pinhanez et al. (2024):Pinhanez 训练了 AA voice 但未在聊天机器人场景中测试;本文完成了从语音生成到用户评估的完整闭环
- vs Obremski et al. (2022):Obremski 发现口音适应对跨语言对话代理有负面影响;本文发现在方言内部口音适应反而是正面的——关键区别在于方言 vs 语言的距离