跳转至

Finding A Voice: Exploring the Potential of African American Dialect and Voice Generation for Chatbots

会议: ACL 2025
arXiv: 2501.03441
代码: https://github.com/emorynlp/AAVE-Chat
领域: 音频与语音 / 对话系统
关键词: 语音对话, 方言生成, 聊天机器人, 个性化, 非裔美式英语

一句话总结

对文本和语音两种模态下将非裔美式英语(AAE)融入聊天机器人进行系统研究,发现文本AAE反而损害用户体验,但配合非裔口音的语音机器人受到AAE使用者青睐,揭示了语言个性化中模态选择的关键作用。

研究背景与动机

领域现状:聊天机器人个性化是提升用户信任和参与度的关键方向。视觉相似性(头像肤色匹配)已被证明有效,语言相似性(代码切换、多语言)也有初步探索,但方言层面的个性化研究极其稀缺。

现有痛点: - 约 80% 的非裔美国人日常使用 AAE,但现有聊天机器人完全基于标准美式英语(SAE),造成语言代表性缺失 - AAE 在 NLP 中长期被边缘化(Twitter UD 解析、ASR 歧视等),技术偏见打击社区信任 - 已有 AAE 生成研究仅限于 tweet 风格文本,未探索多轮对话场景 - 口音对用户感知的影响在本族群体中几乎未被研究

核心矛盾:直觉上语言相似性应提升亲和力,但已有文本 AAE 研究结果喜忧参半——方言强度、模态(文本 vs 语音)、口音三者的交互效应不明

本文目标 (1) 系统评估 LLM 生成不同强度 AAE 文本的能力 (2) 比较文本和语音模态下 AAE 对用户体验的影响 (3) 探索非裔口音与方言强度的最优组合

切入角度:将方言表达和回复生成解耦(先生成 SAE 回复再翻译为 AAE),控制方言强度为 Low/Medium/High 三档,同时引入 F5-TTS 生成非裔口音语音,文本和语音双通道评估

核心 idea:通过解耦方言翻译和回复生成,系统比较文本 vs 语音模态下 AAE 对真实使用者的影响,发现口音比方言更能有效提升个性化效果。

方法详解

整体框架

SODA 多轮对话数据集 → SAE 回复生成 → LLM 方言翻译(SAE→AAE,Low/Med/High 三档)→ 文本聊天机器人评估 + F5-TTS 非裔口音合成 → 语音聊天机器人评估 → 12 名(文本)/ 8 名(语音)AAE 使用者的 Likert 量表评估

关键设计

  1. 解耦式方言翻译策略

    • 回复生成与方言表达分离:先用 LLM 生成标准回复,再用另一个 prompt 将其翻译为 AAE
    • 翻译函数 E(I, SAE, AAE) → O,三档 prompt 强度控制 AAE 特征密度
    • 设计动机:避免方言直接影响回复内容(语义不变、仅改变表层风格),排除内容偏见的混淆因素
  2. AAE 语言特征自动标注系统

    • 用 Claude-Sonnet-3.5 自动识别和标注生成文本中的 AAE 语言特征
    • 覆盖 30+ 种 AAE 特征:语音(final consonant cluster reduction)、形态(habitual "be")、句法(多重否定)、语义(lexical items)
    • 测试集:90 个 AAE 文本、136 个特征标签 → Claude 准确率 91%
    • 设计动机:定量分析不同 LLM 在不同方言强度下的 AAE 特征分布
  3. 非裔口音语音合成

    • 使用 F5-TTS(Diffusion Transformer + ConvNeXt V2)进行 voice cloning
    • 参考音频来源:CORAAL 语料库中的真实非裔美式英语说话者
    • 预处理:数字/符号转文字 → spaCy 分句 → 逐句合成 → 拼接 + 停顿
    • 设计动机:独立控制方言(文本)和口音(语音)两个维度,分析各自贡献

评估体系

维度 指标(共 15 个) 类型
文本+语音通用 理解力、亲和力、无冒犯性、可信度、自我相似感、沟通舒适度、角色适当性、互动偏好 属性
仅文本 方言表达度、忠实度、语法性、人设一致性 评分
仅语音 自然度、清晰度、声音人设一致性 评分

实验关键数据

实验规模

维度 数量
文本机器人配置 9(3 LLM × 3 方言强度)+ 1 SAE 基线
语音机器人配置 4(SAE/Low/Med/High × AA 口音)+ 1 SA 基线
对话数量 100(5 领域 × 20 对话,每对话 10 轮)
评估者(文本) 12 名 AAE 使用者
评估者(语音) 8 名 AAE 使用者
评估维度 15 个 Likert 量表

文本机器人: AAE 特征分布(每轮平均特征数)

LLM 方言强度 语音特征 形态特征 句法特征 语义特征
Claude High ~3.0 ~1.2 ~2.0 ~0.4
Claude Low ~0.8 ~0.5 ~0.8 ~0.1
Llama High >3.0 ~1.0 ~1.0 ~0.1
GPT-4o High ~2.5 ~0.8 ~1.5 ~0.3

核心结论对比

指标 文本 AAE vs SAE 基线 语音 AA 口音 +SAE vs SA 基线
理解力 ↓ 下降 ↑ 提升
亲和力 ↓ 下降 ↑ 提升
可信度 ↓ 显著下降 ≈ 持平
自我相似感 ≈ 持平or↓ ↑ 提升
互动偏好 ↓ 下降 ↑ 提升
无冒犯性 ≈(Low/Med),↓(High) ≈ 持平

关键发现

  • 文本 AAE 全面失败:所有方言强度下 SAE 基线在几乎所有指标上胜出,High AAE 尤其糟糕
  • 语音口音是制胜因素:AA 口音 + SAE 方言的组合在所有维度上超越基线,是最优配置
  • High AAE 的问题根源:主要是语音特征过度表达(每轮 3+ 次拼写变化),导致文本看起来像在嘲讽 AAE
  • Claude 在 AAE 生成上最均衡:句法特征表达最好,是唯一跨 Low/Med/High 保持较好平衡的 LLM
  • 模态是关键调节变量:同样的方言内容在文本中被负面感知,到语音中配合合适口音反而正面——模态改变了语言个性化的效果方向

亮点与洞察

  • 首个在真实 AAE 使用者中系统评估 AAE 聊天机器人的研究:不是问普通人"你觉得 AAE 怎么样",而是让日常使用 AAE 的人评估"这个机器人像不像我"
  • "口音 > 方言"的发现极具实践价值:对于方言/社区语言的聊天机器人设计,优先投入语音合成而非文本风格迁移可能更高效
  • 解耦设计消除了内容混淆:方言不影响回复内容只影响表达形式,是方言研究的重要方法论改进

局限与展望

  • 离线评估:评估者是"旁观"对话而非直接交互,可能无法完全捕捉真实交互中的情感反应
  • 评估者群体有限:仅限大学生 AAE 使用者,未覆盖年龄、地区、教育背景的多样性
  • TTS 模型的 SAE 偏见:F5-TTS 主要在 SAE 数据上训练,可能无法完美复现 AA 口音的细微特征
  • 未探索动态方言调整:真实 AAE 使用者会根据语境动态调整方言强度,固定强度不够自然

相关工作与启发

  • vs Deas et al. (2023):两者都评估 LLM 的 AAE 生成,但 Deas 仅限 tweet 文本;本文扩展到多轮对话 + 语音模态
  • vs Pinhanez et al. (2024):Pinhanez 训练了 AA voice 但未在聊天机器人场景中测试;本文完成了从语音生成到用户评估的完整闭环
  • vs Obremski et al. (2022):Obremski 发现口音适应对跨语言对话代理有负面影响;本文发现在方言内部口音适应反而是正面的——关键区别在于方言 vs 语言的距离

评分