Finding A Voice: Exploring the Potential of African American Dialect and Voice Generation for Chatbots¶

会议: ACL 2025
arXiv: 2501.03441
代码: https://github.com/emorynlp/AAVE-Chat
领域: 音频与语音 / 对话系统
关键词: 语音对话, 方言生成, 聊天机器人, 个性化, 非裔美式英语

一句话总结¶

对文本和语音两种模态下将非裔美式英语（AAE）融入聊天机器人进行系统研究，发现文本AAE反而损害用户体验，但配合非裔口音的语音机器人受到AAE使用者青睐，揭示了语言个性化中模态选择的关键作用。

研究背景与动机¶

领域现状：聊天机器人个性化是提升用户信任和参与度的关键方向。视觉相似性（头像肤色匹配）已被证明有效，语言相似性（代码切换、多语言）也有初步探索，但方言层面的个性化研究极其稀缺。

现有痛点： - 约 80% 的非裔美国人日常使用 AAE，但现有聊天机器人完全基于标准美式英语（SAE），造成语言代表性缺失 - AAE 在 NLP 中长期被边缘化（Twitter UD 解析、ASR 歧视等），技术偏见打击社区信任 - 已有 AAE 生成研究仅限于 tweet 风格文本，未探索多轮对话场景 - 口音对用户感知的影响在本族群体中几乎未被研究

核心矛盾：直觉上语言相似性应提升亲和力，但已有文本 AAE 研究结果喜忧参半——方言强度、模态（文本 vs 语音）、口音三者的交互效应不明

本文目标 (1) 系统评估 LLM 生成不同强度 AAE 文本的能力 (2) 比较文本和语音模态下 AAE 对用户体验的影响 (3) 探索非裔口音与方言强度的最优组合

切入角度：将方言表达和回复生成解耦（先生成 SAE 回复再翻译为 AAE），控制方言强度为 Low/Medium/High 三档，同时引入 F5-TTS 生成非裔口音语音，文本和语音双通道评估

核心 idea：通过解耦方言翻译和回复生成，系统比较文本 vs 语音模态下 AAE 对真实使用者的影响，发现口音比方言更能有效提升个性化效果。

方法详解¶

整体框架¶

SODA 多轮对话数据集 → SAE 回复生成 → LLM 方言翻译（SAE→AAE，Low/Med/High 三档）→ 文本聊天机器人评估 + F5-TTS 非裔口音合成 → 语音聊天机器人评估 → 12 名（文本）/ 8 名（语音）AAE 使用者的 Likert 量表评估

关键设计¶

解耦式方言翻译策略：
- 回复生成与方言表达分离：先用 LLM 生成标准回复，再用另一个 prompt 将其翻译为 AAE
- 翻译函数 E(I, SAE, AAE) → O，三档 prompt 强度控制 AAE 特征密度
- 设计动机：避免方言直接影响回复内容（语义不变、仅改变表层风格），排除内容偏见的混淆因素
AAE 语言特征自动标注系统：
- 用 Claude-Sonnet-3.5 自动识别和标注生成文本中的 AAE 语言特征
- 覆盖 30+ 种 AAE 特征：语音（final consonant cluster reduction）、形态（habitual "be"）、句法（多重否定）、语义（lexical items）
- 测试集：90 个 AAE 文本、136 个特征标签 → Claude 准确率 91%
- 设计动机：定量分析不同 LLM 在不同方言强度下的 AAE 特征分布
非裔口音语音合成：
- 使用 F5-TTS（Diffusion Transformer + ConvNeXt V2）进行 voice cloning
- 参考音频来源：CORAAL 语料库中的真实非裔美式英语说话者
- 预处理：数字/符号转文字 → spaCy 分句 → 逐句合成 → 拼接 + 停顿
- 设计动机：独立控制方言（文本）和口音（语音）两个维度，分析各自贡献

评估体系¶

维度	指标（共 15 个）	类型
文本+语音通用	理解力、亲和力、无冒犯性、可信度、自我相似感、沟通舒适度、角色适当性、互动偏好	属性
仅文本	方言表达度、忠实度、语法性、人设一致性	评分
仅语音	自然度、清晰度、声音人设一致性	评分

实验关键数据¶

实验规模¶

维度	数量
文本机器人配置	9（3 LLM × 3 方言强度）+ 1 SAE 基线
语音机器人配置	4（SAE/Low/Med/High × AA 口音）+ 1 SA 基线
对话数量	100（5 领域 × 20 对话，每对话 10 轮）
评估者（文本）	12 名 AAE 使用者
评估者（语音）	8 名 AAE 使用者
评估维度	15 个 Likert 量表

文本机器人: AAE 特征分布（每轮平均特征数）¶

LLM	方言强度	语音特征	形态特征	句法特征	语义特征
Claude	High	~3.0	~1.2	~2.0	~0.4
Claude	Low	~0.8	~0.5	~0.8	~0.1
Llama	High	>3.0	~1.0	~1.0	~0.1
GPT-4o	High	~2.5	~0.8	~1.5	~0.3

核心结论对比¶

指标	文本 AAE vs SAE 基线	语音 AA 口音 +SAE vs SA 基线
理解力	↓ 下降	↑ 提升
亲和力	↓ 下降	↑ 提升
可信度	↓ 显著下降	≈ 持平
自我相似感	≈ 持平or↓	↑ 提升
互动偏好	↓ 下降	↑ 提升
无冒犯性	≈（Low/Med），↓（High）	≈ 持平

关键发现¶

文本 AAE 全面失败：所有方言强度下 SAE 基线在几乎所有指标上胜出，High AAE 尤其糟糕
语音口音是制胜因素：AA 口音 + SAE 方言的组合在所有维度上超越基线，是最优配置
High AAE 的问题根源：主要是语音特征过度表达（每轮 3+ 次拼写变化），导致文本看起来像在嘲讽 AAE
Claude 在 AAE 生成上最均衡：句法特征表达最好，是唯一跨 Low/Med/High 保持较好平衡的 LLM
模态是关键调节变量：同样的方言内容在文本中被负面感知，到语音中配合合适口音反而正面——模态改变了语言个性化的效果方向

亮点与洞察¶

首个在真实 AAE 使用者中系统评估 AAE 聊天机器人的研究：不是问普通人"你觉得 AAE 怎么样"，而是让日常使用 AAE 的人评估"这个机器人像不像我"
"口音 > 方言"的发现极具实践价值：对于方言/社区语言的聊天机器人设计，优先投入语音合成而非文本风格迁移可能更高效
解耦设计消除了内容混淆：方言不影响回复内容只影响表达形式，是方言研究的重要方法论改进

局限与展望¶

离线评估：评估者是"旁观"对话而非直接交互，可能无法完全捕捉真实交互中的情感反应
评估者群体有限：仅限大学生 AAE 使用者，未覆盖年龄、地区、教育背景的多样性
TTS 模型的 SAE 偏见：F5-TTS 主要在 SAE 数据上训练，可能无法完美复现 AA 口音的细微特征
未探索动态方言调整：真实 AAE 使用者会根据语境动态调整方言强度，固定强度不够自然

Finding A Voice: Exploring the Potential of African American Dialect and Voice Generation for Chatbots¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

评估体系¶

实验关键数据¶

实验规模¶

文本机器人: AAE 特征分布（每轮平均特征数）¶

核心结论对比¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Finding A Voice: Exploring the Potential of African American Dialect and Voice Generation for Chatbots¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

评估体系¶

实验关键数据¶

实验规模¶

文本机器人: AAE 特征分布（每轮平均特征数）¶

核心结论对比¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶