Echoes of Humanity: Exploring the Perceived Humanness of AI Music¶
会议: NeurIPS 2025
arXiv: 2509.25601
代码: GitHub
领域: 音频语音
关键词: AI音乐感知, 图灵测试, 随机对照交叉试验, 混合方法内容分析, 人类感知
一句话总结¶
通过随机对照交叉试验(RCCT)和混合方法内容分析,系统研究听众区分AI生成音乐(AIM)与人类创作音乐的能力,发现随机配对时听众无法区分(准确率≈随机猜测),但相似配对时显著提升至66%,且声音/技术/人声线索是成功区分的关键因素。
背景与动机¶
- AI音乐产业剧变:Suno、Udio等文本转音乐服务正在重塑音乐创作、生产和消费链条。纯AI音乐项目(如The Velvet Sundown)已获数百万播放量,Deezer上10%的新上传曲目为AI生成。
- 感知研究空白:现有研究多用AI音乐感知实验来评估生成模型质量(混淆度越高=模型越好),而非系统研究听众本身——何时能区分、如何区分、依赖什么线索。
- 数据集局限:以往研究多使用作者自行生成的符号音乐(symbolic music),缺乏真实用户在商业模型上生成的音频数据,且无法控制配对相似度。
核心问题¶
人类听众是否依赖特定的上下文线索(如重复结构、合成人声)来判断音乐是AI还是人类创作的?本研究从两个维度回答: - 何时(When):通过RCCT因果分析,量化配对相似度对区分能力的影响 - 如何(How):通过混合方法内容分析,揭示听众实际使用的感知线索
方法详解¶
整体框架¶
三阶段设计:(1) 构建野外(in-the-wild)数据集;(2) 随机对照交叉试验(RCCT);(3) 自由文本反馈的混合方法内容分析。
关键设计1: 数据集构建¶
- AI音乐来源:爬取Reddit r/SunoAI社区(2023.07—2025.02),获取33,626篇帖子,从中下载Suno链接(4,059首)和YouTube链接(8,315首)。排除Meme类歌曲,保留真实用户生成的非研究者控制数据。
- 人类音乐来源:MTG-Jamendo数据集中的独立艺术家歌曲,采集于2019年,早于商用AIM兴起(Suno 2023年上线),排除被AI污染的可能。
- 流派控制:使用Essentia分类器为AIM歌曲标注流派标签,置信度阈值0.4(远高于87类随机分类的0.011),取top四分位。
关键设计2: 配对策略¶
- 随机集(Random Set):从pop、rock、hip-hop、electronic、metal五类中各随机选1首AIM+1首人类歌曲,为每位参与者随机配对。要求:英语歌词或无歌词,时长1.5-4分钟。
- 相似集(Similar Set):对同流派的AIM和人类歌曲生成CLAP嵌入,计算余弦相似度,筛选>0.8的高相似配对(仅2.5%达到此阈值),手动选取10对最相似且满足时长/语言条件的配对。最终分布:电子3对、摇滚2对、古典/氛围/嘻哈/流行/金属各1对。
关键设计3: 实验流程¶
- 每位参与者评估5对歌曲:前4对随机呈现(2对来自随机集,2对来自相似集),第5对为黄金标准陷阱(贝多芬第五交响曲 vs 明显AI歌曲)
- 每对中歌曲顺序随机化,不显示标题,不允许跳过或修改答案
- 五选一判断:A是AI / B是AI / 都不是AI / 都是AI / 无法判断
- 可选自由文本反馈解释选择理由
- 实验后可选人口统计问卷:年龄、母语、音乐教育、演奏经验、是否了解AIM
关键设计4: 参与者来源¶
- 志愿者群体:从巴西UFMG大学计算机和音乐系起步,通过社交媒体和大学主页扩散
- 众包工人群体:通过Prolific招募100名英语母语者,每人2英镑报酬
- 两个群体提供多样化的人口统计和不同动机(内在兴趣 vs 外在报酬)
实验关键数据¶
参与者筛选¶
- 总登录653人 → 正确识别贝多芬337人 → 前4对无已知歌曲308人 → 最终1,232个有效回答
- 290人完成人口统计:73%葡语、22%英语、50%无演奏经验、67%无正式音乐教育、34%了解AIM
- 平均年龄31岁(SD=13),每对歌曲平均听2.98分钟
RCCT核心结果¶
| 配对类型 | 成功率 | 与随机猜测(0.5)比较 |
|---|---|---|
| 全部配对 | 0.60 | — |
| 随机集 | 0.53 | p > 0.05(无显著差异) |
| 相似集 | 0.66 | p < 10⁻⁹(极显著) |
| 相似集-有歌词 | 0.75 | p < 10⁻⁶ |
- 处理效应:相似配对比随机配对提升13个百分点(0.66 - 0.53)
- 排除古典/氛围流派或限制有歌词子集后结论不变,排除流派和歌词混淆
混合效应逻辑回归关键因子¶
| 因子 | 方向 | 显著性 |
|---|---|---|
| 相似配对 | ↑ 正向 | p=0.10 (*) |
| 演奏经验 >10年 | ↑ 正向 | p=0.0009 (***) |
| 了解AIM | ↑ 正向 | p=0.00005 (***) |
| 年龄 | ↓ 负向 | p=0.0009 (***) |
| 正式教育5-10年 | ↓ 负向 | p=0.009 (***) |
- 模型McFadden R²=0.44,属可接受的解释性模型
- 正式教育的负效应在去掉演奏经验变量后消失,说明两者高度相关
内容分析结果¶
- 收到317条自由文本反馈(140位参与者),三名编码员两轮编码
- 七大主题:人声相关、声音相关、技术方面、人性化方面、修饰词、流派、歌词相关
- Top-7高频标签:vocals(369)、lyrics(247)、negative(231)、artificial(224)、generic(174)、human(130)、robotic(112)
- 关键发现:正确 vs 错误回答之间存在显著差异(χ²检验),正确识别者更多使用声音(sound)、技术(technical)、人声(vocal)线索
亮点¶
- 因果推断设计:首次在AIM感知研究中使用RCCT,可因果地证明配对相似度提升区分能力,而非仅相关
- 野外数据集:首次使用非研究者控制的、来自真实用户的商业模型生成AIM(Reddit r/SunoAI),避免了作者自建数据的偏差
- 混合方法分析:定量RCCT + 定性扎根理论内容编码,双重视角揭示感知机制
- 反直觉发现:相似配对反而更容易区分——当AI和人类歌曲风格接近时,细微的合成痕迹更突出
局限与展望¶
- WEIRD偏见:歌曲和参与者均偏向西方教育富裕民主(WEIRD)背景,未涵盖非西方音乐传统
- 仅限Suno模型:AIM来源单一(Reddit r/SunoAI),未涵盖Udio等其他商业模型
- 30秒片段局限:实验网站仅播放歌曲片段,未测试完整歌曲的感知
- 流派覆盖有限:相似集仅覆盖10对特定流派搭配,不同流派下AI表现差异未充分探索
- 时效性问题:AIM模型快速进化,本研究结果对未来版本的适用性存疑
与相关工作的对比¶
- vs Sarmento et al. (ISMIR 2024):该研究分析摇滚/前卫金属的符号AIM,使用作者自建数据,本研究使用真实用户生成的音频AIM
- vs Grötschla et al. (ICASSP 2025):该研究聚焦用户偏好(发现AI偏好),本研究聚焦感知区分能力,且使用不同配对策略
- vs Donahue/Hernandez:这些研究用图灵测试评估模型质量,本研究以听众为研究对象而非模型
- vs Noll (1966):视觉领域的经典先驱工作,本研究扩展到音乐领域并加入因果推断和混合方法
启发与关联¶
- 对AI检测教育有直接指导意义:训练用户关注人声质量和技术细节(而非旋律/歌词)可提升识别率
- 相似配对更易区分的发现提示:AI音乐在风格模仿中的"恐怖谷"效应——越像真人创作的歌曲,细微瑕疵越显眼
- 实验方法论(RCCT+混合方法内容分析)可迁移到AI生成图像/视频/文本的感知研究
- 对AIM模型改进有启示:人声合成和技术细节(如音频压缩痕迹)是当前最薄弱环节
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次RCCT+野外数据+混合方法三位一体的AIM感知研究
- 实验充分度: ⭐⭐⭐⭐ 653名参与者、双群体、多模型对比、内容编码,但流派覆盖有限
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,方法论严谨,图表丰富
- 价值: ⭐⭐⭐⭐ 对AI音乐检测教育和模型改进均有实用指导意义