Echoes of Humanity: Exploring the Perceived Humanness of AI Music¶

会议: NeurIPS 2025
arXiv: 2509.25601
代码: GitHub
领域: 音频语音
关键词: AI音乐感知, 图灵测试, 随机对照交叉试验, 混合方法内容分析, 人类感知

一句话总结¶

通过随机对照交叉试验(RCCT)和混合方法内容分析，系统研究听众区分AI生成音乐(AIM)与人类创作音乐的能力，发现随机配对时听众无法区分（准确率≈随机猜测），但相似配对时显著提升至66%，且声音/技术/人声线索是成功区分的关键因素。

背景与动机¶

AI音乐产业剧变：Suno、Udio等文本转音乐服务正在重塑音乐创作、生产和消费链条。纯AI音乐项目（如The Velvet Sundown）已获数百万播放量，Deezer上10%的新上传曲目为AI生成。
感知研究空白：现有研究多用AI音乐感知实验来评估生成模型质量（混淆度越高=模型越好），而非系统研究听众本身——何时能区分、如何区分、依赖什么线索。
数据集局限：以往研究多使用作者自行生成的符号音乐(symbolic music)，缺乏真实用户在商业模型上生成的音频数据，且无法控制配对相似度。

核心问题¶

人类听众是否依赖特定的上下文线索（如重复结构、合成人声）来判断音乐是AI还是人类创作的？本研究从两个维度回答： - 何时(When)：通过RCCT因果分析，量化配对相似度对区分能力的影响 - 如何(How)：通过混合方法内容分析，揭示听众实际使用的感知线索

方法详解¶

整体框架¶

三阶段设计：(1) 构建野外(in-the-wild)数据集；(2) 随机对照交叉试验(RCCT)；(3) 自由文本反馈的混合方法内容分析。

关键设计1: 数据集构建¶

AI音乐来源：爬取Reddit r/SunoAI社区（2023.07—2025.02），获取33,626篇帖子，从中下载Suno链接(4,059首)和YouTube链接(8,315首)。排除Meme类歌曲，保留真实用户生成的非研究者控制数据。
人类音乐来源：MTG-Jamendo数据集中的独立艺术家歌曲，采集于2019年，早于商用AIM兴起（Suno 2023年上线），排除被AI污染的可能。
流派控制：使用Essentia分类器为AIM歌曲标注流派标签，置信度阈值0.4（远高于87类随机分类的0.011），取top四分位。

关键设计2: 配对策略¶

随机集(Random Set)：从pop、rock、hip-hop、electronic、metal五类中各随机选1首AIM+1首人类歌曲，为每位参与者随机配对。要求：英语歌词或无歌词，时长1.5-4分钟。
相似集(Similar Set)：对同流派的AIM和人类歌曲生成CLAP嵌入，计算余弦相似度，筛选>0.8的高相似配对（仅2.5%达到此阈值），手动选取10对最相似且满足时长/语言条件的配对。最终分布：电子3对、摇滚2对、古典/氛围/嘻哈/流行/金属各1对。

关键设计3: 实验流程¶

每位参与者评估5对歌曲：前4对随机呈现（2对来自随机集，2对来自相似集），第5对为黄金标准陷阱（贝多芬第五交响曲 vs 明显AI歌曲）
每对中歌曲顺序随机化，不显示标题，不允许跳过或修改答案
五选一判断：A是AI / B是AI / 都不是AI / 都是AI / 无法判断
可选自由文本反馈解释选择理由
实验后可选人口统计问卷：年龄、母语、音乐教育、演奏经验、是否了解AIM

关键设计4: 参与者来源¶

志愿者群体：从巴西UFMG大学计算机和音乐系起步，通过社交媒体和大学主页扩散
众包工人群体：通过Prolific招募100名英语母语者，每人2英镑报酬
两个群体提供多样化的人口统计和不同动机（内在兴趣 vs 外在报酬）

实验关键数据¶

参与者筛选¶

总登录653人 → 正确识别贝多芬337人 → 前4对无已知歌曲308人 → 最终1,232个有效回答
290人完成人口统计：73%葡语、22%英语、50%无演奏经验、67%无正式音乐教育、34%了解AIM
平均年龄31岁(SD=13)，每对歌曲平均听2.98分钟

RCCT核心结果¶

配对类型	成功率	与随机猜测(0.5)比较
全部配对	0.60	—
随机集	0.53	p > 0.05（无显著差异）
相似集	0.66	p < 10⁻⁹（极显著）
相似集-有歌词	0.75	p < 10⁻⁶

处理效应：相似配对比随机配对提升13个百分点（0.66 - 0.53）
排除古典/氛围流派或限制有歌词子集后结论不变，排除流派和歌词混淆

混合效应逻辑回归关键因子¶

因子	方向	显著性
相似配对	↑ 正向	p=0.10 (*)
演奏经验 >10年	↑ 正向	p=0.0009 (***)
了解AIM	↑ 正向	p=0.00005 (***)
年龄	↓ 负向	p=0.0009 (***)
正式教育5-10年	↓ 负向	p=0.009 (***)

模型McFadden R²=0.44，属可接受的解释性模型
正式教育的负效应在去掉演奏经验变量后消失，说明两者高度相关

内容分析结果¶

收到317条自由文本反馈（140位参与者），三名编码员两轮编码
七大主题：人声相关、声音相关、技术方面、人性化方面、修饰词、流派、歌词相关
Top-7高频标签：vocals(369)、lyrics(247)、negative(231)、artificial(224)、generic(174)、human(130)、robotic(112)
关键发现：正确 vs 错误回答之间存在显著差异（χ²检验），正确识别者更多使用声音(sound)、技术(technical)、人声(vocal)线索

亮点¶

因果推断设计：首次在AIM感知研究中使用RCCT，可因果地证明配对相似度提升区分能力，而非仅相关
野外数据集：首次使用非研究者控制的、来自真实用户的商业模型生成AIM（Reddit r/SunoAI），避免了作者自建数据的偏差
混合方法分析：定量RCCT + 定性扎根理论内容编码，双重视角揭示感知机制
反直觉发现：相似配对反而更容易区分——当AI和人类歌曲风格接近时，细微的合成痕迹更突出

局限与展望¶

WEIRD偏见：歌曲和参与者均偏向西方教育富裕民主(WEIRD)背景，未涵盖非西方音乐传统
仅限Suno模型：AIM来源单一（Reddit r/SunoAI），未涵盖Udio等其他商业模型
30秒片段局限：实验网站仅播放歌曲片段，未测试完整歌曲的感知
流派覆盖有限：相似集仅覆盖10对特定流派搭配，不同流派下AI表现差异未充分探索
时效性问题：AIM模型快速进化，本研究结果对未来版本的适用性存疑

与相关工作的对比¶

vs Sarmento et al. (ISMIR 2024)：该研究分析摇滚/前卫金属的符号AIM，使用作者自建数据，本研究使用真实用户生成的音频AIM
vs Grötschla et al. (ICASSP 2025)：该研究聚焦用户偏好（发现AI偏好），本研究聚焦感知区分能力，且使用不同配对策略
vs Donahue/Hernandez：这些研究用图灵测试评估模型质量，本研究以听众为研究对象而非模型
vs Noll (1966)：视觉领域的经典先驱工作，本研究扩展到音乐领域并加入因果推断和混合方法

启发与关联¶

对AI检测教育有直接指导意义：训练用户关注人声质量和技术细节（而非旋律/歌词）可提升识别率
相似配对更易区分的发现提示：AI音乐在风格模仿中的"恐怖谷"效应——越像真人创作的歌曲，细微瑕疵越显眼
实验方法论（RCCT+混合方法内容分析）可迁移到AI生成图像/视频/文本的感知研究
对AIM模型改进有启示：人声合成和技术细节（如音频压缩痕迹）是当前最薄弱环节

评分¶

新颖性: ⭐⭐⭐⭐ 首次RCCT+野外数据+混合方法三位一体的AIM感知研究
实验充分度: ⭐⭐⭐⭐ 653名参与者、双群体、多模型对比、内容编码，但流派覆盖有限
写作质量: ⭐⭐⭐⭐ 逻辑清晰，方法论严谨，图表丰富
价值: ⭐⭐⭐⭐ 对AI音乐检测教育和模型改进均有实用指导意义