Probing Token Spaces under Generator Shift in AI-Generated Music Detection¶

会议: ICML2026
arXiv: 2606.08663
代码: https://github.com/MAAP-LAB/CoMoE
领域: 音频/语音 · AI 生成内容检测
关键词: AI音乐检测, 神经音频编解码, 离散token, 生成器迁移, 跨源泛化

一句话总结¶

这篇论文把 AI 音乐检测里被当成"预处理细节"的 token 空间（用哪种 tokenizer）提升为一个主实验变量：通过固定下游分类器 CoMoE、只替换输入 token，并在新构造的 MoM-open 上做"训练时只见一种伪造生成器、测试时换生成器"的 source-restricted 评测，证明在生成器迁移场景下不同 token 空间的鲁棒性差距巨大（Fake-Udio 上 X-Codec token 89.0% AUC vs EnCodec token 58.6%）。

研究背景与动机¶

领域现状：AI 音乐检测要判断一段音乐是人创作的还是生成模型（Suno、Udio、DiffRhythm 等）产出的。现有检测器多基于频谱图、原始波形或连续自监督表征（如 MERT、Wav2Vec2），并在 SONICS、CLAM 等标准 benchmark 上报出接近饱和的高分。

现有痛点：标准 benchmark 的训练/测试集往往共享同一批生成器，检测器很可能学到了生成器特有的指纹伪影而非"伪造 vs 真实"的本质区别。部署时检测器必须面对训练中从未出现过的生成器源，此时标准 split 上的高分会严重高估真实鲁棒性。

核心矛盾：到底是什么决定了"换生成器后还能不能检测出来"？现有工作把注意力放在分类器结构设计上，却忽略了输入表征（token 空间）本身可能才是控制跨生成器鲁棒性的关键。而 codec 风格的离散 token 不是单一表征——不同 tokenizer 诱导出不同的码本、时间率和量化行为，这让"选哪个 tokenizer"从预处理细节变成了一个实验自变量。

本文目标：(i) 把 tokenizer 选择从预处理细节抬升为受控实验变量；(ii) 构造一个可复现、带 source-restricted split 的开放 benchmark；(iii) 量化在生成器迁移下不同 token 空间的差异。

切入角度：作者赌的是"codec 风格离散 token 提供了一种不同于连续声学/语义特征的取证视角"——神经 codec 用残差量化（RVQ）把音频表示成多路码本序列，可能暴露出码本使用、token 转移、量化层级等连续特征池化后看不到的伪造痕迹。要验证这一点，必须控制变量：固定分类器、固定训练配方，只换 token。

核心 idea：用一个固定的、紧凑的分类器 CoMoE 当"探针"，让所有差异都只反映输入 token 空间，再用 source-restricted 评测把生成器迁移这个维度逼出来。

方法详解¶

整体框架¶

方法由两块拼成：一个受控探针 CoMoE（把"换 tokenizer"变成唯一变量），和一套评测协议 MoM-open + source-restricted split（把"生成器迁移"这个隐藏难度逼出来）。CoMoE 的数据流是：任意音频经某个 tokenizer 前端被统一映射成四路离散 token 流（两路低层、两路高层），低层两路与高层两路分别送进两个结构完全相同的 Transformer 编码器，时间维均值池化得到两个分支表示，二者求平均后接一个二分类 logistic 头输出真/伪。

整条 pipeline 里唯一被替换的就是 tokenizer 前端——分类器架构、训练配方、评测协议全部冻结，所以任意两行 CoMoE 结果的差异都干净地归因于 token 空间本身。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["音频波形"] --> B["Token 前端<br/>异构 tokenizer 统一成<br/>四路离散 token"]
    B --> C["低层双流<br/>Transformer 编码器 f(ℓ)"]
    B --> D["高层双流<br/>Transformer 编码器 f(h)"]
    C --> E["时间均值池化<br/>两分支表示求平均"]
    D --> E
    E --> F["二分类 logistic<br/>真 / 伪判别"]

关键设计¶

1. CoMoE：固定下游、只换 token 空间的受控探针

要回答"是 token 空间还是分类器决定鲁棒性"，必须把分类器钉死。CoMoE 消费四路离散 token 流 \(\mathbf{T}=(\mathbf{T}^{(\ell_1)},\mathbf{T}^{(\ell_2)},\mathbf{T}^{(h_1)},\mathbf{T}^{(h_2)})\)，其中每路 \(\mathbf{T}^{(s)}\in\{0,\dots,C-1\}^{L}\)（码本大小 \(C=1024\)，截断/补齐到固定长度 \(L\)）。低层两路与高层两路各送进一个 4 层、隐藏维 \(d=256\)、4 头的 Transformer 编码器，时间均值池化后得两个分支表示：

\[\mathbf{h}^{(\ell)}=\mathrm{Pool}\big(f^{(\ell)}(\mathbf{T}^{(\ell_1)},\mathbf{T}^{(\ell_2)})\big),\quad \mathbf{h}^{(h)}=\mathrm{Pool}\big(f^{(h)}(\mathbf{T}^{(h_1)},\mathbf{T}^{(h_2)})\big)\]

两个分支表示平均后过 logistic 头 \(\hat{y}=\sigma(\mathbf{w}^\top \mathbf{z}+b)\)，其中 \(\mathbf{z}=\tfrac{1}{2}(\mathbf{h}^{(\ell)}+\mathbf{h}^{(h)})\)。低/高双分支的设计借鉴了"语义+底层伪影互补"的双路思路（如 AIGC 图像检测里的 AIDE），让不同码本层级承载不同取证信息。所有 CoMoE 变体共用这套四流分类器——这正是它能当"探针"的前提：结果差异里没有分类器变量的污染。

2. Token 前端：把异构 tokenizer 统一到同一个四流接口

不同 tokenizer 码本数、时间率、量化方式各不相同，直接比较没有可比性。作者用一条统一规则把它们都映射到"两路低层 + 两路高层"：对 RVQ codec 取早期码本当低层、晚期码本当高层；对 MERT 这类自监督模型取浅层当低层、深层当高层。具体地——EnCodec 24kHz 取码本 \(q=0,1\) 当低层、\(q=6,7\) 当高层；DAC 44kHz 取 \(q=0,1\) 与 \(q=7,8\)；X-Codec mini（音乐训练的语义感知 codec，12 路 RVQ）取 \(q=0,1\) 与 \(q=10,11\)；MERT \(k\)-means 则对第 \(\{0,1,11,12\}\) 层帧特征做 MiniBatch \(k\)-means 离散化，层 \(0,1\) 当低层、层 \(11,12\) 当高层。"早期/晚期、浅层/深层"这个映射是受控接口而非理论约束，目的是让所有 tokenizer 站在同一条起跑线上接受比较。

3. MoM-open 与 source-restricted 切分：把生成器迁移这个隐藏难度逼出来

原始 MoM-CLAM benchmark 依赖 YouTube 来源的真实音频，难以再分发/复现。作者用可自由再分发的 FMA-medium + MTG-Jamendo 替换真实那一半、保留原始伪造生成器协议，重建出 MoM-open（共 146,309 条）。真正的杀手锏是切分协议：除了常规 base split，还设计了"只保留某一真实源训练"的 real-source 受限（Real-FMA / Real-Jamendo）和"只保留某一伪造生成器训练、测试见其余未见生成器"的 fake-source 受限（Fake-Suno3.5 / Fake-Udio）。验证集只从训练保留的源里采、阈值绝不用 held-out 生成器选。这套切分的意义在于：base 与 real-restricted 几乎饱和（区分度低），而 fake-source restriction 才是真正暴露 token 空间差异的"显微镜"。

损失函数 / 训练策略¶

所有 CoMoE 变体共用同一配方：AdamW、12 个 epoch、学习率 \(2\times10^{-4}\)、label smoothing 0.05、seed 42、单张 H100。指标用 AUC 与 held-out-fake 检测率（后者阈值 \(\tau^\star\) 由最大化验证集 F1 选出后固定套用到每个未见生成器源）。另有两个非 CoMoE 基线：MLP(MERT)（均值池化 MERT 特征 + 小 MLP）与 CLAM（原 benchmark 的双率参考检测器，MERT + Wav2Vec2 加权交叉注意力）。

实验关键数据¶

主实验¶

跨生成器 OOD AUC（%）。base 与 real-restricted 几乎饱和，差异都挤在 fake-source 受限两列。括号外为绝对值。

模型	base	Fake-Suno3.5	Fake-Udio
CLAM	99.92	97.72	66.51
MLP (MERT)	99.77	86.87	67.45
CoMoE (X-Codec)	99.93	86.97	89.04
CoMoE (DAC)	99.82	88.33	77.28
CoMoE (EnCodec)	96.44	85.15	58.64
CoMoE (MERT \(k\)-means)	99.83	92.22	73.26
MERT-continuous（同 backbone）	99.87	93.84	71.91

操作点分析¶

验证集阈值固定后套到未见伪造源的 held-out-fake 检测率（%）——和 AUC 排名会背离。

模型	Fake-Suno3.5	Fake-Udio
CLAM	71.0	2.6
MLP (MERT)	60.1	26.0
CoMoE (X-Codec)	38.7	45.1
CoMoE (DAC)	61.4	29.2
CoMoE (EnCodec)	43.8	23.5
CoMoE (MERT \(k\)-means)	51.9	17.3
MERT-continuous	49.9	7.8

关键发现¶

token 空间身份是固定架构下的主导因素：所有 CoMoE 行共用分类器，Fake-Udio 上 EnCodec 跌到 58.64%、DAC 77.28%、X-Codec 高达 89.04%——差异全部来自输入 token。而且没有"全能最优 token"：MERT \(k\)-means 在 Fake-Suno3.5 上最强（92.22%），X-Codec 在 Fake-Udio 上最强，说明最佳 token 空间随目标生成器而变。
CLAM 的崩塌最戏剧：base 99.92% 的强基线在 Fake-Udio 上 AUC 掉到 66.51%，对应的 held-out 检测率只有 2.6%（几乎全漏报）——典型的"在标准 split 上鲁棒只是假象"。
音乐预训练表征不足以解释增益：MLP(MERT) 在 base/real-restricted 很强但 fake-restricted 大跌，说明 X-Codec 的优势不能简单归因于"用了音乐预训练表征"，序列化的 token 结构也起作用。
离散化本身不解释 AUC，但影响操作点稳定性：MERT-continuous 用同 backbone 换连续特征，Fake-Suno3.5 上 AUC 反而更高（93.84 vs 92.22），但 Fake-Udio 的 held-out 检测率从 17.3% 崩到 7.8%——AUC 和操作点行为会分叉，fake-source 评测必须同时看排名指标和操作点指标。

亮点与洞察¶

把"预处理细节"重新框定为"主实验变量"：这篇论文最大的价值不是某个 SOTA 数字，而是一个研究范式上的提醒——在生成器迁移下，token 空间应当像模型架构一样被系统性消融，而不是随手选一个 tokenizer 就开跑。这个洞察可直接迁移到语音 deepfake、AIGC 图像/视频检测等所有"换生成器就掉点"的取证任务。
受控探针的方法论很干净：冻结一切、只动一个变量，是把"表征 vs 分类器"这类纠缠问题解耦的标准做法，CoMoE 是这一思路在 codec token 上的轻量实现，复现成本低（单卡 H100、12 epoch）。
AUC 与操作点背离的警示：CLAM 在 Fake-Udio 上 AUC 还有 66.51% 看似"非随机"，但固定阈值下检测率仅 2.6%，提醒做迁移评测时只报 AUC 会掩盖部署时的真实失效。

局限与展望¶

作者承认 MoM-open 是开放重建，真实那半换成了 FMA/Jamendo，与原 MoM-CLAM 并非严格等价；且 X-Codec mini 在血缘上不是完全独立于 YuE 相关工具链（可能存在表征-生成器的潜在泄漏）。
没有控制训练池规模：不同生成器的训练样本量差异很大（Suno-v3.5 有 28,611 条、Suno-v2 仅 660 条），fake-source 受限的强弱可能部分被样本量混淆。
只是诊断、未给解法：论文证明了 token 空间重要，但没有提出"如何在生成器迁移下选/融合 token 空间"的方法。作者展望未来应评测更多生成器源、控制训练池规模、并测试 calibration 或 fusion 在生成器迁移下的效果。

评分¶

新颖性: ⭐⭐⭐⭐ 把 token 空间从预处理抬升为主实验变量的视角新颖，但方法本身是受控探针而非新模型
实验充分度: ⭐⭐⭐⭐ 多 tokenizer × 多 split 的对照干净，AUC+操作点双指标到位；但未控训练池规模、生成器源数量有限
写作质量: ⭐⭐⭐⭐ 受控变量逻辑清晰，结论与表格自洽
价值: ⭐⭐⭐⭐ 诊断性强、可直接迁移到其他生成内容取证任务，但只诊断未给解法