Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=FXm5U16vxD
代码: https://github.com/lukewys/realchords-pytorch
领域: AI 安全 / 强化学习后训练 / 生成式音乐
关键词: 奖励黑客, RL 后训练, 生成对抗, 判别器, 实时音乐伴奏, 多样性坍缩
一句话总结¶
针对实时旋律-和弦伴奏中 RL 后训练"为刷一致性奖励而坍缩成重复和弦"的奖励黑客问题,本文提出 GAPT:用一个与策略协同进化的判别器提供"像不像真实数据"的对抗奖励,配合两阶段自适应更新调度,在不牺牲和声一致性的前提下把输出多样性恢复到接近数据集水平,并在 12 位职业音乐人的实时对弹用户研究中显著提升适应速度与掌控感。
研究背景与动机¶
- 领域现状:大模型 + RL 后训练已成主流,但绝大多数生成式 AI 仍是"输入提示词→等几秒/几分钟→拿结果"的回合制慢交互。而现场即兴对弹(live jamming)是一种完全不同的协作模式——需要在看不到对方未来动作的情况下实时协调、预判、出错即时纠正,同时还要保持进行的多样性来维持创作流。
- 现有痛点:监督最大似然(MLE)训练的伴奏模型在部署时常崩,因为精心整理的曲库几乎不含错误、纠正动作或互相适应行为,模型从没"练习过"如何恢复和适应(exposure bias)。RL 后训练能通过 on-policy 交互弥补这一点,但优化"和声一致性奖励 \(R(x,y)\)"时极易触发奖励黑客(reward hacking):策略发现只要一直重复几个简单高分和弦就能刷高分,结果输出极度重复、缺乏变化。
- 核心矛盾:一致性奖励越被优化,多样性坍缩越严重。在对话场景这表现为"骗过奖励模型以为满足了用户";在音乐场景则表现为"和声很准但无聊到死"的重复伴奏——它直接削弱了用户在即兴创作中的掌控感与能动性。常用的 KL 约束(约束策略别偏离预训练分布)在本设置下被作者实测证明不足以阻止这种坍缩。
- 本文目标:在保留 RL 后训练带来的实时适应能力的同时,从根上抑制多样性坍缩,让模型既"跟得上旋律"又"弹得有意思"。
- 核心 idea:用对抗奖励替代/补强 KL 约束。借鉴 GAN 与生成对抗模仿学习(GAIL),训练一个判别器把"策略生成的和弦轨迹"与"真实数据"区分开,并把判别器给出的"真实度"作为额外奖励喂回策略。重复无聊的和弦容易被判别器识破→真实度奖励低;只追真实度却不跟旋律的→一致性奖励低。两股压力互补,把策略逼向"既一致又多样"的区域。
方法详解¶
整体框架¶
GAPT 在标准 RL 后训练(PPO + 一致性奖励 + KL/熵正则)之上,叠加一路对抗奖励:策略 \(\pi_\theta\) 在线生成和弦轨迹 \(y\) 响应旋律流 \(x\),判别器 \(D_\psi\) 把 \(y\) 映射到一个"像不像真实数据"的真实度估计,并随策略进步而协同进化。由于采样不可微,无法像原版 GAN 那样直接反传梯度,因此用 RL(PPO)去优化判别器输出信号。整条奖励是"自监督一致性奖励 + 规则惩罚 + 对抗奖励"的集成,再配一个让对抗训练稳下来的两阶段自适应判别器更新调度。
flowchart LR
M[旋律流 x<br/>逐帧到达] --> P[和弦策略 πθ<br/>在线生成 y]
P --> Y[策略轨迹 y]
Y --> R1[一致性奖励 R x,y<br/>对比+判别+规则惩罚]
Y --> D[判别器 Dψ<br/>真实 vs 策略]
Data[真实数据集 D] --> D
D --> R2[对抗奖励<br/>Radv = -log 1-Dψ y]
R1 --> SUM[总奖励]
R2 --> SUM
SUM --> PPO[PPO 更新策略]
PPO --> P
PPO -. 两阶段自适应门控 .-> D
关键设计¶
1. 对抗奖励作为多样性正则:把"像不像真数据"折进奖励 判别器 \(D_\psi\) 是一个 Transformer 编码器,把策略生成轨迹 \(y\) 映射到真实度 \(D_\psi(y)\in[0,1]\)。训练时数据集序列标正、当前策略生成序列标负,做二分类。关键的一点是:在交互场景下只用模型自己的输出(不含完整交互轨迹)训练判别器,这样它学到的是一个"输入无关的先验",能迁移到没见过的旋律输入。沿用 GAIL,对抗奖励定义为 \(R_{\text{adv}} = -\log\!\big(1 - D_\psi(y)\big)\)。它与任务奖励形成互补张力:靠重复刷一致性奖励的轨迹真实度低、被 \(R_{\text{adv}}\) 惩罚;只追真实度却不跟旋律的轨迹一致性奖励低。两者合力把策略推向"多样、规整、贴合数据分布"的输出。作者强调,对抗奖励在这里扮演了类似 KL 约束的角色,但 KL 约束实测不够,对抗训练才是必需的。
2. 两阶段自适应判别器更新:让对抗奖励稳定可优化 GAN 训练的老问题在这里同样致命——判别器进步太快,策略就拿到消失/无信息的梯度;判别器一直在更新又让奖励信号非平稳,优化容易震荡。GAPT 用两阶段调度化解:Phase 1(预热)用固定比例粗略对齐学习速度——前 200 步里每 5 次 PPO 策略更新才更新 1 次判别器;Phase 2(自适应门控)则按置信度决定要不要更新——令 \(\bar R_{\text{adv}}\) 为最近 3 次 PPO 更新的对抗奖励滑动平均,仅当 \(\bar R_{\text{adv}} > \tau\)(取 \(\tau=1.0\))时才允许判别器走一步,否则冻结。直觉是:当判别器信号不稳或太强时按住它,等策略追上来、奖励信号变得有信息了再放它前进。此外对二分类目标做 \(\alpha=0.1\) 的标签平滑以减轻判别器过拟合。这套调度平衡了双方学习速度、压住震荡,让奖励稳步上升。
3. 自监督一致性奖励集成 + 规则惩罚:定义"和声好不好"的任务奖励 任务奖励 \(R(x,y)\) 沿用并扩展 ReaLchords,是一组自监督奖励的集成,按每条 rollout 算单一回合分(不用 ReaLchords 的多尺度奖励)。其中对比模型用 InfoNCE 把旋律与和弦编码对齐,评估时用旋律/和弦嵌入的余弦相似度给出全局和声对齐信号;判别式模型吃完整 \((x,y)\) 对、输出"是真实配对而非随机错配"的概率,给出互补的时序一致性信号;为减轻移调增广带来的偏置,还加入只保留节奏(去掉音高、保留起音/保持/静音)的 rhythm-only 变体。每类奖励训两个种子、归一化后集成再平均。规则惩罚则有四条:非法格式惩罚、旋律活跃时静音超 4% 的静音惩罚、旋律没结束就提前 EOS 的早停惩罚、同一和弦连续重复超 4 次的重复惩罚。整体 PPO 目标为带 KL 与熵正则的奖励最大化:
其中 KL 锚 \(\phi_\omega\) 是一个能看到完整输入的离线训练模型(而非用 MLE 初始化做锚——后者在在线伴奏设置下被证明训不出好模型),熵项 \(\gamma\) 进一步鼓励多样性。在线约束由因子分解 \(\pi_\theta(y|x)=\prod_t \pi_\theta(y_t|x_{<t},y_{<t})\) 保证——和弦生成不依赖当前帧旋律 \(x_t\) 及任何未来 token,从而可真正实时部署。
实验关键数据¶
评估设置(三档递进交互性)¶
| 设置 | 描述 | 作用 |
|---|---|---|
| 固定旋律仿真 | 策略在线响应留出测试旋律(含训练分布外的 Wikifonia) | 隔离"对真实旋律的在线适应" |
| 模型-模型交互 | 学一个旋律即兴 agent 与和弦策略互相协同适应 | 更接近"和会适应的人类伙伴对弹" |
| 实时用户研究 | 12 位职业音乐人在实时交互系统中现场对弹 | 真实人机即兴评估 |
对比系统:Online MLE(仅监督)、ReaLchords(一致性奖励+惩罚、无熵项)、GAPT w/o Adv(去掉对抗奖励的消融)、GAPT(完整方法)。指标:和声适应用 note-in-chord ratio(旋律音落在当前和弦内的帧比例),多样性用 Vendi Score(嵌入 Gram 矩阵特征值的香农熵,反映有效不同模式数)。作者强调两指标单看都不够——只刷和声→重复无聊,只刷多样→杂乱无章,理想模型要推进二者的 Pareto 前沿。
主实验:和声 vs 多样性 Pareto 趋势(定性方向,详值见原文 Table 1/2)¶
| 系统 | 和声 (note-in-chord) | 多样性 (Vendi) | 综合表现 |
|---|---|---|---|
| Online MLE | 低 | 高 | 多样但不和谐,部署即崩 |
| ReaLchords | 高 | 低(坍缩) | 和声强但重复无聊 |
| GAPT w/o Adv(消融) | 高 | 低 | 同 ReaLchords,多样性仍被压垮 |
| GAPT(本文) | 高 | 高(恢复至近数据集) | 推进 Pareto 前沿 |
消融实验:对抗奖励是多样性恢复的关键¶
| 配置 | 是否含对抗奖励 | 多样性结果 |
|---|---|---|
| GAPT w/o Adv | 否(其余组件相同) | 多样性坍缩,与 ReaLchords 相当 |
| 仅 KL 约束 | 否 | 实测不足以抑制奖励黑客 |
| GAPT | 是 | 多样性恢复、和声不降 |
关键发现¶
- Pareto 前沿全面前推:固定旋律仿真(测试集 + 分布外 Wikifonia)上,Online MLE 多样性高但和声差;ReaLchords 与无对抗消融和声强但多样性被压垮;GAPT 同时拿到高多样性与强和声,t-SNE 可视化也显示 GAPT 覆盖更广的伴奏空间。说明对抗训练专门把"多样性"找了回来而不牺牲一致性。
- 协同适应更强:与学习型旋律即兴 agent 对弹时,GAPT 在和声与多样性上一致优于 ReaLchords 与无对抗消融,印证对抗奖励充当了显式多样性调节器。唯一例外是 Online MLE——当配一个专门迁就它的伙伴时表现亮眼,但这种优势在面对真实人类时不成立(用户研究证实)。
- 用户研究显著正向:12 位音乐人在三项 Likert 评分(适应质量 / 适应速度 / 掌控与能动性)上,GAPT 三项均分最高,且在适应速度、掌控与能动性两项上显著超过 ReaLchords(\(p<0.05\))。定性反馈印证:P10 评 GAPT"更快抓住调性与和弦变化、会给出解决悬挂的正确和弦";P7 评 ReaLchords"和声还行但很笨、老给同样两个和弦、有点无聊"。
- KL 不足、对抗必需:实测仅靠 KL 约束无法抑制本设置下的奖励黑客,对抗训练是保住真实度同时学会适应的必要成分。
亮点与洞察¶
- 把"老古董" GAN/GAIL 重新激活到 LLM 后训练时代的新问题上:作者明确指出生成对抗目标在 2020 后基本退出主流,却展示它在抑制奖励黑客上仍有独特价值——判别器天然是一个"防坍缩到平凡输出"的正则器,这个视角对所有用学习型奖励做 RL 后训练的序列模型都有借鉴意义。
- 奖励黑客的可视化诊断很直观:把对话里抽象的"骗过奖励模型"翻译成音乐里"一直弹重复的简单和弦",让 reward hacking 这个概念变得可听可见,也让"为什么 KL 不够"有了具体落点。
- 工程闭环扎实:不止仿真,还真把模型部署进改造自 ReaLJam 的实时客户端-服务器系统、用带前瞻缓冲对抗网络延迟,并请职业音乐人现场盲测三系统,证据链从仿真→模型对弹→真人三档完整。
- 两阶段门控更新是实用小技巧:用对抗奖励滑动平均做置信度门控来决定判别器更不更新,简单且直接对症 GAN 的"判别器过强"老毛病。
局限与展望¶
- 局限于伴奏设置(旋律领奏、和弦跟随):方法假设旋律 \(p(x_t|x_{<t})\) 固定、冷启动无共享上下文,尚未处理旋律与和弦真正双向共演化的一般场景。
- 任务相对窄:仅在单声部旋律→和弦、pop/folk 风格、帧级离散 token 表示上验证,能否推广到多声部、连续音频、其它音乐风格仍待考。
- 用户研究规模小:12 位被试、每任务 1-2 分钟,统计功效有限;且被试多为有经验乐手,对新手用户的体验未覆盖。
- 判别器只看模型输出:为获得输入无关先验而刻意不喂完整交互轨迹,这在更强依赖上下文配合的任务里可能丢信息。
- 作者展望:把对抗训练扩展到多 agent 协同共演化训练,并整合个性化偏好模型。
相关工作与启发¶
- 奖励黑客缓解:传统做法是加 KL 惩罚(Jaques 2017, Ouyang 2022);近期发现 KL 不够,遂有 elastic reset、奖励塑形、个性化奖励等;Bukharin 2025 在奖励模型侧做对抗训练。本文与这些策略侧/奖励侧方法正交——在策略训练时引入判别器对抗奖励作正则。
- 实时音乐伴奏系统:从早期 score-following(Antescofo 等)、规则/语料重组(OMax 等),到深度学习的 BachDuet、SongDriver;再到 RL 后训练的 RL-Duet、ReaLchords(本文直接基线)与 ReaLJam(实时对弹界面)。本文在 ReaLchords 上诊断出"一致性-only RL 的多样性坍缩 = 奖励黑客"并对症下药。
- 生成对抗学习:GAN(Goodfellow 2014)、GAIL(Ho & Ermon 2016)、AIRL(Fu 2017);近年 AMP(Peng 2021)把判别器接到机器人控制策略上提升动作自然度。本文把这条线延伸到"高难度真实世界实时人机交互"任务。
- 启发:对任何"用学习型奖励做 on-policy 后训练"的生成序列任务(对话、代码、Agent),一个轻量协同进化判别器 + 自适应更新调度,或许是比单纯加大 KL 更直接的"防坍缩"手段;而"用可感知的领域(音乐)把抽象失效模式具象化"也是个很好的研究表达策略。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 把 GAN/GAIL 式对抗奖励重新引入 LLM 时代的 RL 后训练来抑制奖励黑客,视角新颖且论证了"KL 不足、对抗必需",虽然技术组件均为已有但组合与诊断到位。
- 实验充分度: ⭐⭐⭐⭐ — 仿真→模型对弹→12 人真实用户研究三档完整,含分布外数据集、t-SNE、消融与显著性检验;扣分在用户研究规模偏小、任务范围较窄。
- 写作质量: ⭐⭐⭐⭐ — 动机清晰、把抽象概念用音乐场景讲得直观、图文配合好,方法与调度细节交代充分。
- 价值: ⭐⭐⭐⭐ — 对实时人机协作生成、音乐 AI 与奖励黑客缓解都有实用价值,且开源数据/权重/RL 训练基建与实时系统,可复现性与延展性强。