Self-Harmony: Learning to Harmonize Self-Supervision and Self-Play in Test-Time Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2511.01191
代码: Self-Harmony (论文中标注公开可用)
领域: LLM 推理 / 测试时强化学习
关键词: Test-Time RL, Self-Play, Pseudo-Label, Harmonic Mean, LLM Reasoning

一句话总结¶

提出 Self-Harmony 框架，通过让单一模型扮演两个角色（Solver 求解原始问题 + Reframer 改述问题），将答案在原始和改述视角下的调和平均得分作为伪标签选择标准，替代传统多数投票，在 30 个实验设置中 28 个达到 SOTA，且训练零失败。

研究背景与动机¶

测试时强化学习（TTRL）是 LLM 推理的新范式：TTRL 允许模型在推理阶段利用未标注的测试数据通过自生成反馈信号来自我改进，无需人工标注数据或外部模型辅助。

多数投票存在致命缺陷：当模型存在系统性推理缺陷时，错误答案可能比正确答案出现频率更高。此时多数投票不仅无法纠错，还会通过选择错误答案作为训练目标来放大错误——形成"回音室"效应。Liu et al. (2025b) 从理论上证明：当 $p(\text{Correct}|x) < p(\text{Wrong}|x)$ 时，随着采样数增加，多数投票恢复正确答案的概率趋近于零。

核心直觉：正确答案应在语义等价的不同表述下保持稳定：人类在面对不确定性时，常通过换角度思考来验证答案的鲁棒性。脆弱的推理路径容易被措辞变化打断，而正确推理则不受表面形式影响。

现有替代方案的不足：外部验证器或奖励模型（Lightman et al., 2024; Khalifa et al., 2025）虽然有效，但违背了"完全自包含"的测试时设置原则。

方法详解¶

整体框架¶

Self-Harmony 让单一模型 $M_\theta$ 在两个角色间切换： - Solver $\pi_\theta$：对给定问题生成答案 - Reframer $\rho_\theta$：将问题改述为语义等价但表述不同的新问题

流程：Solve → Reframe → Solve，然后用调和平均选择跨视角一致的伪标签进行强化学习训练。

关键设计¶

1. 双视角答案生成

功能：为每个问题从原始和改述两个视角生成答案分布
核心思路：原始问题 $x$ 得到答案集 $\{y_i\}$，改述后的 $x'$ 得到答案集 $\{y'_i\}$，分别计算每个候选答案的经验频率 $\hat{p}_0(a)$ 和 $\hat{p}_1(a)$
设计动机：基于视角不变性假设——正确答案在不同表述下的概率应近似不变，而错误答案依赖于特定表述

实验验证了这一假设：正确答案在原始和改述问题间的一致性显著高于错误答案的一致性。

2. 调和平均伪标签选择（HMS）

功能：用调和平均取代多数投票来选择训练用的伪标签
核心思路：$y^\star = \arg\max_a \frac{2\hat{p}_0(a)\hat{p}_1(a)}{\hat{p}_0(a) + \hat{p}_1(a)}$
设计动机：从信息论推导——调和平均是 View-Invariant Infomax 目标 $J_\lambda(a) = I(Z_a; A) - \lambda I(Z_a; X)$ 在 $\lambda = 2$ 下的二阶近似最优解

理论保证（Theorem 3.2）：在视角不变性假设、非退化条件、平衡置信条件和均匀视角先验下，调和平均选择器最大化视角不变 Infomax 目标的二阶近似，从而提供比多数投票更鲁棒的伪标签。

调和平均的关键优势：它对低值高度敏感——答案必须在两个分布中都频繁出现才能获得高分，有效过滤只在单一视角中由脆弱推理产生的伪答案。

3. 融合式 Reframe-and-Solve 实现

功能：将改述和求解融合为单次生成，减少推理成本
核心思路：通过 system prompt 指导模型先改述问题再立即求解，将 3 次模型调用减少到 2 次
设计动机：三步流程（solve→reframe→solve）需要 3 次模型调用，融合后只需 2 次

损失函数 / 训练策略¶

求解动作的奖励：$R_{\text{solve}}(y) = \mathbb{I}[y = y^\star]$

融合改述-求解动作的奖励：采用门控设计，答案正确是前提，再考虑格式和多样性惩罚： $$R_{\text{fused}}(y') = (1 - w_f R_{\text{format}}^{\text{penalty}}(y'))(1 - w_d R_{\text{div}}^{\text{penalty}}(y', y))\mathbb{I}[y' = y^\star]$$

其中多样性惩罚使用原始和改述问题答案分布间的 Jensen-Shannon 散度，鼓励改述提供真正不同的视角。

实验关键数据¶

主实验¶

Qwen3-1.7B-Base 在多个基准上的表现：

方法	MATH500	GSM8K	AIME2024	AMC	GPQA	MMLU-Pro
Before RL	42.70	65.58	3.33	26.50	20.30	16.61
GT-Reward（上界）	71.80	85.97	20.83	53.01	53.80	85.71
Majority-Voting	64.64	83.80	9.37	37.65	24.68	44.82
Co-Reward	64.67	86.59	6.67	39.75	23.66	47.14
Self-Harmony	69.60	87.47	10.00	40.51	27.92	53.66

Llama-3.1-8B 的显著提升：GSM8K 从 60.5% 提升到 91.6%

Qwen3-4B 的显著提升：MATH500 从 60.2% 提升到 78.5%

消融实验¶

配置	效果
调和平均 vs 多数投票	调和平均在几乎所有设置中更优
双视角多数投票 vs 调和平均	调和平均更稳定，双视角多数投票仍有失败模式
门控奖励 vs 加法奖励	门控设计避免了对产出错误答案但格式良好的改述给予奖励
多样性惩罚的作用	鼓励生成真正提供新视角的改述，而非简单复述

关键发现¶

30 个实验设置中 28 个排名第一：覆盖 5 个开源模型 × 6 个推理基准
零训练失败：所有实验中没有出现训练崩溃，展现了前所未有的稳定性
仅需 16+16 个 rollout：原始 16 个、改述 16 个就能获得强大的改进效果
与真实标签奖励（GT-Reward）的差距显著缩小：Self-Harmony 的性能接近使用真实标签的上界
Intuitor 和 Rent 等基线存在训练不稳定问题：需要报告峰值分数（标 *），而 Self-Harmony 使用最终步分数

亮点与洞察¶

调和平均的理论优美性：从 View-Invariant Infomax 目标自然推导出调和平均，而非将其作为启发式规则引入，理论基础扎实
单模型双角色的极简设计：无需辅助模型或外部验证器，仅通过 prompt 切换角色，保持了方法的简洁性和可扩展性
"正确答案应跨视角稳定"的核心直觉既简单又深刻：这一观察源自人类认知的鲁棒性验证行为，在 LLM 中同样适用
零失败率是重要的工程优势：TTRL 方法的训练不稳定性是实际部署的一大障碍，Self-Harmony 的稳定性具有很强的实用价值

局限与展望¶

改述质量依赖模型能力：如果模型本身改述能力弱（如极小模型），Reframer 角色可能产生语义偏移
计算开销翻倍：每个问题需要生成两组 rollout（原始 + 改述），推理成本约为标准 TTRL 的 2 倍
View-Invariance 假设的局限：对于某些真正对措辞敏感的任务（如自然语言推理中的逻辑方向性），正确答案可能也受表述影响
仅在推理任务上验证：对于开放式生成、摘要等任务，调和平均伪标签的适用性未探讨
超参数 $w_f, w_d$ 的敏感性：融合奖励中的权重如何选择，对不同任务和模型的最优配置可能不同

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 调和平均伪标签 + 单模型自我对弈的组合极具创意，理论推导优美
实验充分度: ⭐⭐⭐⭐⭐ — 5 个模型 × 6 个数据集 × 多种基线，30 个设置全面覆盖，零训练失败令人印象深刻
写作质量: ⭐⭐⭐⭐ — 动机清晰，理论证明完整，框架图直观；但方法部分符号较密集
价值: ⭐⭐⭐⭐⭐ — 解决了 TTRL 中的核心问题（多数投票陷阱），稳定性和通用性使其有望成为 TTRL 的默认方法