Asymmetric Proximal Policy Optimization: Mini-Critics Boost LLM Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0vgzrcv4Dr
代码: 待确认
领域: LLM 推理 / RL4LLM
关键词: PPO, 非对称 actor-critic, mini-critic 集成, 价值估计, 熵正则, RLVR

一句话总结¶

AsyPPO 用两个轻量 mini-critic（在 prompt 级别不重叠的数据分片上训练）替代与 actor 同等大小的笨重 critic，既恢复了 PPO 价值函数的作用又保持 GRPO 级别的开销，并进一步用两个 critic 的"分歧度"信号去做优势屏蔽和熵过滤，在 Qwen3-4B/8B/14B 上稳定超越 GRPO 和经典 PPO。

研究背景与动机¶

领域现状：PPO 是经典深度 RL 中最有效的 actor-critic 算法，迁移到 LLM 后训练成"做对题给奖励"的 RLVR 也很成功。但 PPO 默认采用对称设计——critic 和 actor 一样大。在 LLM 尺度上训练一个全尺寸 critic 既昂贵，又在稀疏奖励、超长推理链下估不准。于是 GRPO/DAPO/GSPO 这批主流方法干脆扔掉 critic，用一组采样的平均优势作 baseline 来粗粒度估计优势。

现有痛点：丢掉 critic 看似省事，却也丢掉了 RL 的一个核心能力——鲁棒的状态价值估计本可以缓解优势偏差导致的训练崩溃，尤其在 off-policy（样本被重复利用）场景下。GRPO 这类无 critic 方法在高样本复用比下容易不稳。

核心矛盾：想要 critic 带来的细粒度、鲁棒价值估计，又不想付出"critic 和 actor 一样大"的算力代价。能不能重新设计 PPO，跳出对称 actor-critic 架构，做到轻量却鲁棒的价值估计？

本文目标：把 RL4LLM 的 critic 瓶颈重新定义为一个架构问题而非纯算法/优化问题，恢复 critic 的角色同时保持 LLM 尺度下的高效。

核心 idea：作者的关键洞察是——预训练模型自带的丰富表征能力，让"小 critic 指导大 actor"的非对称架构在 RL4LLM 里变得可行（这是和"从零学起"的经典 RL agent 最大的区别）。一个 0.6B 的 critic 居然能给 8B 的 actor 提供有意义的指导。但单个小 critic 不如对称 PPO，于是引入 critic 集成；又因为 LLM critic 都从同一预训练 checkpoint 初始化导致集成无效，于是提出不重叠数据分片来制造差异；最后发现两个 critic 之间的"一致 / 分歧"模式本身就是宝贵信号，可用来重构 policy loss。

方法详解¶

整体框架¶

AsyPPO 把 PPO 的对称 actor-critic 改成"一个大 actor + 两个轻量 mini-critic"。两个 mini-critic 从同一预训练模型初始化，但分别在 prompt 级别互不重叠的数据子集上训练，从而学出有差异、却仍校准的价值估计；取二者均值修正优势，喂给 GAE。在此基础上，进一步把两 critic 价值估计的标准差 $\sigma_t$ 当作"状态信息量/不确定性"的代理信号，反过来改写 PPO 的损失：在 critic 高度一致的状态屏蔽优势，在 critic 严重分歧的状态过滤掉熵正则。

flowchart TD
    A[Actor 大模型<br/>Qwen3-4B/8B/14B] -->|采样响应 O| B[两个 mini-critic<br/>同初始化]
    B -->|prompt 级不重叠分片 Dm| C[各自拟合回报 Rt]
    C --> D["均值修正价值 V̄ = mean(V1,V2)<br/>→ GAE 算优势 Ā"]
    C --> E["分歧度 σt = std(V1,V2)"]
    E -->|σ 最低 k%：critic 一致| F[优势屏蔽 I^A=0<br/>跳过低信息状态]
    E -->|σ 最高 h%：critic 分歧| G[熵过滤 I^H=0<br/>抑制无意义探索]
    D --> H[重构 PPO loss]
    F --> H
    G --> H
    H -->|更新| A

关键设计¶

1. 非对称 mini-critic + prompt 级不重叠分片：让小 critic 集成真正有差异。作者先验证单个 0.6B 小 critic 能指导 8B actor，说明非对称架构可行，但单 critic 价值估计能力有限、跑不过对称 PPO。自然想到用 critic 集成降偏差，可这里有个 LLM 特有的坑：经典 RL 的 critic 是随机初始化的，天生有参数多样性；而 LLM 的 critic 都从同一预训练 checkpoint 出发、只换了 value head，又在同一份数据上训，结果两个 critic 行为几乎一模一样，集成等于没集成。作者的解法是给每个 critic 喂不同的数据——但不能随机切，随机切会让不同 critic 看到不同 prompt 的推理模式，产生 prompt 级"感知不同步"甚至导致策略崩溃。于是改成在 prompt（group）层面均匀切分：每个 critic 在每道题内拿到等量但不重叠的响应，既保持题内感知同步、又制造了奖励/观测的差异。集成 critic 训练目标为 $$L_{\text{critic}}(\phi)=\sum_{m=1}^{M}\mathbb{E}_{(s_t,R_t)\sim D_m}\big[(V(s_t;\phi_m)-R_t)^2\big],\quad D=\bigcup_m D_m,\ D_i\cap D_j=\varnothing$$ 修正后的优势用两 critic 均值价值算 GAE：$\bar V(s_t)=\frac1M\sum_m V_m(s_t;\phi_m)$，$\bar A_t=\sum_l(\gamma\lambda)^l\delta_{t+l}$，$\delta_t=r_t+\gamma\bar V(s_{t+1})-\bar V(s_t)$。实验发现两个 critic 就是甜点——一举提升估计可靠性，再加更多 critic 只增算力不增收益。

2. 基于价值一致度的优势屏蔽：丢掉学不到东西的状态。有了两个有差异的 critic，它们价值估计的标准差 $\sigma_t=\mathrm{std}(\{V(s_t;\phi_m)\})$ 就成了状态信息量的天然度量。作者观察到：当两个 critic 对某状态高度一致（$\sigma_t$ 很小），往往说明这个状态的下游动态已被策略很好地建模、回报方差低，是高频、低信息的样本——继续在上面更新只会过拟合。于是把 $\sigma$ 最低的 $k\%$ 状态的优势屏蔽掉，损失里加一个指示符 $I^A_t$： $$J_{\text{PPO}}(\theta)=\mathbb{E}\frac1{|o|}\sum_{t=1}^{|o|}I^A_t\cdot\min\!\big(IS_t\cdot\bar A_t,\ \mathrm{clip}(IS_t,1-\epsilon,1+\epsilon)\bar A_t\big),\quad I^A_t=\begin{cases}0,&\sigma_t\in\mathrm{Low}_k(\sigma)\\1,&\text{otherwise}\end{cases}$$ 在高样本复用（UTD=4，每个样本训四遍）下屏蔽底部 20% 能稳住学习动态、提升约 6 个点。作者还把这种 critic 侧不确定性（value-std）和 policy 侧不确定性（entropy）对比：value-std 屏蔽的学习收益更强，且低 value-std 状态总是对应低熵，说明 value-std 是更精准的不确定性度量。

3. 基于价值分歧的熵过滤：别在"非决策状态"上瞎探索。反过来，当两个 critic 对某状态评估严重分歧（$\sigma_t$ 很大），往往意味着这个状态和最终结果耦合很弱、未来动态复杂——比如经过它的轨迹里混着推理无关的 token（副词、感叹词）或语义噪声，配合较大的 $\lambda$，回报分布的离散会回传到各状态放大分歧。在这种"非决策状态"上做熵探索是浪费。作者因此引入一个加权 $\beta$ 的"安全熵正则"，把 value-std 最高的 $h\%$ 状态从熵项里过滤掉： $$J_{\text{PPO}}(\theta)=\mathbb{E}\frac1{|o|}\sum_{t=1}^{|o|}\Big[I^A_t\cdot\min(\cdots)+\beta\cdot I^H_t\cdot H[\pi_\theta(\cdot|s_t)]\Big],\quad I^H_t=\begin{cases}0,&\sigma_t\in\mathrm{Top}_h(\sigma)\\1,&\text{otherwise}\end{cases}$$ naive 熵正则容易把策略推向熵崩溃，而这种过滤后的熵正则缓解了崩溃、稳住训练、把策略导向更高回报的收敛。有意思的是 value-std 高的集合和 entropy 高的集合几乎不重叠：过滤掉 40% 高 value-std 状态熵仍稳定，过滤同比例高熵状态却会熵崩溃——再次说明两种信号本质不同。

实验关键数据¶

主实验（泛化到大模型，14B actor，average@4）¶

在 MATH-500、Minerva Math、AMC 2023、OlympiadBench 四个难基准上，actor 固定 Qwen3-14B-Base，UTD=4（off-policy），batch 1024、最大长度 8192、lr 1e-6。

方法	配置	相对表现
GRPO	无 critic，平均优势 baseline	基线
Naive 非对称 PPO	单 1.7B critic 指导 14B	失败（capacity 不够）
Naive 非对称 PPO	单 4B critic 指导 14B	恢复有效学习
经典对称 PPO	14B critic	高开销
AsyPPO	双 4B critic + 20% 屏蔽 + 20% 过滤	四项最强，比 GRPO 平均高约 3 点

关键现象：单 critic 存在明显的"critic 容量阈值"——1.7B critic 能指导 8B actor 却带不动 14B actor，要升到 4B 才行；而 AsyPPO 把这个门槛降下来了，1.7B 双 critic 就能给 14B actor 带来可观的推理增益。算力上非对称架构相比对称 PPO 峰值显存降约 20%、每步训练快约 20 秒，停在 GRPO 级别。

消融实验¶

维度	结论
critic 尺寸	类似 scaling-law：critic 越大策略峰值越高，建议用显存能放下的最大 critic
critic 数量	两个 mini-critic 即出现质变，再加更多只增算力不增收益
group size	32 最稳健
价值聚合方式	取均值优于取 min，说明 RL4LLM 里高估不是主要问题
优势屏蔽比例	屏蔽 20% 最低 value-std 状态收益最强
熵过滤比例	20% 平衡探索-利用最好，过滤更多（30/40%）会熵崩溃

关键发现¶

仅用 5k 开源样本（DeepMath-103K 采样）训练，AsyPPO 在 Qwen3-4B-Base 上比经典 PPO 提升 >6%，在 8B/14B 上约 3%，且无额外 trick。
value-std 屏蔽（约 6 点）和熵过滤（约 7 点）两个改动各自都带来可观增益。
低 value-std 状态总伴随低熵，但低熵状态未必低 value-std——value-std 是更精准的状态不确定性度量。

亮点与洞察¶

把"要不要 critic"重新定义为架构问题。社区主流是算法层面绕开 critic（GRPO 系），本文反其道而行：critic 没问题，问题是"和 actor 一样大"这个对称假设——拆掉它就能两全。视角很清新。
善用预训练先验。经典 RL 从零学，小 critic 表征弱；LLM 的小 critic 继承了预训练表征，所以"小指导大"才成立。这个 RL4LLM vs 经典 RL 的根本差异被作者讲得很到位。
一个信号、两种用法。两 critic 的标准差既当"信息量"（一致→屏蔽优势）又当"非决策性"（分歧→过滤熵），把集成的副产品榨成了优化信号，设计很经济。
"双 critic 是甜点"有实用价值：直接告诉工程实践只需两个 mini-critic，省去了集成规模调参。

局限与展望¶

所有实验 actor/critic 都来自 Qwen3 系列，未验证 Llama 等其他模型族，也未做跨族 critic 集成。
最大生成长度固定 8k，未评估超长推理预算（更长 CoT）下的表现。
随机种子较少，作者自己也承认需要更多种子来加固结论的鲁棒性。
未来方向：异构（不同族/尺寸）critic 集成、置信度加权的集成 critic、以及 value 不确定性与 entropy 关系的更深入分析。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 在 GRPO 系"无 critic"成为主流的当下逆向恢复 critic，且把它做成轻量非对称架构 + 不重叠分片 + 集成分歧信号三件套，视角和方法都新。
实验充分度: ⭐⭐⭐⭐ 覆盖 4B/8B/14B 三个规模、多个数学基准，消融把 critic 尺寸/数量/group size/聚合/屏蔽-过滤比例都扫了；扣分在仅 Qwen3 一个模型族、8k 长度、种子偏少。
写作质量: ⭐⭐⭐⭐ 三个 Takeaway 收束清晰，动机递进（单 critic→集成失败→分片→分歧信号）讲得有逻辑，图示直观；公式略多但都服务于主线。
价值: ⭐⭐⭐⭐⭐ 给 RL4LLM 提供了一条"既要 critic 鲁棒性又要 GRPO 级开销"的实用路线，5k 样本、显存降 20%、可观增益，工程落地性强。