General Process Reward Modeling for Robotic Reinforcement Learning¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://robo-dopamine.github.io （项目页）
领域: 机器人 / 强化学习 / 奖励建模
关键词: 过程奖励模型, 机器人操作, 强化学习, 奖励塑形, 多视角

一句话总结¶

提出 Robo-Dopamine：先用 3,400 小时多视角视频训练一个"步进式、跨任务"的通用进度奖励模型 GRM，再配一套有理论保证的"策略不变奖励塑形"把稠密信号喂给 RL，让真机策略在单条示范 + 约 150 次在线 rollout（约 1 小时）内从近乎 0 涨到 95% 成功率。

研究背景与动机¶

领域现状：把强化学习用到真实机器人操作上，最大的拦路虎是奖励函数怎么设计。稀疏的二值结果奖励（成功给 1、否则给 0）在长程、富接触任务里探索极其困难；手工设计的稠密奖励又要大量领域知识、难以规模化。于是近年大家转向"学出来"的过程奖励模型（Process Reward Model, PRM），用一个模型实时估计任务完成进度作为稠密奖励。

现有痛点：作者指出现有 PRM 有两个根本缺陷。其一，奖励模型本身不够好——很多是任务特定的、泛化差；进度分布被假设成均匀的，抓不住关键子步骤的差异；而且只用单视角观测，在遮挡场景下连"手腕视角才看得见的细粒度进展"都判断不了。其二，用这些稠密信号做奖励塑形的算法在理论上往往是错的：朴素地把稠密进度加进回报，会诱发"语义陷阱"（semantic trap），让智能体倾向于停在高进度值的状态里"刷分"而不是真正完成任务。

核心矛盾：稠密奖励能加速探索，但只要它不满足"最优策略不变"（policy invariance），就会悄悄改变任务目标，把策略带偏。既要稠密又要不改目标，是这条路线绕不开的张力。

本文目标：(1) 学一个跨本体、跨任务、对遮挡鲁棒的步进式进度奖励模型；(2) 设计一套能用稠密信号、但数学上保证不改变最优策略的塑形方案；(3) 让真机策略以极少的在线交互高效自我提升。

切入角度：作者把"任务进度"本身当作监督信号，并且不直接回归绝对进度，而是学"相对的相对进度"（hop），再用势能型奖励塑形（PBRS）的经典理论框架保证策略不变。

核心 idea：用"hop 归一化的步进式进度 + 多视角融合"造一个通用奖励模型，再用"势能 = 进度"的策略不变塑形把它安全地接进任意 RL 算法。

方法详解¶

整体框架¶

Robo-Dopamine 分两大块：Dopamine-Reward（怎么学奖励模型 GRM）和 Dopamine-RL（怎么把 GRM 安全地用进 RL）。前者把海量多视角视频按"子任务关键帧"切段、离散成进度状态，再以 hop 形式训练一个视觉-语言模型 GRM 去预测任意两状态之间的相对进展；推理时从三个互补视角融合预测得到稳健进度。后者拿到预训练 GRM 后，用单条人类示范一次性适配到新任务，再把进度当势能函数做策略不变奖励塑形，喂给任意 RL 算法（PPO / ReinFlow / Cal-QL 等）在线学习。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视角专家视频<br/>3,400 小时 / 100K 轨迹"] --> B["Hop 步进式 GRM 建模<br/>关键帧切段→进度离散→hop 归一化标注"]
    B --> C["训练通用奖励模型 GRM<br/>视觉-语言模型, 3B/8B"]
    C --> D["多视角进度融合<br/>增量 + 前锚 + 后锚 三路平均"]
    D --> E["One-shot GRM 适配<br/>单条示范 MSE 微调"]
    E --> F["策略不变奖励塑形<br/>F=γΦ(s')−Φ(s), PBRS 势能"]
    F -->|稠密奖励| G["任意 RL 算法<br/>PPO / ReinFlow / Cal-QL"]

关键设计¶

1. Hop 步进式进度建模：把"进度"变成有界、可累积的监督信号

痛点是：直接回归两状态间的绝对进度增益 \(\Phi_\delta(s_p,s_q)=\Phi(s_q)-\Phi(s_p)\)，迭代预测会累积误差、把重建出的进度 \(\Phi^\star(s)\) 推到 \([0,1]\) 之外。作者先把每条专家轨迹用人工标注的多视角关键帧 \(\{K_0,\dots,K_N\}\) 切成子任务段，再在每段内按 chunk 大小 \(C\) 自适应采样（段内中间点数 \(m=\frac{1}{N}\lfloor L/C\rfloor\)），得到状态序列并定义 ground-truth 全局进度 \(\Phi(s_i)=i/M\)。关键是不学绝对增益，而学 hop——相对于"剩余/已走"距离归一化的相对进展：

\[H(s_p,s_q)=\begin{cases}\dfrac{\Phi(s_q)-\Phi(s_p)}{\Phi(s_M)-\Phi(s_p)} & q\ge p\ (\text{PROGRESS})\\[2mm]\dfrac{\Phi(s_q)-\Phi(s_p)}{\Phi(s_p)-\Phi(s_0)} & q<p\ (\text{REGRESS})\end{cases}\]

前进时用"到目标的剩余距离"归一、后退时用"从起点已走的距离"归一，监督被压进 \([-1,1]\)。它的理论好处是：迭代套用预测 hop 重建全局进度时，\(\Phi^\star(s)\) 被保证严格落在 \([0,1]\) 内（附录给证明）。采样时还把 hop 离散成 \(N_{hop}\) 个桶、时间距离分 \(N_{dis}\) 个桶做平衡，并额外注入比例 \(\alpha\) 的 zero-hop 样本（\(|\Phi(s_q)-\Phi(s_p)|\le\epsilon\)）来抑制对静止片段的偏置。整套管线最终产出 35M 样本、覆盖真机/仿真/第一人称人类视频。

2. 多视角进度融合：用三个互补视角抵消单点预测的漂移

单纯做增量预测（incremental）虽然局部细腻，但沿长轨迹会累积误差漂移。作者在推理时从三个视角各算一份进度再平均。增量视角递推：\(\Phi^\star_I(s_t)=\Phi^\star(s_{t-1})+\Delta\Phi^\star_{t-1,t}\)，其中 hop 按符号缩放（\(H^\star\ge0\) 时乘剩余 \([1-\Phi^\star(s_{t-1})]\)、\(H^\star<0\) 时乘已走 \(\Phi^\star(s_{t-1})\)）。前锚视角（forward-anchored）锚定起始零进度态 \(\Phi^\star_F(s_t)=H^\star(s_{init},s_t)\) 提供全局稳定参考；后锚视角（backward-anchored）锚定目标态 \(\Phi^\star_B(s_t)=1+H^\star(s_{goal},s_t)\)，在接近完成时特别敏感。三者平均 \(\Phi^\star(s_t)=\frac{1}{3}(\Phi^\star_I+\Phi^\star_F+\Phi^\star_B)\)，把"局部精度 / 起点稳定 / 终点敏感"三种长处揉到一起，得到抗漂移的稳健进度。注意这里的"多视角"既指上面三种锚定方式，也对应输入侧把手腕视角与第三人称视角一起喂给 GRM，靠多相机解决遮挡。

3. One-shot GRM 适配：单条示范就把通用模型对齐到新任务

预训练 GRM 已经有了评估进度的广义先验，因此面对新任务/高精度任务时不需要重训，只用一条人类示范 \(D_{human}\) 做最小二乘微调：\(L_{GRM}(\omega)=\mathbb{E}_{(s_p,s_q)\sim D_{human}}\|H^\star_\omega-H_{gt}\|_2^2\)，从预训练参数 \(\omega_0\) 出发 SFT 得到任务适配的 \(GRM_{\omega^\star}\)。这一步是"近 0→95%"高样本效率的前提：在线 RL 之前先用极小代价把奖励信号校准到目标任务上。

4. 策略不变奖励塑形：把进度当势能，根治"语义陷阱"

痛点是朴素稠密奖励 \(r=\Phi^\star(s_{t+1})-\Phi^\star(s_t)\) 优化折扣回报时，等价于最大化一个被改写的目标 \(J'(\pi)\propto\mathbb{E}_\pi[\sum\gamma^{t-1}\Phi^\star(s_t)]\)，它会奖励"停在高进度态"而非完成任务——这就是语义陷阱。作者要求塑形奖励同时满足三条：最优策略不变、与标准折扣回报/TD 更新相容、可由单步转移本地计算。由这三条唯一确定了势能型形式，从连续时间"折扣势能" \(e^{-\lambda t}\Phi^\star(s_t)\) 推出离散单步增量 \(F(s_t,s_{t+1})=\gamma\Phi^\star(s_{t+1})-\Phi^\star(s_t)\)（\(\gamma=e^{-\lambda h}\)）。再自动判定稀疏结果奖励：当估计进度 \(\Phi^\star(s_{t+1})\ge1-\delta\)（\(\delta=0.05\)）即视为完成给 \(r_{gold}=1\)。最终奖励：

\[r_{GRM}(s_t,a_t,s_{t+1})=r_{gold}+\gamma\Phi^\star(s_{t+1})-\Phi^\star(s_t)\]

因为塑形项沿轨迹是望远镜求和（telescoping），累积后塌缩成只依赖初始态 \(s_0\) 的常数边界项 \(-\Phi^\star(s_0)\)，于是塑形后的 Q 函数只是原 Q 的逐状态平移 \(Q^\pi_{GRM}(s,a)=Q^\pi_{gold}(s,a)-\Phi^\star(s)\)。平移量与动作 \(a\) 无关，所以 \(\arg\max_a Q^\star\) 不变——这正是经典 PBRS（势能奖励塑形）框架，进度 \(\Phi^\star\) 充当势能函数，既给稠密引导又不动最优策略。该框架对 online / offline / offline-to-online、value-based / gradient-based 各类 RL 都通用。

损失函数 / 训练策略¶

GRM 预训练在 35M hop 样本上学相对进度；下游适配用单条示范做 MSE 微调（式 9）。RL 阶段奖励即 \(r_{GRM}\)（式 11），可直接套进 PPO（配 OpenVLA-OFT）、ReinFlow（配 π0）、Cal-QL（真机 offline-to-online）等算法。

实验关键数据¶

主实验¶

跨 8 个数据集评估 GRM 的进度感知（VOC：预测进度与打乱帧真实时序的秩相关，范围 \([-1,1]\)，越高越好），并在仿真/真机上评估策略学习。

评估	指标	GVL	VLAC-2B	GRM-8B 单视角	GRM-8B 多视角
VOC 均值（稀疏/中/密）	秩相关 ↑	0.20 / 0.12 / 0.13	0.24 / 0.29 / 0.33	0.92 / 0.91 / 0.89	0.96 / 0.96 / 0.94
任务完成判断（60 测试均值）	准确率 ↑	37.2%	33.9%	83.9%	92.8%

任务完成判断里 GRM-8B 多视角（92.8%）还反超了 GPT-5（83.9%）、Gemini-2.5-Pro（81.1%）、Qwen3-VL（76.7%）等通用大模型。基线 PRM（GVL/VLAC）随采样变密性能明显退化，而 GRM 在三种采样密度下都稳定高分。

策略侧：GRM 一次性适配后，Dopamine-RL 让真机策略从近 0 提升到 95% 成功率，仅需约 150 次在线 rollout（约 1 小时真机交互），部分任务达 100%；仿真任务（Insert-Squares / Stack-Three-Cubes / Fold-the-Towels）相对稀疏奖励 RL 分别提升约 +38.3 / +68.2 / +55.0 个百分点。

消融实验¶

配置	VOC 均值（S/M/D）	说明
GRM-8B 多视角（Full）	0.96 / 0.96 / 0.94	多视角 + 多视角融合
GRM-8B 单视角	0.92 / 0.91 / 0.89	去掉多视角输入后掉点
GRM-3B 多视角	0.96 / 0.94 / 0.93	缩小到 3B 仍远超基线
GVL / VLAC-2B	≤0.33	现有 PRM 基线

关键发现¶

多视角是稳健性的关键：单视角→多视角在密采样下提升最明显（0.89→0.94），印证遮挡场景下手腕视角不可或缺（对应 RQ3 融合的作用）。
基线随采样变密退化、本文不退化：说明 hop 归一化 + 多视角融合真正抓住了细粒度时序，而非靠粗粒度关键帧蒙对。
进度奖励模型可超越通用大模型：在任务完成判断上 GRM-8B 多视角（92.8%）高于 GPT-5（83.9%），说明专门为机器人进度建模的小模型比通用 VLM 更可靠。
样本效率极高：1 小时真机交互即从近 0 到 95%，得益于 one-shot 适配先把奖励校准好 + 策略不变塑形不浪费探索。

亮点与洞察¶

把 PBRS 理论"对症下药"：语义陷阱的本质是塑形改了目标，作者用势能型塑形（望远镜求和塌缩成常数）从数学上保证最优策略不变，比经验性加稠密奖励干净得多。
hop 的"相对的相对"设计很巧：用剩余/已走距离归一化，既给出有方向的进退信号，又天然把重建进度锁在 \([0,1]\)，规避了绝对回归的越界与误差累积。
奖励模型与 RL 解耦、对算法不可知：\(r_{GRM}\) 是即插即用的奖励，能接 PPO/ReinFlow/Cal-QL，迁移到新机器人栈时只换 RL 后端、不动奖励侧。
数据规模即护城河：3,400 小时、100K 轨迹、350+ 日常任务、真机/仿真/人类视频混合，是 GRM 跨本体泛化的底座，这套标注管线本身可复用。

局限与展望¶

依赖人工关键帧切段：GRM 训练数据靠人工多视角关键帧切子任务，标注成本高，限制进一步扩规模。
进度作为唯一奖励的盲区：把"完成度"当唯一信号，对"安全/省力/避碰"等非进度目标无能为力，复杂约束任务可能需要额外奖励项。
OOD 幻觉仍需兜底：作者在附录单列了感知鲁棒估计来缓解 OOD 场景的预测幻觉，说明 GRM 在分布外仍可能给错进度，依赖额外机制兜底。
真机评测规模有限：8 个真机任务、60 条 rollout 的判断测试规模偏小，更大规模长程任务上的稳定性有待验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ hop 相对进度 + 多视角融合 + 策略不变塑形三件套，把 PRM 路线的两大缺陷一次补齐
实验充分度: ⭐⭐⭐⭐ 8 数据集 VOC + 真机/仿真策略 + 多 RL 算法验证充分，但真机判断测试规模偏小
写作质量: ⭐⭐⭐⭐ 逻辑清晰、理论部分扎实，公式较密需对照附录
价值: ⭐⭐⭐⭐⭐ 真机 1 小时近 0→95%，对机器人 RL 的奖励工程有直接落地价值