APPLE: Toward General Active Perception via Reinforcement Learning¶
会议: ICLR 2026
arXiv: 2505.06182
领域: 主动感知 / 强化学习
关键词: active perception, reinforcement-learning, POMDP, supervised learning, off-policy, ViViT, CrossQ
一句话总结¶
提出APPLE——一种结合强化学习与监督学习的通用主动感知框架,将主动感知建模为POMDP,奖励函数设计为RL奖励减去预测损失,梯度自然分解为策略梯度和预测损失梯度两部分,基于off-policy算法(SAC/CrossQ)和共享ViViT骨干网络,在5个不同任务基准上验证通用性,其中CrossQ变体无需逐任务调参且训练效率提高53%。
研究背景与动机¶
主动感知的核心挑战:主动感知要求智能体通过主动控制传感器(如移动相机视角、执行触觉探索)来获取信息,同时完成感知预测任务,需要同时优化"如何感知"和"如何预测"。
现有方法的碎片化:当前主动感知方法通常针对特定任务和传感模态设计(如主动物体识别、主动触觉感知),缺乏统一的框架适用于多种任务。
RL与预测任务的耦合难题:纯RL方法需要设计奖励函数来间接评估感知质量,难以直接优化预测性能;纯监督学习方法无法学习感知策略。
On-policy方法的失败:实验发现REINFORCE和PPO等on-policy方法在主动感知任务上完全失败,因为探索效率过低且奖励信号稀疏。
超参数敏感性:现有方法往往需要针对每个任务精心调整超参数,限制了实际应用的通用性。
计算效率需求:实际部署场景要求高效的训练和推理,需要在不牺牲性能的前提下减少计算开销。
方法详解¶
整体框架¶
APPLE把主动感知统一建模成一个POMDP:智能体在每一步依据历史观测选择控制传感器的动作(移动视角、触觉探索等),拿到新观测后再更新自己对目标的预测。它的巧妙之处在于让一套奖励同时驱动"怎么感知"和"怎么预测"两件事——奖励被定义为RL任务奖励减去当前预测损失,于是优化这个奖励的梯度天然劈成策略梯度和预测损失梯度两支,分别去训练感知策略和预测模型,整个系统跑在off-policy算法(SAC/CrossQ)和一个共享的ViViT骨干之上。
关键设计¶
1. 奖励即"RL奖励减预测损失":用一个标量同时管住感知与预测。 主动感知最别扭的地方是两个目标互相纠缠:纯RL框架得手工设计代理奖励去间接评估感知质量,调起来很玄;纯监督学习又压根学不出感知策略。APPLE把奖励直接写成 \(r_t = r_t^{RL} - \mathcal{L}_{pred}(\hat{y}_t, y)\),即任务奖励扣掉这一步的监督预测损失。这样做的好处在求梯度时才显现出来——整体目标的梯度可以分解为 \(\nabla J = \nabla_\theta J_{RL} + \nabla_\phi \mathcal{L}_{pred}\),策略参数 \(\theta\) 走标准策略梯度去优化感知行为,预测参数 \(\phi\) 走监督损失被直接优化。一来不必再为"看得好不好"硬编代理奖励,二来预测模型仍然享受监督信号的直接梯度,两条路各走各的却由同一个奖励缝在一起。
2. 用off-policy(SAC/CrossQ)替代on-policy:先让探索能跑起来。 作者实测发现REINFORCE、PPO这类on-policy方法在所有主动感知任务上几乎全军覆没,原因是探索效率太低、奖励信号又稀疏,根本攒不出有用的轨迹。于是APPLE改用off-policy路线,靠经验回放反复利用历史样本来撑住探索,给出APPLE-SAC和APPLE-CrossQ两个变体。其中CrossQ用批归一化替掉了SAC里的target network,把"target网络更新频率"这个最折磨人的超参直接消掉,因此比SAC更鲁棒、也更省事——这正是后面它能不调参跨任务通用、训练还快53%的来源。
3. 共享ViViT骨干:把逐步积累的观测当成一段视频来读。 主动感知天然是一个观测一帧帧攒起来的过程,APPLE索性把历史观测序列看作视频,用Video Vision Transformer(ViViT)风格的时空注意力骨干去聚合跨时间步的信息。关键是这个骨干被策略网络和预测网络共享:一方面省下大量参数,另一方面序列化的时空建模恰好契合"观测随交互逐步丰富"的结构,让感知策略和预测都建立在同一套不断更新的时空表征上。
实验关键数据¶
主实验¶
| 任务 | APPLE-SAC | APPLE-CrossQ | 最优基线 | 基线方法 |
|---|---|---|---|---|
| MHSB (分类) | 94.2% | 95.1% | 89.7% | InfoGain |
| CircleSquare (检测) | 0.82 IoU | 0.84 IoU | 0.76 IoU | Random |
| TactileMNIST (识别) | 92.8% | 93.5% | 88.3% | Coverage |
| Volume (估计) | 0.031 MSE | 0.028 MSE | 0.045 MSE | Heuristic |
| Toolbox (6DoF) | 78.5% | 80.2% | 71.4% | AcTPa |
消融实验¶
| 方法/变体 | 平均排名 | 训练时间 (相对) | 超参调整需求 |
|---|---|---|---|
| APPLE-CrossQ | 1.2 | 1.0x | 低 |
| APPLE-SAC | 1.8 | 1.53x | 中 |
| REINFORCE | 4.5 | 0.8x | 高(效果差) |
| PPO | 4.8 | 1.1x | 高(效果差) |
| 纯监督 (无RL) | 3.2 | 0.6x | 低 |
关键发现¶
- On-policy方法完全失败:REINFORCE和PPO在所有5个基准上均无法学到有效策略,验证了off-policy方法对主动感知的必要性。
- CrossQ全面优于SAC:跨任务平均排名更高,训练速度快53%,且无需调整target network超参。
- 通用性验证:同一框架和超参设定在5个差异巨大的任务上均取得SOTA或接近SOTA。
- RL+监督优于纯监督:去掉RL部分后性能显著下降,说明学习感知策略的重要性。
亮点与洞察¶
- 统一框架:首次提出适用于多种传感模态和任务类型的通用主动感知框架。
- 优雅的梯度分解:奖励-损失设计使策略梯度和预测梯度自然分离,理论清晰。
- 重要的负面结果:on-policy方法完全失败的发现对主动感知社区有重要参考价值。
- 实用性突出:CrossQ变体几乎不需要调参,显著降低了实际应用门槛。
局限与展望¶
- 离散动作空间:当前实验均为离散动作,连续动作空间(如连续视角控制)的效果未验证。
- 模拟环境为主:5个基准均为模拟环境,真实物理场景的泛化性有待验证。
- 计算资源需求:ViViT骨干的计算开销在资源受限的嵌入式平台上可能成为瓶颈。
- 长时间序列:当前实验的感知步数较短(5-20步),更长序列的性能趋势未探索。
相关工作与启发¶
- 主动感知:Bajcsy et al. (2018) 的主动感知综述;AcTPa (Liang et al., 2025) 的触觉主动感知
- Off-policy RL:SAC (Haarnoja et al., 2018), CrossQ (Bhatt et al., 2024) 的高效off-policy方法
- 视觉Transformer:ViViT (Arnab et al., 2021) 的视频理解架构
- POMDP求解:Kaelbling et al. (1998) 的POMDP理论框架
评分¶
- 新颖性: ⭐⭐⭐⭐ 统一框架和梯度分解设计新颖
- 实验充分度: ⭐⭐⭐⭐ 5个基准覆盖多种模态和任务类型
- 写作质量: ⭐⭐⭐⭐ 框架清晰,实验详实
- 价值: ⭐⭐⭐⭐ 通用主动感知框架的实际应用潜力大