Failure Prediction at Runtime for Generative Robot Policies¶
会议: NeurIPS 2025
arXiv: 2510.09459
代码: GitHub
项目主页: FIPER Website
作者: Ralf Römer, Adrian Kobras, Luca Worbis, Angela P. Schoellig(TUM 学习系统与机器人实验室)
领域: 图像生成
关键词: 失败预测, 生成式策略, RND, Action Chunk Entropy, 共形预测
一句话总结¶
提出 FIPER 框架,在生成式机器人策略(扩散/流匹配)运行时,通过观测端 RND-OE(OOD 检测)和动作端 ACE(动作块熵)双指标联合判断,无需任何失败数据即可实现早期、准确的失败预测,并借助共形预测提供统计保证。
研究背景与动机¶
领域现状:生成式模仿学习(diffusion policy、flow matching)近年来取得显著进展,使机器人能够执行复杂的长时域操作任务。这类方法通过学习多模态条件动作分布,展现出强大的任务泛化能力。
现有痛点: - 部署时的分布偏移(未见环境、光照变化、物体位置变化)或累积动作误差会导致不可预测的危险行为 - 现有 OOD 检测方法仅基于观测端,对良性 OOD 状态(策略实际可以泛化到的新状态)产生大量误报 - VLM-based 方法只能回顾性地检测已经发生的失败,无法做到早期预警 - 许多方法依赖失败数据收集,在真实环境中既不安全也不现实 - 已有不确定性度量无法正确处理生成式策略的多模态动作分布
核心矛盾:安全部署要求运行时精准预测失败,但单一信号源(观测或动作)都无法可靠区分"真正的失败前兆"和"策略可以处理的新情况"。
本文目标:在不需要失败数据的前提下,为生成式机器人策略提供运行时的早期失败预测机制,同时尽量避免对良性 OOD 情况的误报。
切入角度:从"失败通常同时伴随不熟悉的观测和混乱的动作"这一观察出发,设计观测端+动作端的双指标联合检测框架,只有两个信号同时异常才触发警报。
核心 idea:观测空间 OOD 检测与动作空间不确定性量化双管齐下,互补降噪,辅以共形预测校准阈值,实现无需失败数据的运行时失败预测。
方法详解¶
整体框架¶
FIPER(Fiailure Prediction at Runtime)是一个模块化的运行时失败预测框架,核心设计基于一个关键洞察:失败往往同时伴随不熟悉的观测和模糊/混乱的动作。框架包含三个核心组件:
- 观测端指标 RND-OE:在策略自身的观测嵌入空间中执行 Random Network Distillation,检测当前观测是否偏离训练分布
- 动作端指标 ACE:提出 Action Chunk Entropy,从条件动作分布中采样多批动作块,在末端执行器空间中计算熵分数,量化动作不确定性
- 时间窗口聚合 + 双阈值触发:两个分数分别在短时间窗口上聚合平滑后,经共形预测校准的阈值判断,仅当两者同时超标时才发出失败警报
整体流程:观测经策略编码器得到嵌入 → RND-OE 计算 OOD 分数 → 策略采样多组动作块 → ACE 计算熵分数 → 两个分数分别在时间窗口内聚合 → 双阈值检测 → 触发/不触发警报。
关键设计¶
-
Random Network Distillation in Observation Embeddings (RND-OE)
- 功能:检测当前观测是否偏离策略的训练数据分布
- 核心思路:在策略自身的观测嵌入空间(而非原始像素空间)中部署 RND。固定一个随机初始化的教师网络,训练一个学生网络去拟合教师在训练嵌入上的输出。对训练分布内的嵌入,学生能准确拟合教师输出(低预测误差);对 OOD 嵌入则产生大的预测误差,以此作为 OOD 信号
- 设计动机:在原始观测空间做 OOD 检测容易被无关的视觉变化(如光照、背景纹理)干扰产生误报。使用策略自身学到的嵌入空间,天然过滤了与任务无关的视觉变化,聚焦于对策略决策真正重要的语义表征,提升检测鲁棒性
-
Action Chunk Entropy (ACE)
- 功能:量化生成式策略在当前状态下产出动作的不确定性
- 核心思路:从策略的条件动作分布中采样一批动作块(action chunks),将每个动作块转换到末端执行器空间后,计算批次内动作的熵分数。专门设计的熵度量能区分"多模态但每个模态都确定"(良性低不确定性)和"模态之间混乱无序"(高不确定性/失败前兆)
- 设计动机:生成式策略(扩散/流匹配)的核心优势就是能学习多模态动作分布。传统 variance/entropy 度量会把合理的多模态行为误判为高不确定性。ACE 在末端执行器空间计算,且能正确处理时间维度上的模态一致性,有效区分良性多模态与真正的动作混乱
-
共形预测校准与双指标联合决策
- 功能:为两个指标设定有统计保证的阈值,并通过联合决策降低误报
- 核心思路:使用少量成功演示 rollout(仿真 50 条,真实世界仅 10 条)作为校准集,通过共形预测分别计算 RND-OE 和 ACE 的阈值。在推理时,两个分数分别在短移动窗口上取均值以平滑噪声,只有当两个分数同时在窗口内超过各自阈值时才触发失败警报
- 设计动机:单一指标容易产生特定类型的误报——RND-OE 对良性 OOD 敏感,ACE 可能遗漏某些观测异常但动作看似确定的失败。双指标交集逻辑天然过滤掉各自的特有误报来源。共形预测提供了误报率的统计上界保证,增强了方法在安全关键场景中的可信度
损失函数 / 训练策略¶
- RND 学生网络训练:使用 MSE 损失 \(\mathcal{L}_{\text{RND}} = \| f_\theta(\mathbf{z}) - f_{\text{teacher}}(\mathbf{z}) \|^2\) 在成功 rollout 的观测嵌入上训练,其中 \(\mathbf{z}\) 是策略编码器的输出
- 不需要策略训练数据:RND 训练和 ACE 计算均不要求访问策略的原始训练数据集
- 不需要失败数据:整个校准过程仅依赖成功 rollout,无需任何失败示范
- 共形预测校准:在校准集上计算分数的 \((1-\alpha)\) 分位数作为阈值,\(\alpha\) 控制允许的误报率上界
实验关键数据¶
主实验¶
FIPER 在 5 个多样化任务环境中评估(3 个仿真 + 2 个真实世界),覆盖扩散策略与流匹配策略,涉及抓取、绳索操作、双臂协作等多种失败模式。
| 方法 | 准确率 | 提前预测时间 | 误报率 | 良性OOD区分 |
|---|---|---|---|---|
| OOD-only (RND) | 中等 | 较早 | 高 | 差(良性OOD也触发) |
| Action-only (Variance) | 中等 | 中等 | 中等 | 中等 |
| VLM-based | 较高 | 晚(回顾性) | 低 | — |
| FIPER (RND-OE + ACE) | 最高 | 最早 | 最低 | 最好 |
- FIPER 在所有 5 个环境中均优于 baseline,尤其在区分真实失败 vs 良性 OOD 方面显著领先
- 在真实世界绳索操作任务中,FIPER 能在失败发生前数秒预警,为人类干预留出足够时间
消融实验¶
| 消融配置 | 结果 |
|---|---|
| 仅 RND-OE | 能检测 OOD 但误报率高,良性 OOD 频繁触发 |
| 仅 ACE | 能捕捉动作不确定性但遗漏观测端异常导致的失败 |
| RND-OE + ACE(无时间窗口) | 检测不稳定,单帧噪声造成误触发 |
| RND-OE + ACE(有时间窗口) | 预测稳定性和准确率显著提升 |
| 原始像素空间 RND vs 嵌入空间 RND-OE | 嵌入空间版本鲁棒性更强,误报更少 |
| 不同策略类型(扩散 vs 流匹配) | FIPER 在两种策略上均有效,验证框架通用性 |
| 校准数据量敏感性 | 仿真 50 条、真实 10 条成功 rollout 已足够 |
关键发现¶
- 双指标互补是核心:单独使用 RND-OE 或 ACE 都无法可靠预测失败,两者联合显著降低误报同时保持高检测率
- 嵌入空间 >> 原始空间:在策略嵌入空间执行 RND 比在原始像素空间更有效,因为嵌入空间过滤了与任务无关的视觉变化
- ACE 正确处理多模态:传统 variance 度量误把多模态动作分布当作高不确定性,ACE 能正确区分"多模态但确定"和"真正混乱"
- 极少校准数据即足够:真实世界仅需 10 条成功 rollout 即可有效校准,实用性极强
- 跨策略泛化:同一框架在扩散策略和流匹配策略上均表现优异,无需针对性修改
亮点与洞察¶
- 零失败数据需求:从安全部署的角度看,不依赖失败数据是巨大的实用性优势——收集失败数据本身就是危险且昂贵的
- 输入-输出双端检测:观测端检测"看到的是否异常",动作端检测"要做的是否混乱",这种从 I/O 双端夹击的设计哲学简洁而有效
- 对生成式策略的深刻理解:ACE 的设计体现了对扩散/流匹配模型产出多模态动作分布这一核心特性的深入理解,而非简单套用传统不确定性方法
- 统计保证增强可信度:共形预测提供误报率的数学上界,这在安全关键的机器人部署场景中至关重要
- 可解释性:框架能区分失败是因为"观测异常"还是"动作混乱",为调试和人机交互提供有价值的诊断信息
- 模块化设计:RND-OE 和 ACE 作为独立模块可即插即用到任何生成式策略上,无需修改策略本身
局限与展望¶
- 共形预测的理论假设:覆盖率保证依赖数据的交换性(exchangeability)假设,在高度非平稳或对抗性环境中可能不成立
- 被动预测而非主动恢复:当前仅预测失败,未集成主动恢复机制(如自动请求人类接管、切换到安全策略、或执行回退动作)
- 时间窗口超参数:窗口大小需要手动选择,不同任务可能需要不同的窗口长度,缺乏自适应调节机制
- 极端未见场景的延迟:在与训练分布差异极大的全新场景下,检测可能存在一定延迟
- 末端执行器空间假设:ACE 在末端执行器空间计算,对于非操作类任务(如导航)可能需要重新定义合适的动作空间
相关工作与启发¶
- Random Network Distillation (RND) 最初用于深度强化学习的好奇心驱动探索(Burda et al., 2019),本文创新性地将其迁移到观测嵌入空间用于 OOD 检测
- 共形预测 在不确定性量化领域日益流行(Angelopoulos & Bates, 2023),本文展示了其在机器人安全监控中提供有保证的阈值设定的实用价值
- 与 ensemble-based 不确定性方法相比,FIPER 不需要训练多个策略副本,计算开销更可控
- 双指标联合触发的设计思路可推广到其他需要低误报率检测的安全关键系统中
评分¶
- 新颖性: ⭐⭐⭐⭐ — 观测+动作双端检测的联合框架设计新颖,ACE 针对多模态动作分布的熵度量是有价值的技术贡献
- 实验完整度: ⭐⭐⭐⭐ — 5 个环境涵盖仿真与真实世界,两种策略类型,消融充分,但部分定量对比细节不够详尽
- 实用性: ⭐⭐⭐⭐⭐ — 不需要失败数据、不需要策略训练数据、极少校准数据、计算轻量、即插即用,实用性极强
- 写作质量: ⭐⭐⭐⭐ — 动机阐述清晰,方法直观易懂,项目主页视频展示直观
title: >- [论文解读] Failure Prediction at Runtime for Generative Robot Policies description: >- [NeurIPS 2025][图像生成][失败预测] 提出 FIPER 框架,通过结合观测空间的 OOD 检测(RND)和动作空间的不确定性量化(ACE),在生成式机器人策略运行时无需失败数据即可实现早期失败预测。 tags: - NeurIPS 2025 - 图像生成 - 失败预测 - 模仿学习 - 扩散模型 - 分布外检测 - 共形预测