Failure Prediction at Runtime for Generative Robot Policies¶

会议: NeurIPS 2025
arXiv: 2510.09459
代码: GitHub
项目主页: FIPER Website 作者: Ralf Römer, Adrian Kobras, Luca Worbis, Angela P. Schoellig（TUM 学习系统与机器人实验室）领域: 图像生成
关键词: 失败预测, 生成式策略, RND, Action Chunk Entropy, 共形预测

一句话总结¶

提出 FIPER 框架，在生成式机器人策略（扩散/流匹配）运行时，通过观测端 RND-OE（OOD 检测）和动作端 ACE（动作块熵）双指标联合判断，无需任何失败数据即可实现早期、准确的失败预测，并借助共形预测提供统计保证。

研究背景与动机¶

领域现状：生成式模仿学习（diffusion policy、flow matching）近年来取得显著进展，使机器人能够执行复杂的长时域操作任务。这类方法通过学习多模态条件动作分布，展现出强大的任务泛化能力。

现有痛点： - 部署时的分布偏移（未见环境、光照变化、物体位置变化）或累积动作误差会导致不可预测的危险行为 - 现有 OOD 检测方法仅基于观测端，对良性 OOD 状态（策略实际可以泛化到的新状态）产生大量误报 - VLM-based 方法只能回顾性地检测已经发生的失败，无法做到早期预警 - 许多方法依赖失败数据收集，在真实环境中既不安全也不现实 - 已有不确定性度量无法正确处理生成式策略的多模态动作分布

核心矛盾：安全部署要求运行时精准预测失败，但单一信号源（观测或动作）都无法可靠区分"真正的失败前兆"和"策略可以处理的新情况"。

本文目标：在不需要失败数据的前提下，为生成式机器人策略提供运行时的早期失败预测机制，同时尽量避免对良性 OOD 情况的误报。

切入角度：从"失败通常同时伴随不熟悉的观测和混乱的动作"这一观察出发，设计观测端+动作端的双指标联合检测框架，只有两个信号同时异常才触发警报。

核心 idea：观测空间 OOD 检测与动作空间不确定性量化双管齐下，互补降噪，辅以共形预测校准阈值，实现无需失败数据的运行时失败预测。

方法详解¶

整体框架¶

FIPER（Fiailure Prediction at Runtime）是一个模块化的运行时失败预测框架，核心设计基于一个关键洞察：失败往往同时伴随不熟悉的观测和模糊/混乱的动作。框架包含三个核心组件：

观测端指标 RND-OE：在策略自身的观测嵌入空间中执行 Random Network Distillation，检测当前观测是否偏离训练分布
动作端指标 ACE：提出 Action Chunk Entropy，从条件动作分布中采样多批动作块，在末端执行器空间中计算熵分数，量化动作不确定性
时间窗口聚合 + 双阈值触发：两个分数分别在短时间窗口上聚合平滑后，经共形预测校准的阈值判断，仅当两者同时超标时才发出失败警报

整体流程：观测经策略编码器得到嵌入 → RND-OE 计算 OOD 分数 → 策略采样多组动作块 → ACE 计算熵分数 → 两个分数分别在时间窗口内聚合 → 双阈值检测 → 触发/不触发警报。

关键设计¶

Random Network Distillation in Observation Embeddings (RND-OE)
- 功能：检测当前观测是否偏离策略的训练数据分布
- 核心思路：在策略自身的观测嵌入空间（而非原始像素空间）中部署 RND。固定一个随机初始化的教师网络，训练一个学生网络去拟合教师在训练嵌入上的输出。对训练分布内的嵌入，学生能准确拟合教师输出（低预测误差）；对 OOD 嵌入则产生大的预测误差，以此作为 OOD 信号
- 设计动机：在原始观测空间做 OOD 检测容易被无关的视觉变化（如光照、背景纹理）干扰产生误报。使用策略自身学到的嵌入空间，天然过滤了与任务无关的视觉变化，聚焦于对策略决策真正重要的语义表征，提升检测鲁棒性
Action Chunk Entropy (ACE)
- 功能：量化生成式策略在当前状态下产出动作的不确定性
- 核心思路：从策略的条件动作分布中采样一批动作块（action chunks），将每个动作块转换到末端执行器空间后，计算批次内动作的熵分数。专门设计的熵度量能区分"多模态但每个模态都确定"（良性低不确定性）和"模态之间混乱无序"（高不确定性/失败前兆）
- 设计动机：生成式策略（扩散/流匹配）的核心优势就是能学习多模态动作分布。传统 variance/entropy 度量会把合理的多模态行为误判为高不确定性。ACE 在末端执行器空间计算，且能正确处理时间维度上的模态一致性，有效区分良性多模态与真正的动作混乱
共形预测校准与双指标联合决策
- 功能：为两个指标设定有统计保证的阈值，并通过联合决策降低误报
- 核心思路：使用少量成功演示 rollout（仿真 50 条，真实世界仅 10 条）作为校准集，通过共形预测分别计算 RND-OE 和 ACE 的阈值。在推理时，两个分数分别在短移动窗口上取均值以平滑噪声，只有当两个分数同时在窗口内超过各自阈值时才触发失败警报
- 设计动机：单一指标容易产生特定类型的误报——RND-OE 对良性 OOD 敏感，ACE 可能遗漏某些观测异常但动作看似确定的失败。双指标交集逻辑天然过滤掉各自的特有误报来源。共形预测提供了误报率的统计上界保证，增强了方法在安全关键场景中的可信度

损失函数 / 训练策略¶

RND 学生网络训练：使用 MSE 损失 \(\mathcal{L}_{\text{RND}} = \| f_\theta(\mathbf{z}) - f_{\text{teacher}}(\mathbf{z}) \|^2\) 在成功 rollout 的观测嵌入上训练，其中 \(\mathbf{z}\) 是策略编码器的输出
不需要策略训练数据：RND 训练和 ACE 计算均不要求访问策略的原始训练数据集
不需要失败数据：整个校准过程仅依赖成功 rollout，无需任何失败示范
共形预测校准：在校准集上计算分数的 \((1-\alpha)\) 分位数作为阈值，\(\alpha\) 控制允许的误报率上界

实验关键数据¶

主实验¶

FIPER 在 5 个多样化任务环境中评估（3 个仿真 + 2 个真实世界），覆盖扩散策略与流匹配策略，涉及抓取、绳索操作、双臂协作等多种失败模式。

方法	准确率	提前预测时间	误报率	良性OOD区分
OOD-only (RND)	中等	较早	高	差（良性OOD也触发）
Action-only (Variance)	中等	中等	中等	中等
VLM-based	较高	晚（回顾性）	低	—
FIPER (RND-OE + ACE)	最高	最早	最低	最好

FIPER 在所有 5 个环境中均优于 baseline，尤其在区分真实失败 vs 良性 OOD 方面显著领先
在真实世界绳索操作任务中，FIPER 能在失败发生前数秒预警，为人类干预留出足够时间

消融实验¶

消融配置	结果
仅 RND-OE	能检测 OOD 但误报率高，良性 OOD 频繁触发
仅 ACE	能捕捉动作不确定性但遗漏观测端异常导致的失败
RND-OE + ACE（无时间窗口）	检测不稳定，单帧噪声造成误触发
RND-OE + ACE（有时间窗口）	预测稳定性和准确率显著提升
原始像素空间 RND vs 嵌入空间 RND-OE	嵌入空间版本鲁棒性更强，误报更少
不同策略类型（扩散 vs 流匹配）	FIPER 在两种策略上均有效，验证框架通用性
校准数据量敏感性	仿真 50 条、真实 10 条成功 rollout 已足够

关键发现¶

双指标互补是核心：单独使用 RND-OE 或 ACE 都无法可靠预测失败，两者联合显著降低误报同时保持高检测率
嵌入空间 >> 原始空间：在策略嵌入空间执行 RND 比在原始像素空间更有效，因为嵌入空间过滤了与任务无关的视觉变化
ACE 正确处理多模态：传统 variance 度量误把多模态动作分布当作高不确定性，ACE 能正确区分"多模态但确定"和"真正混乱"
极少校准数据即足够：真实世界仅需 10 条成功 rollout 即可有效校准，实用性极强
跨策略泛化：同一框架在扩散策略和流匹配策略上均表现优异，无需针对性修改

亮点与洞察¶

零失败数据需求：从安全部署的角度看，不依赖失败数据是巨大的实用性优势——收集失败数据本身就是危险且昂贵的
输入-输出双端检测：观测端检测"看到的是否异常"，动作端检测"要做的是否混乱"，这种从 I/O 双端夹击的设计哲学简洁而有效
对生成式策略的深刻理解：ACE 的设计体现了对扩散/流匹配模型产出多模态动作分布这一核心特性的深入理解，而非简单套用传统不确定性方法
统计保证增强可信度：共形预测提供误报率的数学上界，这在安全关键的机器人部署场景中至关重要
可解释性：框架能区分失败是因为"观测异常"还是"动作混乱"，为调试和人机交互提供有价值的诊断信息
模块化设计：RND-OE 和 ACE 作为独立模块可即插即用到任何生成式策略上，无需修改策略本身

局限与展望¶

共形预测的理论假设：覆盖率保证依赖数据的交换性（exchangeability）假设，在高度非平稳或对抗性环境中可能不成立
被动预测而非主动恢复：当前仅预测失败，未集成主动恢复机制（如自动请求人类接管、切换到安全策略、或执行回退动作）
时间窗口超参数：窗口大小需要手动选择，不同任务可能需要不同的窗口长度，缺乏自适应调节机制
极端未见场景的延迟：在与训练分布差异极大的全新场景下，检测可能存在一定延迟
末端执行器空间假设：ACE 在末端执行器空间计算，对于非操作类任务（如导航）可能需要重新定义合适的动作空间

评分¶

新颖性: ⭐⭐⭐⭐ — 观测+动作双端检测的联合框架设计新颖，ACE 针对多模态动作分布的熵度量是有价值的技术贡献
实验完整度: ⭐⭐⭐⭐ — 5 个环境涵盖仿真与真实世界，两种策略类型，消融充分，但部分定量对比细节不够详尽
实用性: ⭐⭐⭐⭐⭐ — 不需要失败数据、不需要策略训练数据、极少校准数据、计算轻量、即插即用，实用性极强
写作质量: ⭐⭐⭐⭐ — 动机阐述清晰，方法直观易懂，项目主页视频展示直观

title: >- [论文解读] Failure Prediction at Runtime for Generative Robot Policies description: >- [NeurIPS 2025][图像生成][失败预测] 提出 FIPER 框架，通过结合观测空间的 OOD 检测（RND）和动作空间的不确定性量化（ACE），在生成式机器人策略运行时无需失败数据即可实现早期失败预测。 tags: - NeurIPS 2025 - 图像生成 - 失败预测 - 模仿学习 - 扩散模型 - 分布外检测 - 共形预测