Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning¶

会议: CVPR 2026
论文: CVF Open Access
代码: 论文称开源标准化评测接口，但正文未给出明确仓库链接 ⚠️ 以原文为准
领域: 机器人 / 具身智能
关键词: 具身终身学习、real-to-sim-to-real 闭环、生成式场景重建、共享多模态骨干、部署反馈

一句话总结¶

Arcadia 把具身学习从"单阶段优化"重新定义为"全生命周期问题"，用一条紧耦合的 real→sim→real 闭环把自主探索采数、生成式场景重建、导航/操作共享骨干、部署反馈回灌四个环节串成一个自我改进系统，在导航/操作 benchmark 上分别平均提升 7.07% / 11.08%，真机成功率远超 NaVILA、OpenVLA。

研究背景与动机¶

领域现状：当前具身智能的主流做法是把流水线切成独立环节各自优化——要么在静态模拟器里训练，要么直接部署而不收集反馈。近期工作如 GRUtopia（统一仿真场景/agent/benchmark）、NaVILA（把高层语言指令接到底层电机控制并在真机验证）已经开始打通部分环节。

现有痛点：但这些工作都只是"加宽"了流水线的覆盖面，没有真正闭环。GRUtopia 主要扩展仿真侧，NaVILA 主要把执行延伸到真机，二者都没有建立"从部署经验持续回流到仿真资产/监督信号"的常驻通路。作者把割裂归纳成四个具体短板：(1) 外源数据依赖——用 YouTube 视频、四足机器人数据等离分布语料训练人形机器人，形态/视角错配，收益有限；(2) 预渲染环境——Matterport3D、Habitat 这类静态场景物理属性有限、不可编辑，部署时的新变化插不进去；(3) 模型架构碎片化——导航（VLN，常建模成有向 bbox）和操作（VLA，固定相机+末端控制）各搭一套互不兼容的栈，跨任务的信用分配被堵死；(4) 真实反馈稀疏——部署被当成一次性的"打个成功/失败标签"，长程错误无法定位、部分进度与环境漂移喂不回去。

核心矛盾：这四点的根子不是孤立的算法缺陷，而是生命周期耦合的断裂——数据采集、仿真、表示、部署监督之间没有形成持续回流的闭环，于是系统退化成"一次性训练"，无法持续改进或跨场景泛化。

本文目标：搭一个面向具身生命周期的平台，要同时满足：(i) 采集经验与目标任务强对齐；(ii) 把真实观测转成可编辑的生成式仿真资产；(iii) 用一个共享、可扩展的具身表示跨任务学习；(iv) 把结果驱动的部署反馈回灌到资产和策略。

核心 idea：用一条不可分解的紧耦合闭环（去掉任一环就退回一次性训练）把"采数→建仿真→共享表示学习→部署反馈"四个阶段绑在一起，让真实经验持续更新仿真、表示与策略，实现终身自我改进。

方法详解¶

给定一条自然语言指令（如"把桌上的杯子拿给我"），Arcadia 走一整圈 real→sim→real：先在真实环境里自主探索采数（3.1），把多模态数据生成式重建成可编辑的仿真资产（3.2），在仿真里用共享具身骨干训练导航与操作策略（3.3），最后真机部署产生结构化反馈再回灌到仿真去同时修资产和策略（3.4）。四个组件既能各自独立工作，又作为一个耦合闭环协同——每个解决生命周期里一个不同瓶颈，合起来驱动持续自我改进。

整体框架¶

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["语言指令<br/>真实环境"] --> B["自演化探索与接地<br/>frontier 探索采任务对齐数据"]
    B --> C["生成式场景重建与增强<br/>RGBD/点云→场景图→USD 资产"]
    C --> D["共享具身表示架构<br/>VLN/VLA 共用多模态骨干"]
    D --> E["Sim-from-Real 评估与演化<br/>三通道反馈回灌仿真"]
    E -->|资产/动力学/监督更新| C
    E -->|策略精化| D
    D --> F["真机部署<br/>Unitree G1 + Dex-3"]
    F -->|结构化执行轨迹| E

整条管线的关键不在某个单点 SOTA，而在于 E 阶段产生的反馈通过两条回边（虚线）持续修正仿真资产和共享策略，把"仿真"从静态代理变成主动驱动适应的引擎。

关键设计¶

1. 自演化探索与接地：让采数从"外源借数据"变成"在部署现场自己采任务对齐数据"

针对外源数据依赖这个短板，Arcadia 在与部署完全相同的物理环境里自主采数，保证感知/控制模型在真实条件下学习。它基于 Isaac ROS + Nvblox 做 SLAM 与三维重建，用 frontier-based（边界点）探索策略最大化信息增益：frontier 点是已探索/未探索区域的边界，按"期望熵减"打分，机器人用底层运动 API 去访问得分最高的点，地图与 frontier 集合持续更新，产生在覆盖率、效率、语义相关性之间平衡的自适应轨迹。相比 grid/脚本式探索，这种策略更强调对下游任务关键的区域，提升样本效率与任务接地的覆盖度。探索结束后输出同步的多模态数据（RGB-D、LiDAR、IMU、里程计、位姿），并保留完整观测历史而非丢弃中间帧，为后续重建和策略学习提供稠密、时序接地的监督，减小 real-to-sim gap。

2. 生成式场景重建与增强：把真实观测变成可编辑、任务对齐的仿真资产，取代静态扫描/检索拼装

针对预渲染环境不可编辑的痛点，本设计用生成式重建把真实环境直接转成 simulator 兼容的资产。从 3.1 的多模态输入出发，视频与点云被解析成结构化的三维场景图 \(G=(V,E)\)（物体/建筑元素是节点、空间关系是边，用 SpatialLM 这类场景解析模块实现）。关键区别在于：不从数据库检索网格，而是用基于 Gaussian-splat 的重建器直接从多视角观测合成资产，产出几何、纹理、语义一致的 USD 物体，再经自动化管理接口导入 Isaac Sim。这样无需人工干预即可广域扩展、减少资产偏差、保留真实世界观测到的任务语义——用生成式合成替代手工检索，让仿真既逼真又多样，支撑可扩展的终身学习。

3. 共享具身表示架构：用一个多模态骨干统一 VLN 与 VLA，打掉导航/操作的架构碎片化

针对模型架构碎片化，Arcadia 不再为运动和操作各搭独立栈，而是用一个联合训练的统一多模态骨干 + 轻量任务专属解码器（动作解码器 / 语言解码器）。监督信号在仿真里生成：导航侧采样 start–goal 对、用 A* 产出无碰撞路径，表达成一个 7 基元离散控制空间（前进带步幅、旋转、后退、停止、位置、朝向等），可跨机器人形态泛化；操作侧用 RRT 生成物理可行轨迹。所有轨迹在输入端做语言条件化，按 VLN-CE / BridgeData V2 格式组织，经共享感知/状态编码器送入各自解码器。联合训练在同一个潜空间里同时编码"导航的全局布局/可达目标/接近策略"和"操作的局部 affordance/接触行为"，从而减少模态漂移、促进任务间表示迁移，让长程语言指令能被连贯推理。消融里这个共享骨干掉点最小，反而印证了 VLN 与 VLA 可以共用一个 VLM 骨干。

4. Sim-from-Real 评估与演化：把部署当成"额外监督阶段"，三通道反馈回灌闭环

针对真实反馈稀疏，本设计把部署从"只打成功/失败标签的终点"改成主动监督源：真机 rollout 被记录、分解成结构化反馈、再回灌仿真去同时更新策略与环境。反馈分三个通道——任务反馈把每个任务拆成步级动作，时刻 \(t\) 的反馈定义为 \(F^T_t = \lambda_1 R_t + \lambda_2 \lVert s_{t+1}-s_t \rVert + \lambda_3 L_{conf}(o_t,\hat{o}_t) + \lambda_4 L_{goal}(s_t,s_g)\)，其中 \(R_t\) 是标量奖励、\(\lVert s_{t+1}-s_t \rVert\) 度量状态转移幅度、\(L_{conf}\) 是预测与观测的感知一致性、\(L_{goal}\) 是到目标状态的距离，\(\lambda_i\) 为权重——把原始轨迹转成同时编码奖励/动力学/感知/目标对齐的监督信号，既能全局打分又能定位局部错误。场景反馈用 RGB/深度/LiDAR/IMU 刻画环境动态与感知质量，把"弱光下建图退化""出现未见物体"等失败记录下来，据此实例化新资产或注入扰动，让未来仿真反映部署条件而非固定预渲染场景。机器人反馈监控硬件遥测（关节状态、执行器负载、通信稳定性），把越限（如超过允许台阶高度、超载）记成 \(F^R\) 信号，用于安全门控和把运动策略适配到平台限制。三通道一起回灌仿真，更新资产、动力学与监督目标，形成双向 real-to-sim-to-real 循环——在训练时就缩小 sim-to-real gap，而不是部署时再补偿。

实验关键数据¶

实验回答四个问题：Arcadia 是否提升 VLN（Q1）、是否提升 VLA 操作（Q2）、迁移真机如何（Q3）、各组件贡献多大（Q4）。高层骨干用 Qwen2.5-VL，真机用 Unitree G1（操作用 Dex-3 机械手），仿真在 Isaac Sim。

主实验：VLN 导航¶

在 VLN-CE-Isaac、R2R Val-Unseen、RxR Val-Unseen、ScanQA 上对比（SR=成功率，SPL=路径加权成功率，NE=导航误差越低越好）：

方法	R2R SR↑	R2R SPL↑	RxR SR↑	RxR SPL↑	ScanQA Meteor↑
Tuning（单阶段微调）	44.9	38.5	47.1	41.3	13.4
NaVILA	45.1	40.1	51.6	47.5	16.3
Arcadia w/o feedback	48.7	43.6	54.2	49.4	19.0
Arcadia w/ feedback	50.1	45.0	55.9	49.8	19.1

同架构同训练预算下，仅把第一阶段轨迹换成 Arcadia 自采的任务对齐数据（w/o feedback），平均 SR 就比 NaVILA 高 2.7%；再加真机反馈闭环（w/ feedback）全 benchmark 最优，证明增益主要来自数据质量与闭环精化而非单纯堆数据量。

主实验：VLA 操作¶

LIBERO（Spatial/Object/Goal/10）与 BridgeData V2 成功率（%）：

方法	LIBERO-Spatial	LIBERO-Object	LIBERO-Goal	LIBERO-10	BridgeData V2
OpenVLA	84.7	88.4	79.2	53.7	39.6
Arcadia w/o feedback	87.3	92.1	86.9	74.0	47.3
Arcadia w/ feedback	88.1	94.2	88.5	77.8	52.4

在 BridgeData V2 上反馈带来的提升尤其明显（39.6→52.4），说明反馈增强了物体接地与长程稳定性。论文报告导航/操作相对 baseline 平均提升 7.07% / 11.08%。

真机评估¶

100 个导航 + 100 个操作任务，人工评测；导航全程 zero-shot（无任务微调），操作微调了一个双臂模型处理桌面四方块：

方法	导航成功	操作成功
NaVILA / OpenVLA（baseline）	13	9
Arcadia	46	27

在 baseline 全军覆没的多目标导航/多物体操作场景，Arcadia 仍保持 17% 成功率（常能完成初始子任务，但在扩展/组合指令上吃力）。

消融实验¶

逐个把四个模块换成次优替代，看成功率（%）掉多少：

配置	VLN-CE-Isaac	LIBERO	说明
Backbone（无任一组件）	44.9	76.5	起点
换静态训练集（ScaleVLN+RLBench）	43.0	72.9	比起点还低，外源静态数据有害
换检索式场景重建	46.1	81.4	失去生成式可编辑性
换掉联合训练（拆开）	49.8	87.0	掉点最小
换稀疏反馈（仅二值成败）	48.8	85.3	反馈被砍后明显回落
Arcadia（完整）	50.1	87.2	—

关键发现¶

静态训练集是负贡献：换成 ScaleVLN+RLBench 这类静态外源数据后，VLN/LIBERO 都掉到 baseline 以下（43.0 / 72.9），直接印证"外源数据依赖"是真实短板——不是数据越多越好，而是任务对齐才有用。
共享骨干掉点最小：拆开联合训练只小幅回落（49.8 / 87.0），说明 VLN 与 VLA 确实能共用一个 VLM 骨干，这反过来支持把导航+操作统一进单一框架的方向。
反馈与生成式重建都重要：砍掉稠密反馈（仅二值成败）或换成检索式重建都明显掉点，呼应"去掉任一环就退回一次性训练"的不可分解论断。

亮点与洞察¶

把"工程流水线"重新框成"生命周期问题"：最大的"啊哈"是论点本身——很多工作在优化单环节，Arcadia 指出真正缺的是 real→sim→real 的闭环耦合，并用消融"去掉任一组件都崩"来论证耦合的不可分解性。
部署即监督：\(F^T_t\) 把一条真机轨迹拆成奖励/动力学/感知/目标对齐四项加权，既能全局打分又能定位局部错误，比"只记成功/失败"信息密度高得多，这个反馈结构可迁移到任何带真机回流的具身系统。
场景反馈直接改写仿真资产：弱光建图退化、出现新物体这类失败被用来实例化新资产/注入扰动，让仿真持续逼近部署分布——这是把"domain randomization"从手工先验升级成"数据驱动的自适应"。
生成式资产取代检索拼装：用 Gaussian-splat 直接从多视角合成 USD 资产而非数据库检索，可编辑、保语义，是 real-to-sim 的关键可复用 trick。

局限与展望¶

作者承认：实现局限在 Unitree G1 + Isaac Sim 单一平台，受硬件成本所限只验证了 7B 级 VLM，大规模评测范围受限；未来要扩到更多本体与仿真环境（如 InternRobot）。
真机仍有明显差距：导航 46%、操作 27% 的绝对成功率说明离实用还远，组合/长程指令是主要失败点（多目标场景仅 17%）。
自己发现的局限：(1) 论文未给出明确开源仓库链接 ⚠️，"标准化接口可复现"的承诺难以核验；(2) \(F^T_t\) 里四个 \(\lambda_i\) 权重如何设定、对结果敏感度多大未充分披露；(3) 真机评测是人工打分的 100+100 任务，规模偏小、主观性需注意；(4) 闭环"持续自我改进"主要靠单轮 w/o→w/ feedback 的对比体现，缺多轮迭代曲线来证明真正的"终身"累积增益。

评分¶

新颖性: ⭐⭐⭐⭐ 把具身学习重构成全生命周期闭环、提出 Sim-from-Real 三通道反馈机制，框架级创新清晰，但各子模块多是成熟组件（frontier 探索、Gaussian-splat、A*/RRT）的整合。
实验充分度: ⭐⭐⭐⭐ 覆盖 VLN/VLA 多 benchmark + 真机 + 逐组件消融，论证耦合不可分解；但真机规模偏小、缺多轮迭代的"终身"增益曲线。
写作质量: ⭐⭐⭐⭐ 痛点→设计的对应关系讲得很清楚，四短板与四组件一一对照；个别符号（\(F^R\)、\(\lambda_i\)）披露不足。
价值: ⭐⭐⭐⭐ 为通用具身 agent 提供了可复用的 real-to-sim-to-real 范式与标准化评测思路，若开源到位影响力可观。