Active Intelligence in Video Avatars via Closed-loop World Modeling¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 ORCA（未见公开代码仓库）
领域: 视频理解 / 数字人 / 智能体
关键词: 视频数字人, 内部世界模型, 闭环规划, POMDP, 双系统架构

一句话总结¶

针对当前视频数字人"只会被动跟随语音/姿态、缺乏自主目标驱动"的问题，本文提出 L-IVA 任务（把数字人控制建模成以 I2V 生成模型为环境模拟器的 POMDP）和 ORCA 框架——用「观察-思考-行动-反思」(OTAR) 闭环对抗生成随机性、用 System 2/System 1 双系统分层完成开放域规划与精确落地，在 100 个任务的基准上把平均任务成功率做到 71.0%，显著超过开环、反应式与无反思基线。

研究背景与动机¶

领域现状：可控视频数字人目前主流是"被动条件驱动"——给一张参考图，再用语音、姿态序列或文本作为驱动信号，让模型逐段（chunk-level）自回归地生成保持身份一致的视频。它们在身份保持、与驱动信号对齐这两件事上已经做得很好。

现有痛点：这些方法本质上是反应式信号处理——动作只是对音频的响应、身份只是特征融合，数字人能执行预定义动作或听简单指令，却无法自主地朝一个长期目标做多步规划并与环境交互。比如给一个"泡茶"或"主持产品演示"的高层意图，它没法自己拆解成"开罐→舀茶叶→放进滤网→倒热水"这种连贯的多步流程。

核心矛盾：要从被动动画跨到主动智能，智能体必须做到三件事：(1) 从不完整的视觉观测（只能看到自己生成出来的视频片段）里推断任务进度；(2) 预测动作如何改变未来状态；(3) 朝长期目标规划连贯的动作序列。这要求一个内部世界模型 (Internal World Model, IWM) 来综合观测历史、估计真实世界状态。但在生成式环境里实现 IWM 又有两个机器人/具身 AI 里不存在的独特困难：

生成不确定性下的状态估计：传统 IWM 假设世界确定——同一动作反复执行结果一致；但 I2V 生成本质是随机的，同一条动作描述能产生五花八门的视觉结果。数字人没有传感器，只能靠自己生成的片段反推状态，如果不校验"生成出来的"和"想要的"是否一致，内部信念就会被污染，长程规划随之崩坏。
开放域动作空间下的规划：机器人动作空间有界（关节角），但数字人动作是语义的、开放域的，没有预定义原语。一句"拿起红杯子"留下了大量视觉细节未指定，会导致生成结果多样且常常出错。这要求分层规划——既要决定下一个动作，又要把它翻译成针对具体 I2V 模型的、详细的控制信号。

核心 idea：把数字人控制形式化为 POMDP，用闭环 OTAR + 双系统实现 IWM——持续用反思校验生成结果以维持准确信念，用 System 2 做策略推理、System 1 做模型专属的动作落地，从而无需训练就能在开放域里自主完成多步任务。

方法详解¶

整体框架¶

ORCA（Online Reasoning and Cognitive Architecture）要解决的是：给一张初始场景图 \(o_0\) 和一个高层意图 \(I\)（如"移栽植物"），让数字人自己生成一段连贯的、通过有意义物体交互逐步完成目标的视频序列 \(V=[v_1,\dots,v_T]\)。

它整体是一个逐回合自回归的闭环。智能体看不到真实世界状态 \(s_t\)，只能维护一个带历史信息的内部信念状态 \(\hat{s}_t\)，并执行依赖信念的策略 \(\pi(a_t|\hat{s}_t)\)。每一回合走一遍 OTAR 四阶段：Observe（从最新片段更新信念）→ Think（System 2 拆子目标、预测下一状态）→ Act（System 1 把抽象子目标翻译成 I2V 专属动作描述并生成视频）→ Reflect（System 2 校验生成结果是否符合预测，accept/reject）。reject 就重试或重规划，accept 才把片段写入结果、推进到下一回合，直到待办子目标清空。整个框架不需要任何任务专属训练，全靠对预训练 VLM 的结构化提示驱动。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["初始图像 o₀ + 意图 I"] --> B["POMDP 信念状态<br/>Observe：更新 ŝₜ<br/>场景/物体/已完成子目标"]
    B --> C["分层双系统 · System 2<br/>Think：拆子目标 gₜ + 预测下一状态"]
    C --> D["分层双系统 · System 1<br/>Act：翻译成 I2V 专属动作描述 aₜ"]
    D --> E["I2V 生成<br/>vₜ₊₁ ∼ G_θ(oₜ, aₜ)"]
    E --> F["闭环 OTAR · Reflect<br/>校验结果 vs 预测 → δₜ"]
    F -->|reject 且未超 N 次| G["修订动作 / 重规划"]
    G --> E
    F -->|accept| H["写入 V，t←t+1"]
    H -->|仍有待办子目标| B
    H -->|待办清空| I["输出视频序列 V"]

关键设计¶

1. L-IVA 建模为 POMDP + 内部世界模型信念状态：给"看不全又测不准"的环境一个可推断的状态表示

痛点是数字人面对的是双重不可观测：真实状态 \(s_t\) 藏在视频背后（一帧只含部分信息），而且同一动作因 I2V 随机性会得到不同结果。本文把任务形式化为元组 \((S, A, T, R, \Omega, O)\) 的 POMDP——真实状态 \(s_t\) 不可见，动作空间 \(A\) 是自然语言描述的开放集合，观测 \(o_t\) 是 I2V 生成的视频帧、由 \(O(o_t|s_t)\) 给出部分视图，状态转移 \(T(s_{t+1}|s_t,a_t)\) 隐式不可见，能观测到的只是随机生成 \(o_{t+1}\sim G_\theta(o_t,a_t)\)；奖励 \(R\) 稀疏且终态化——只有轨迹终态满足意图才给 1。

既然 \(s_t\) 不可见，智能体就不能直接对状态做决策，而是维护一个信念状态 \(\hat{s}_t\)，初始化为 \(\hat{s}_0=(s_{\text{scene}}, C_{\text{plan}}, h_\varnothing)\)：\(s_{\text{scene}}\) 是初始图里可交互物体及其属性，\(C_{\text{plan}}\) 是把意图 \(I\) 拆成的子目标清单，\(h_\varnothing\) 是空交互历史。每回合 Observe 阶段用 \(\hat{s}_t=f_{\text{observe}}(o_t,\hat{s}_{t-1})\) 把最新片段里的场景变化、物体状态更新、已完成子目标结构化地并进信念。这个显式状态正是后续"能不能判断子目标做完没""动作之间有没有依赖"的依据——消融里去掉它（w/o Belief State）TSR 从 0.77 掉到 0.67，掉得最狠，智能体会出现重复或乱序动作。

2. 分层双系统架构：把"想得对"和"画得准"拆给两个 VLM 分别负责

痛点是开放域控制同时要两种能力：高层策略推理（动作是语义、开放域的）和低层精确提示（约束随机的 I2V 模型，而且可靠生成控制往往是模型专属的）。单一系统很难兼顾——既要广博的世界知识做组合推理，又要迁就生成模型的格式要求，二者会互相掣肘。受双过程理论 (dual-process theory) 启发，ORCA 把规划和执行解耦成两个专门的 VLM 模块。

System 2（策略规划器） 维护 IWM 的高层信念 \(\hat{s}_t\)、做策略推理，输出 \(g_t, g_{\hat{s}} = \pi_{\text{Sys2}}(\hat{s}_t, I)\)，其中 \(g_t\) 是朝下一子目标的文本命令、\(g_{\hat{s}}\) 是对预测下一状态的详细结构化描述；它不被生成模型的格式要求束缚，专注用预训练 VLM 的世界知识做开放域推理，并贯穿 Observe/Think/Reflect 多个阶段。System 1（动作落地器） 只在 Act 阶段工作，把多模态意图 \((g_t, g_{\hat{s}})\) 翻译成针对具体 I2V 模型 \(G_\theta\) 的详细动作描述 \(a_t = \pi_{\text{Sys1}}(g_t, g_{\hat{s}}, o_t, \hat{s}_t)\)，靠大量提示工程保证高保真翻译。这样 System 2 守长程策略一致性、System 1 守执行精度。消融去掉 System 1（直接用 System 2 的抽象命令喂生成模型）TSR 与 BWS 都下降，证明"策略推理"和"执行落地"必须分离。

3. 闭环 OTAR 循环：用 Reflect 在信念被污染前拦下错误生成

痛点是开环计划极易失败——哪怕微小执行误差也会累积；而普通的 Observe-Think-Act 三段循环也不够，因为 I2V 结果可能和意图严重偏离，一次失败生成会产生难以恢复的错误状态，若把它并进信念就会污染整条内部信念。ORCA 在 Act 之后加一个 Reflect 阶段：System 2 用 \(\delta_t, \text{analysis} = f_{\text{reflect}}(o_{t+1}, g_t, g_{\hat{s}})\) 校验采样帧 \(o_{t+1}\) 是否匹配预测状态 \(g_{\hat{s}}\)，产出 \(\delta_t\in\{\text{accept}, \text{reject}\}\)。

accept 则推进到下一回合、用新片段更新信念；reject 则分析失败原因，要么用 \(a_t^{\text{new}}=f_{\text{revise}}(a_t, o_{t+1}, \text{analysis})\) 修订动作重试（最多 \(N_{\text{retry}}\) 次），要么自适应地为下一轮重规划。这一闭环的关键在于"先验证、后更新信念"——它把失败生成挡在信念之外，防止错误状态向后传播。这也解释了视频质量上的反直觉结果：开环规划虽然 TSR 不低，却因不做结果筛选而 Subject Consistency 最低（视觉伪影随长程累积），ORCA 反而在 Reflect 阶段主动滤掉低质生成，拿到最高的主体一致性。消融去掉 Reflect（w/o Reflect）主要伤的就是 Subject Consistency 和人类偏好 BWS。

一个完整示例：移栽植物 (Transfer Plant)¶

意图是"移栽植物"，GT 子目标为：①往盆里加土 → ②把幼苗从育苗盆取出 → ③把幼苗放进大盆 → ④用土填满剩余空间。

开环规划：一次性生成全部 I2V 描述直接喂给生成模型，无中间校验。前几步看着还行，但第 2 步"取幼苗"在生成视频里执行偏差未被发现，误差一路累积，到第 4 步画面里已经在对完全错误的物体操作。
反应式智能体：有闭环纠错但没有世界状态建模，不知道"加土"这个子目标已经完成，于是反复执行"加土"，产生物理上不合理的重复行为。
VAGEN 式 CoT：有规划+闭环执行，但假设环境确定、且无反思机制，I2V 的幻觉错误会直接污染终态（图中红框）。
ORCA（本文）：靠 OTAR 循环在反思阶段早期检测到执行错误并纠正，顺利完成大部分子目标且执行质量稳定一致。

这个例子把三个设计为什么缺一不可串了起来：没有信念状态就像反应式那样重复动作，没有反思就像 VAGEN 那样被生成幻觉带偏，没有分层落地则动作描述不够精确。

实验关键数据¶

实验在 L-IVA 基准上做：100 个任务、5 类真实场景（Kitchen / Livestream / Workshop / Garden / Office），每类含 5 个双人协作任务；每个任务需 3-8 个交互步、涉及 3 个以上物体，平均 5.0 个子目标。场景用固定视角单房间以规避当前 I2V 的空间不一致。主指标是任务成功率 TSR——按完成子目标比例加权：

\[\text{TSR} = \frac{1}{N}\sum_{i=1}^{N}\frac{k_i}{M_i}\]

其中 \(k_i\) 是任务 \(i\) 完成的子目标数、\(M_i\) 是总子目标数，由人工核验。另有诊断指标：人评的 Physical Plausibility Score (PPS, 1-5)、VLM 评的 Action Fidelity Score (AFS, 0-1)，以及视频质量 (Aesthetics / Subject Consistency) 与 Best-Worst Scaling (BWS) 人类偏好。ORCA 训练无关，VLM 用 Gemini-2.5-Flash（System 1/2 共用），I2V 用 Wanx2.2 + 蒸馏 LoRA；所有基线共用同套设置以保证公平。

主实验（任务完成与执行质量，平均值）¶

方法	TSR (%) ↑	PPS (1-5) ↑	AFS (0-1) ↑
Reactive（反应式，无信念无反思）	50.9	3.11	0.55
Open-Loop（开环规划）	62.3	3.17	0.62
VAGEN（确定性世界模型 CoT）	61.2	3.22	0.62
ORCA（本文）	71.0	3.72	0.64

ORCA 平均 TSR 71.0% 与 PPS 3.72 均最高。但有一个值得注意的 trade-off：在低状态依赖场景（Livestream 58.4、Kitchen 73.8）开环规划很有竞争力甚至反超，因为它在固定步预算内把所有子目标都尝试一遍、容易拿到"名义完成"，而 ORCA 严格的反思会把算力花在纠错上、简单任务里反而可能把步预算耗在重试上。优势在高依赖复杂场景才决定性显现：Garden 81.5 vs 开环 46.2、Workshop 80.4 vs 72.7——开环早期执行出错且无法检测，后续动作全失去意义。

视频质量与人类偏好（平均值）¶

方法	Aesthetics ↑	Subject Consistency ↑	BWS (%)（人类偏好）
Reactive	0.59	0.92	−18.0
Open-Loop	0.56	0.90	−7.52
VAGEN	0.57	0.92	−4.12
ORCA（本文）	0.58	0.93	+28.7

⚠️ 原文表头把 BWS 标为 "↓"，但正文称 ORCA "ranks significantly higher" 且基线均为负分、ORCA 为 +28.7，从语义看应是越高越受偏好，方向以原文叙述为准。开环虽 TSR 不低却 Subject Consistency 最低，印证"无结果校验→视觉伪影随长程累积→身份退化"；ORCA 靠 Reflect 主动滤掉低质生成拿到最高主体一致性。人类评测里两个无反思/无信念基线都是负分，说明主动智能不止靠单片画质。

消融实验（Workshop 场景重评）¶

配置	TSR ↑	Consistency ↑	BWS	说明
ORCA (Full)	0.77	0.94	26.7%	完整模型
w/o System 1	0.74	0.93	−6.72%	去分层落地，直接用 System 2 抽象命令→生成不精确
w/o Reflect	0.72	0.92	−20.0%	去反思校验→错误生成污染后续步
w/o Belief State	0.67	0.93	0.00%	去信念状态→无法追踪子目标/依赖，重复或乱序

关键发现¶

信念状态贡献最大：去掉它 TSR 从 0.77 掉到 0.67，是掉点最多的——显式世界状态是"知道做到哪一步"的根，没有它就退化成反应式的重复动作。
反思主要保的是质量与偏好：去掉 Reflect TSR 只小掉到 0.72，但 BWS 从 +26.7% 崩到 −20.0%、一致性也降——它防的是生成幻觉污染信念，体现在画面连贯和人评上而非单纯成功率。
任务依赖度决定方法优劣：低依赖任务里开环"无脑全做"反而占便宜，ORCA 的反思在简单任务里有耗预算风险；高依赖任务里早期纠错才让 ORCA 拉开差距。横向比较不同场景的绝对数值需带此 caveat。

亮点与洞察¶

把"生成随机性"当成 POMDP 的部分可观测来处理，而不是当噪声去硬抗——同一动作描述产出不同视觉结果，被显式建成观测函数 \(O(o_t|s_t)\) 与随机生成 \(o_{t+1}\sim G_\theta\)，这让"先验证后更新信念"的闭环有了理论落点，巧妙在于它把生成模型直接当成 POMDP 的环境模拟器。
Reflect 的副作用是"画质过滤器"：本来是为防信念污染加的校验，却顺带在长程里挡掉低质生成、稳住身份一致性，一个机制同时服务"任务对不对"和"画面崩不崩"两件事，这是最让人"啊哈"的地方。
双系统分工可直接迁移：用一个强推理 VLM 做开放域策略、一个提示工程重的 VLM 做"模型专属翻译层"，这种"策略与落地解耦"思路可迁到任何"通用规划→特定生成器控制信号"的场景（如文生图编辑链、机器人语言控制），换生成器只需重写 System 1。

局限与展望¶

训练无关、全靠预训练 VLM 的结构化提示，能力上限被 Gemini-2.5-Flash 的推理与 Wanx2.2 的生成保真度卡住；System 1 大量依赖"模型专属提示工程"，换 I2V 模型要重做这层翻译，泛化成本不低。
基准为规避当前 I2V 空间不一致，限定固定视角、单房间，且 100 任务里 92 张合成图、仅 8 张真实图（⚠️ 据图 3 统计），离真实开放世界的视角变化、跨房间长程仍有距离。
简单/低依赖任务里反思会耗步预算、反被开环超越，说明"何时该反思、反思预算如何自适应分配"还没解决；可探索按任务依赖度动态调度 OTAR 的纠错强度。
奖励稀疏且终态化、TSR 与子目标完成靠人工核验，评测成本高、可扩展性受限。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个为生成式视频数字人引入闭环内部世界模型、并把控制建成以 I2V 为模拟器的 POMDP，问题设定本身就开了新方向。
实验充分度: ⭐⭐⭐⭐ 5 场景 100 任务、TSR/PPS/AFS/一致性/BWS 多维评测 + 三消融，但基准受限于固定视角且以合成图为主。
写作质量: ⭐⭐⭐⭐⭐ 两大挑战→两大设计→OTAR 算法逐阶段讲清，框架与消融一一对应，逻辑闭合。
价值: ⭐⭐⭐⭐ 把数字人从被动动画推向主动智能，且训练无关、即插即用，对虚拟直播/自主主持等应用有直接想象空间。