Ego-InBetween: Generating Object State Transitions in Ego-Centric Videos¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 视频生成
关键词: 第一人称视频, 物体状态转换, 视频插帧, 视觉语言模型, 帧级条件注入

一句话总结¶

针对"给定初始帧、目标帧和一句动作指令，生成中间帧把物体从初态平滑变到末态"的新任务（EIVST），EgoIn 先用微调后的 TransitionVLM 推理出分几步、每步发生在哪个时间段，再把这些条件逐帧注入扩散插帧模型，并用物体定位辅助监督保住物体外观一致性，在四个第一人称/机器人操作数据集上 FVD 等指标全面领先。

研究背景与动机¶

领域现状：让机器理解"物体如何随动作变化"对具身智能很关键。现有相关任务分两类：一类是文本条件的视频预测（TVP，如 Seer、AID），从单张参考帧 + 指令预测未来帧；另一类是图像间的过渡视频生成，包括视频插帧（VFI）和场景过渡（如 SEINE、FILM），目标是在两张参考图之间生成平滑的运动/外观过渡。

现有痛点：TVP 类方法只给一张参考帧和指令，没有目标状态的视觉引导，不知道该往哪儿生成——比如给一张关着的冰箱，很难推断里面有什么、怎么取出一碗生菜。插帧/过渡类方法虽然有首尾两帧，但只擅长平滑外观插值，遇到多步、组合性的动作就会退化成简单重复的运动，因为它们过度依赖额外引导条件、缺乏在两个物体状态之间"推理出过渡过程"的能力。

核心矛盾：现有 I2V 模型倾向于过度依赖给定的显式信息，不会像人那样调动更广的上下文去推理"哪些物体在变、发生了什么变换、变换在序列的什么位置发生"。而直接把通用 VLM 接进来又会幻觉：编造视觉上不存在的过渡步、把步骤延伸到目标帧之外、把时间区间均匀乱分。

本文目标：定义并解决 Egocentric Instructed Visual State Transition (EIVST) 任务——给初始帧 \(I_1\)、目标帧 \(I_N\) 和一句动作指令，生成中间帧序列 \(\{\hat{I}_i \mid 2 \le i \le N-1\}\)，刻画物体经 \(K\) 步推理出的状态转换过程。

切入角度：模仿人推理状态转换的方式，把问题拆成两段——先"想清楚怎么变"（推理过程），再"画出来"（生成帧），即 divide-and-conquer。关键在于先用一个被驯服过、不乱编的 VLM 把过渡过程显式推理出来，再当作逐帧条件喂给生成器。

核心 idea：用微调 VLM 显式推理"分 K 步 + 每步时间段"的过渡过程，再通过帧级交叉注意力把它注入扩散插帧模型，从而把"看不见的推理"变成"可控的逐帧生成条件"。

方法详解¶

整体框架¶

EgoIn 分两阶段串行：阶段一用微调后的 TransitionVLM 读初始帧、目标帧和动作指令，推理出初/末物体状态描述、\(K\) 步物体状态转换以及每步的时间区间 \(\{R_j\}_{j=1}^K\)；阶段二由 Transition Conditioning (TC) 模块把这些状态/过渡信息编码成逐帧条件 \(\{\tilde{F}_i^*\}_{i=1}^N\)，经帧级交叉注意力注入去噪 U-Net，生成 \(N\) 帧视频。训练时额外挂一个 Object-Aware Auxiliary Supervision (OAS)：让 U-Net 顺便预测被操作物体的定位图，和视频重建损失一起优化，保物体外观一致。整套生成器搭在轻量的 DynamiCrafter Interpolation (DC-Interp) 上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>初始帧 I₁ + 目标帧 Iₙ + 动作指令"] --> B["TransitionVLM<br/>推理 K 步转换 + 时间区间 Rⱼ"]
    B --> C["Transition Conditioning<br/>状态/过渡特征 → 逐帧条件 F̃ᵢ*"]
    C --> D["去噪 U-Net (DC-Interp)<br/>帧级交叉注意力注入"]
    D -->|训练时辅助分支| E["Object-Aware Auxiliary Supervision<br/>预测物体定位图 + 重建损失"]
    D --> F["输出 N 帧过渡视频"]

关键设计¶

1. TransitionVLM：把通用 VLM 驯服成"只说图里有的、还会分步分时段"的过渡推理器

直接拿 Qwen2.5-VL 7B 去推理状态转换会幻觉——编造不存在的过渡、把步骤延伸出目标帧、时间区间均匀乱分。作者用 GPT-4o 构造监督数据来纠正它：① 对状态描述，先按动作指令找出被操作物体、用 Qwen2.5-VL 检测出 bounding box，把 box 一起喂给 GPT-4o，逼它聚焦物体区域、少描述无关背景，得到初/末物体状态描述；② 对过渡描述，把完整 \(N\) 帧视频喂给 GPT-4o（而不是只给首尾两帧），让它生成 \(K\) 个状态转换步及对应时间区间——有了全程视频，过渡描述才"看得见"地准确。

微调时为保住原模型的推理与泛化能力，用 LoRA 而非全参微调，并把状态、过渡两路解耦：注入 S-Adapter + S-LoRA + 一个预测头学状态信息（\(\mathcal{L}_S\)、\(\mathcal{L}_T\) 监督初/末状态），再注入 T-Adapter + T-LoRA + 另一个预测头学过渡信息（\(K\) 步转换 + 时间区间，\(\mathcal{L}_R\) 监督区间）。微调后幻觉显著减少——消融里把"原 VLM 推理的步骤"换成 TransitionVLM 的步骤，生成视频的合理性明显改善（如先开冰箱门、再放锅，而非颠三倒四）。

2. Transition Conditioning：把 VLM 的文本推理变成逐帧、带时间权重的生成条件

I2V 模型靠注意力隐式建模输入条件，缺乏显式的逐帧引导，导致难以确定每步过渡的时间区间、常漏掉某些步骤。TC 把 TransitionVLM 的输出转成显式逐帧条件，分两支：

Multi-modal Semantic State Encoding（状态编码）：取首尾帧 \(\{I_1, I_N\}\) 和 TransitionVLM 的状态特征。这里不直接用生成的文本 prompt，而是取预测头之前的特征 \(F_1^S\)、\(F_N^S\)，因为它们信息更丰富、对噪声更鲁棒。初态 \(\{I_1, F_1^S\}\) 和末态 \(\{I_N, F_N^S\}\) 各过一个权重共享的 SQ-Former（借鉴 BLIP）对齐视觉与语义，再经多层 Self-Attn + FFN 融合得 \(\tilde{F}^S\)；还引入可学习位置 token 区分初/末状态、强化时序感知。

Range-Aware Transition Encoding（过渡编码）：核心是一个软化加权机制——基于 TransitionVLM 预测的时间区间 \(\{R_j\}_{j=1}^K\)，给每帧 \(i\)、每步 \(j\) 从高斯分布重采样权重 \(W_{i,j}\)，其中区间 \(R_j\) 的中心和长度分别当作高斯的均值与标准差。这样把硬邦邦、有噪声的步边界平滑成连续权重，避免步与步交界处的突变。每帧的过渡特征由 \(\{F_1^T,\dots,F_K^T\}\) 按 \(\{W_{i,1},\dots,W_{i,K}\}\) 加权求和得到。最后把 \(\tilde{F}^S\) 与逐帧 \(\{\tilde{F}_i^T\}_{i=1}^N\) 拼接，过 MLP + Self-Attn 得最终逐帧条件 \(\{\tilde{F}_i^*\}_{i=1}^N\)，经帧级交叉注意力注入 U-Net。消融显示用预测区间（非均匀分配）能让过渡在时间上更自然对齐。

3. Object-Aware Auxiliary Supervision：用"顺手定位物体"的辅助任务保住外观一致

生成的过渡视频常出现被操作物体外观漂移、运动不连贯。OAS 用多任务学习让 U-Net 在重建帧的同时学会定位关键物体：在 U-Net 最后一个卷积块后接一个由两层卷积组成的定位头，预测物体概率图。真值由 Qwen2.5-VL 按指令找出物体、再用 SAM2 逐帧生成掩码并下采样到定位头分辨率得到；监督用预测图与真值掩码的逐像素交叉熵。整体目标为

\[\min_{\theta}\ \mathbb{E}_{z,t,\epsilon}\big\|\epsilon - \epsilon_{\theta}(z_t; t, f_r, I_1, I_N, \{\tilde{F}_i^*\}_{i=1}^N)\big\|_2^2 + \lambda \mathcal{L}_{\text{LOC}}\]

其中 \(\lambda\) 控制定位损失权重，经验设为 \(0.1\) 以平衡两个目标并保训练稳定。关键是 SAM2 只在训练时造真值，推理时不需要任何掩码/box，零额外开销。

损失函数 / 训练策略¶

TransitionVLM：在约 10k 状态描述 + 30k 过渡描述（Epic100/EgoFHO）、外加约 2k+4k（机器人数据集）上微调，Adapter 学习率 \(1\times10^{-5}\)、LoRA 学习率 \(5\times10^{-5}\)，lora rank=64、alpha=32，4 个 epoch、batch 128。
生成器：分两步——先冻结其余参数、单独优化 TC 模块 20k 步（lr \(1\times10^{-4}\)，batch 64）防训练不稳；再联合微调 U-Net 空间层 + TC 模块 10k 步（lr \(2\times10^{-5}\)，batch 32）。推理用 50 步 DDIM。SQ-Former 取 16 个 query，\(\tilde{F}^S\) 与 \(\{F_j^T\}\) 特征长度分别为 32、77，状态编码层数 \(M_1=M_2=2\)。

实验关键数据¶

主实验¶

四个数据集（两个人-物交互 Epic100/EgoFHO，两个机器人操作 DualArm/Bridge），指标遵循 VBench：FVD↓、视频时序质量 VTQ↑、视频-文本一致性 VTC↑、视频-图像一致性 VIC↑。所有对比方法都已在本文 EIVST 训练集上微调以保公平。

数据集	指标	DC-Interp（次优）	EgoIn（本文）
Epic100	FVD↓ / VTQ↑ / VTC↑ / VIC↑	296.67 / 0.8797 / 0.2041 / 0.9081	215.27 / 0.9081 / 0.2373 / 0.9313
EgoFHO	FVD↓ / VTQ↑ / VTC↑ / VIC↑	290.30 / 0.8740 / 0.2079 / 0.9196	203.85 / 0.8987 / 0.2340 / 0.9396
DualArm	FVD↓ / VTQ↑ / VTC↑ / VIC↑	298.51 / 0.8895 / 0.2107 / 0.9324	209.63 / 0.9142 / 0.2361 / 0.9468
Bridge	FVD↓ / VTQ↑ / VTC↑ / VIC↑	287.47 / 0.9153 / 0.2092 / 0.9302	191.09 / 0.9374 / 0.2395 / 0.9511

FVD 在四个数据集上相对次优均下降约 70~100 点（如 Epic100 296.67→215.27），VTC（视频-文本一致性）提升最显著。40 人用户研究中，EgoIn 在过渡步合理性 / 指令对齐 / 运动质量三项均拿到 70%+ 的偏好票（如运动质量 77.06%），远超 DC-Interp 的约 11%。

消融实验¶

各组件逐步叠加（以微调后的 DC-Interp 为 Baseline，Epic100）：

配置	FVD↓	VTQ↑	VTC↑	VIC↑	说明
Baseline	296.67	0.8797	0.2041	0.9081	微调后的 DC-Interp
+ TransitionVLM	261.78	0.8909	0.2233	0.9146	加扩展文本条件，过渡步更合理
+ TVLM & TC	232.10	0.9013	0.2312	0.9251	帧级条件让步骤更可控、时间分配更准
+ TVLM & TC & OAS	215.27	0.9081	0.2373	0.9313	加物体定位监督，外观/运动一致性更好

过渡步数 \(K\) 的消融（Epic100 FVD）：\(K{=}1\) 上下文太少（247.41），\(K{=}2\) 明显改善（228.66），\(K{=}4\) 对简单过渡引入冗余步反而变差（233.25），而自适应 \(K\in[1,4]\) 最优（215.27）——说明步数应随过渡复杂度变，不能固定。

关键发现¶

三个组件各管一段、缺一不可：TransitionVLM 管"步对不对"，TC 管"每步落在哪几帧、可不可控"，OAS 管"物体长得一不一致"；从 296.67→215.27 的 FVD 改善由三者叠加而来。
VLM 必须微调：toy 实验里用原版 Qwen2.5-VL 7B 推理出的步骤会让生成出现不合理状态（如往已满的冰箱里塞锅造成物体重叠），换成 TransitionVLM 后步骤顺序与物理合理性明显改善。
时间区间要"预测"不要"均匀分"：用 TransitionVLM 预测的非均匀区间（如 \(R_1{:}1{-}3, R_2{:}4{-}12, R_3{:}13{-}16\)）比均匀切（\(1{-}5,5{-}10,11{-}16\)）生成的过渡更自然、时序更对齐。

亮点与洞察¶

"先推理后生成"的解耦很对路：把"分几步、每步在哪段时间"这种需要常识推理的活交给 VLM，把"画得像不像"交给扩散模型，比让一个 I2V 模型端到端硬扛要靠谱——这套 divide-and-conquer 思路可迁移到其他需要"过程推理 + 高保真生成"的任务。
高斯软加权把离散步边界变连续：用区间中心/长度当高斯均值/方差重采样逐帧权重，是个轻巧的 trick——既尊重 VLM 给的离散步划分，又避免步交界处的硬切变，可复用到任何"把分段标签转成逐帧/逐位置软条件"的场景。
训练用 SAM2 造真值、推理零开销：OAS 把强分割模型当"训练期教师"蒸进一个两层卷积定位头，推理时完全不调用 SAM2/检测器——是"训练重、推理轻"的典型且实用的做法。
取预测头之前的特征当条件：不用 VLM 输出的文本 prompt 而用其内部特征 \(F^S\)，因为信息更密、抗噪——提醒我们把 VLM 接进生成器时，中间表征往往比生成文本更好用。

局限与展望¶

作者承认：长时程、伴随大幅场景/视角变化的状态转换仍是难题，需要更强的长程依赖建模和多视角一致性。
自己发现：⚠️ 论文未提供代码，且 SQ-Former、Adapter 等多个新模块的精确结构主要靠图示，复现门槛较高；高斯重采样的具体形式（均值/方差如何由区间映射、是否归一化）描述较略，复现时需以原文/补充材料为准。
严重依赖 GPT-4o 造数据 + Qwen2.5-VL 检测 + SAM2 分割的"数据流水线"，这些上游模型的检测/分割误差会直接污染训练真值，论文未分析其敏感性。
评测全用自动指标（FVD/VBench 协议）+ 用户研究，缺少对"物理合理性"的客观度量（如物体守恒、动作可行性）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 提出 EIVST 新任务，"先 VLM 推理过渡、再帧级条件注入扩散"的解耦设计 + 高斯软加权区间编码组合新颖。
实验充分度: ⭐⭐⭐⭐ 四个数据集 + 四指标 + 用户研究 + 多组消融（组件/步数/VLM 有效性）较完整，但缺代码与上游模型误差敏感性分析。
写作质量: ⭐⭐⭐⭐ 任务定义清晰、动机层层推进；部分新模块（SQ-Former、高斯重采样细节）偏依赖图示、文字略简。
价值: ⭐⭐⭐⭐ 对具身智能/机器人操作的"过程可视化"有实用价值，多个 trick（训练造真值、中间特征当条件、区间软加权）可迁移。