GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/zjutcvg/GeoMotion
领域: 运动分割 / 视频理解
关键词: 运动分割, 4D几何先验, 前馈模型, 光流, π3重建

一句话总结¶

GeoMotion 把运动分割从"显式估计相机位姿与点对应 + 迭代优化"重新表述为"直接从预训练 4D 重建模型（π3）的潜在几何特征里前馈解码运动掩码"，靠一个特征聚合模块 + 5 层自注意力解码器，单次前馈就把物体运动从相机运动里解耦出来，在多个零样本基准上达到 SOTA，且每帧 0.31s，比迭代优化方法快 20 倍以上。

研究背景与动机¶

领域现状：运动分割（motion segmentation）要把视频里"自身在动的物体"从"相机运动带来的整体位移"里分离出来。主流做法依赖显式运动线索——光流（optical flow）或点轨迹（point trajectory）——先估出相机运动和点对应，再据此推断哪些区域是独立运动的前景。

现有痛点：这些显式线索本身就脏。光流在弱纹理、遮挡、大幅相机运动下不可靠，且感受野只有相邻几帧、对长时运动和遮挡敏感；点轨迹会漂移。更要命的是这些方法都是多阶段串行管线，前一阶段的噪声会一路累积到后面。为了对抗误差累积，近期工作（RoMo 用对极约束 + SAM2 迭代精化掩码，SegAnyMotion 用点轨迹作 prompt 迭代分割）引入逐场景迭代优化——精度上去了，但每帧要 6~8 秒，没法实际部署。

核心矛盾：迭代优化方法陷入一个两难——要么直接用脏的中间表示（光流/对应/对极约束）导致误差累积，要么靠昂贵的迭代优化去补救误差。二者都绕不开"显式估计中间几何量"这一步。

本文目标：能不能像视觉分割、深度估计、3D/4D 重建那样，把运动分割也做成纯前馈？即不算显式对应、不迭代，单次前向就出运动掩码。

切入角度：作者观察到，人之所以能轻松感知运动物体，源于对 3D 场景几何和时空关系的强理解。而近期的前馈 4D 重建模型（DUSt3R、VGGT、π3）在大规模数据上预训练后，其特征层里已经隐式编码了相机位姿和运动感知的几何先验——既然这些"潜在 4D 几何特征"已经包含了解耦运动所需的信息，那运动分割的难点就从"估计几何"退化成了"如何把这些表征解码成运动掩码"。

核心 idea：绕过显式对应估计，直接在预训练 4D 重建模型（π3）的潜在特征上施加注意力解码，让模型隐式地把物体运动和相机运动解耦——用"读懂几何先验"代替"重新算几何"。

方法详解¶

整体框架¶

GeoMotion 是一个端到端前馈框架，输入一段 \(N\) 帧的视频，输出每帧的运动掩码 \(M \in [0,1]^{H \times W}\)（每个像素属于运动物体的概率）。整条管线只有两个模块：特征聚合模块负责把三种互补特征（潜在 4D 几何、光流、相机位姿）融成统一的时空表征；运动解码模块用 5 层自注意力直接从融合特征里"读出"哪些是动的物体。训练时把预训练骨干全部冻结，只学解码器；推理时再用 SAM2 把低分辨率的粗掩码细化成高分辨率结果。整个设计的精髓是"简洁"——没有任何迭代优化，所有重活都交给预训练的几何先验。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入视频 N 帧"] --> B["潜在 4D 几何特征<br/>π3 交替注意力<br/>取 5/15/35/36 层"]
    A --> C["RAFT 光流<br/>→ CNN 提特征"]
    B --> D["相机位姿解码器<br/>F_cam"]
    B --> E["三模态特征聚合<br/>MLP 融合<br/>F_geo+F_flow+F_cam"]
    C --> E
    D --> E
    E --> F["运动解码器<br/>5 层自注意力"]
    F -->|测试时 SAM2 精化| G["高分辨率运动掩码"]

关键设计¶

1. 用潜在 4D 几何特征替代显式几何估计：让模型"读懂"而非"重算"

这一设计直击"中间表示脏 + 误差累积"的痛点。作者不再去显式估计相机位姿、点对应或对极约束，而是把预训练 4D 重建模型 π3 当成几何先验的"特征库"。具体地，先用 DINOv2 抽每帧特征，再送入 π3 的交替注意力（alternating attention，view-wise 注意力捕捉单帧内部结构、global 注意力捕捉跨帧时空一致性）作为视觉几何骨干（VGB），得到潜在 4D 几何特征 \(F_\text{geo}\)。这些特征天然编码了场景结构、3D 几何和相机位姿信息——而这些恰恰是解耦物体运动与相机运动所需的全部。骨干用 π3 原版的 36 层交替注意力，全程冻结，无需微调。

关键洞察在于多层特征融合：作者把浅层（更靠近 DINO、偏图像级语义/物体级结构）和深层（逐层累积的高层上下文与几何结构）拼起来用。实测发现经验性地选第 5、15、35、36 层拼接（concatenation）效果最好——浅层提供物体边界与外观，深层提供全局几何，二者结合才得到鲁棒的潜在 4D 表征。

2. 三模态特征聚合：几何 + 光流 + 相机位姿的互补融合

光流提供的是"相机运动 + 物体运动"的复合像素级信号，本身分不清谁是谁；4D 几何先验提供全局结构但缺局部细粒度运动；相机位姿则直接刻画了需要被"减掉"的背景运动。三者高度互补，因此作者把它们融成一个统一时空表征。用 RAFT 算光流再经 CNN 得到局部光流特征 \(F_\text{flow}\)；用 π3 自带的相机位姿解码器（接在 VGB 最后两层之后）得到相机位姿特征 \(F_\text{cam}\)。三模态通过一个简单的 MLP 拼接融合：

\[\mathbf{F}_\text{fuse} = \mathrm{MLP}([\mathbf{F}_\text{geo}; \mathbf{F}_\text{flow}; \mathbf{F}_\text{cam}])\]

为什么有效：消融显示三者各有不可替代的贡献——相机特征负责"压住"全局背景运动（+6.3），浅层特征在运动信号弱/模糊时靠物体级结构识别连贯区域（+4.5），光流补充稠密的局部像素运动（+6.8）。把全局几何、相机动态、局部像素运动统一进同一个时空表征后，模型才能不靠显式对应匹配就把动态区域分割出来。（⚠️ 三模态的具体对齐拼接细节论文放在补充材料，正文未展开。）

3. 运动解码器 + π3 置信解码器初始化：用几何预训练参数加速收敛

融合特征送进运动解码模块——结构极简，就是 5 层标准 self-attention（Multi-Head Attention + Norm + FFN + 残差），最后接一个轻量 MLP 头输出掩码。它直接从融合表征里"感知"动态物体，靠跨帧多帧注意力把时序信息也用上。

这里有个巧妙的初始化设计：作者的训练数据相比 π3 预训练用的大规模 4D 数据小得多，从头随机初始化解码器容易训不稳。注意到 π3 里有个置信解码器（confidence decoder），原本是基于重建残差预测每像素可靠性的——它已经学到了对几何有意义的参数化。于是作者直接用置信解码器的预训练权重来初始化运动解码器。Figure 5 显示：用 π3 参数初始化比随机初始化收敛更快（更少 epoch 达到同样 IoU）、最终精度也更高，说明大规模 4D 场景预训练提供的几何先验对运动估计同样受益。

损失函数 / 训练策略¶

掩码解码器对每帧预测 \(M \in [0,1]^{H \times W}\)，由对应的二值真值掩码 \(M_\text{gt}\)（运动物体=1，背景=0）监督。训练目标在 \(N\) 帧上组合 Focal Loss 和 Dice Loss：

\[\mathcal{L} = \sum_{t=1}^{N} \left( \lambda_1 \mathcal{L}_\text{focal}(M^t, M_\text{gt}^t) + \lambda_2 \mathcal{L}_\text{dice}(M^t, M_\text{gt}^t) \right)\]

Focal Loss 让模型聚焦难分像素（小目标、模糊、部分遮挡的运动物体），Dice Loss 缓解前景-背景类别不平衡、优化预测与真值的空间重叠。\(\lambda_1 = \lambda_2 = 0.5\)。训练用 Adam，学习率 5e-5，15 个 epoch，4 张 RTX 5090，每 batch 16 帧、center-crop 后 resize 到 \(518 \times 518\)；每个 epoch 对每段视频随机重采样帧以增加多样性。

实验关键数据¶

主实验¶

在五个零样本运动分割基准上对比（所有评测集训练时未见）。GeoMotion 在不用迭代优化的高效方法里几乎全面最优，且推理速度接近最快的光流方法。

方法	迭代优化	DAVIS2016-M (J&F)	DAVIS2016 (J&F)	SegTrackV2 (J)	每帧耗时
OCLR-TTA	是	78.5	78.8	72.3	1.25s
RoMo	是	-	-	67.7	8.34s
SegAnyMotion	是	89.5	90.9	76.3	6.44s
RCF-Stage1	否	77.3	78.5	76.7	-
ABR	否	72.0	72.5	76.6	0.28s
GeoMotion (本文)	否	83.9	84.7	77.3	0.31s

GeoMotion 在 DAVIS2016-M 上 83.9 J&F、DAVIS2016 上 84.7，分别超过第二好的非迭代方法 RCF-Stage1 达 +6.6 / +6.2；还超过迭代方法 OCLR-TTA（DAVIS2016-M 上 +5.4）。耗时 0.31s/帧，与 ABR(0.28s)、OCLR-flow(0.20s) 同档，而 SegAnyMotion / RoMo 要 6.44s / 8.34s——精度-效率权衡极佳。唯一明显劣势是 FBMS-59（72.5 J vs ABR 81.9）：ABR 靠显式外观精化，在运动微弱、边界主要由外观显著性定义的场景占优，而 GeoMotion 这类几何驱动方法此时倾向输出保守、不完整的掩码（SegAnyMotion 在 FBMS-59 上也类似偏弱，印证了这一点）。

与 3D/4D 重建类方法对比（按 Easi3R 协议，输出均经 SAM2 精化），GeoMotion 大幅领先：

方法	DAVIS2016 JM	DAVIS2017 JM	DAVIS-All JM
MonST3R	64.3	56.4	51.9
VGGT4D	69.2	60.0	54.8
Easi3R-monst3r	70.7	67.9	63.1
GeoMotion	84.5	81.1	74.8

相比第二好的 Easi3R-monst3r，JM 分别 +13.8 / +16.2 / +11.7。这些重建方法要么依赖显式光流（DUSt3R、MonST3R），要么是 post-hoc 注意力适配，凸显了 GeoMotion"运动感知学习"架构在隐式解耦上的优势。

消融实验¶

特征聚合模态消融（DAVIS2017，baseline = 仅用 VGB 最后两层）：

配置	J&F	说明
Baseline	67.9	仅潜在几何
+ Cam	74.2	相机位姿 +6.3，压制全局背景运动
+ Flow	74.7	光流 +6.8，稠密局部运动
+ Shallow	72.4	浅层特征 +4.5，物体级结构
+ Cam + Flow	80.2	两模态组合
All	81.4	三模态全融合，最优

数据规模消融（逐步加数据集）：从仅 HOI4D（DAVIS2016-M 67.9 J）开始，加 Dynamic Replica 跳到 75.1（+7.2），再加 OmniWorld-motion / YTVOS18-m / GOT-Motion 一路到 83.5 J——五个数据集全用时性能单调上升，说明框架可扩展性强、能吃下更大更多样的数据。

关键发现¶

三模态缺一不可且互补：相机位姿贡献最大（压背景运动），光流次之（局部细粒度），浅层特征在运动弱时兜底；任意两两组合都不如三者全开。
预训练初始化是免费午餐：直接复用 π3 置信解码器权重初始化运动解码器，收敛更快、终点更高，几乎零成本地把大规模 4D 预训练的几何归纳偏置迁移过来。
几何驱动 vs 外观驱动有适用边界：在运动微弱、边界靠外观显著性的场景（FBMS-59）反而是外观精化的 ABR 占优——GeoMotion 此时会输出保守掩码，是其几何先验路线的固有 trade-off。

亮点与洞察¶

"重述问题"比"优化问题"更值钱：把运动分割从"估几何 + 迭代修"重新表述成"解码已有几何先验"，一句 insight 就把整条多阶段迭代管线砍成单次前馈，速度 20 倍以上提升——这是典型的"换框架而非堆模块"的胜利。
冻结骨干 + 只学薄解码器的范式很可复用：当存在强力预训练几何/视频基础模型时，下游任务往往不需要重新估计底层量，只需学一个轻量解码头去"读"先验特征。这套思路可迁移到深度补全、相机定位、动态区域检测等任何"显式估计很贵但先验已隐含"的任务。
多层特征拼接（5/15/35/36）的经验选择揭示了 4D 重建骨干的层级语义：浅层=物体/外观，深层=全局几何，运动分割恰好两者都要——这对怎么"薅"重建基础模型的中间特征有参考价值。

局限与展望¶

作者承认在运动微弱、边界由外观显著性主导的场景（如 FBMS-59）会输出保守、不完整的掩码，明显弱于显式外观精化的 ABR——几何先验路线对"弱运动强外观"场景天生不友好。
⚠️ 依赖链较长：性能强绑定于 π3 的几何先验质量 + RAFT 光流 + SAM2 后处理，任一上游模型的失效（如 π3 在极端动态下重建崩坏）都可能拖累结果，论文未充分分析这种级联脆弱性。
三模态聚合的具体对齐/拼接细节被放进补充材料，正文只给了一个 MLP 拼接公式，复现时这部分可能是隐藏难点。
改进思路：把 SAM2 精化也吸收进端到端训练（目前是测试时外挂），或为"弱运动"场景显式补一路外观分支，缓解 FBMS-59 这类掉点。

评分¶

新颖性: ⭐⭐⭐⭐ 把运动分割重述为"解码 4D 几何先验"、首个能匹敌迭代优化方法的前馈范式，insight 干净有力，但模块本身（π3 骨干 + 注意力解码 + 多模态 MLP 融合）多为现成组件的巧妙组装。
实验充分度: ⭐⭐⭐⭐ 五个零样本基准 + 与运动线索/重建两类方法对比 + 三类消融（模态/数据规模/初始化），覆盖全面；但 FBMS-59 弱项与上游级联脆弱性分析略浅。
写作质量: ⭐⭐⭐⭐ 动机推导清晰、"为什么前馈可行"讲得透，架构图与层级特征可视化到位；三模态聚合细节外放补充材料稍影响自足性。
价值: ⭐⭐⭐⭐ 把 6~8 秒/帧压到 0.31 秒且保 SOTA，为实时运动分割与动态 4D 场景理解开了一条可部署的前馈路线，工程价值高。