GoalForce: Teaching Video Models to Accomplish Physics-Conditioned Goals¶
会议: CVPR 2026
arXiv: 2601.05848
代码: goal-force.github.io
领域: Video Understanding
关键词: Video Generation, Physics-Conditioned Goals, world model, Force Prompting, Causal Reasoning
一句话总结¶
提出 Goal Force 框架,通过多通道物理控制信号(目标力、直接力、质量)在简单合成数据上训练视频生成模型,使其学会从目标效果逆向规划因果链,实现零样本泛化到工具使用、人-物交互等复杂现实场景。
研究背景与动机¶
视频生成模型可作为"世界模型"进行规划和仿真,但现有目标指定方式存在局限: - 文本指令过于抽象,无法精确描述物理细节(足球运动员不只是"射门",而是要以特定力和角度踢球) - 目标图像往往难以获取或不切实际(无法渲染球入网的精确光照) - 现有力条件方法(PhysGen、Force Prompting)仅支持"直接力"(施加力→观察结果),无法进行"目标力"(指定期望结果→规划前因动作)
人类思考物理任务时的方式更接近目标力:罚球时想的不是精确的像素轨迹,而是赋予球特定的轨迹和速度。本文以此为灵感,提出从"指定效果"到"生成原因"的范式转变。
方法详解¶
整体框架¶
GoalForce 想让视频生成模型像人一样思考物理任务:不是被动执行「施加多大力」,而是给定「想要的结果」(目标力),自己逆推出该有的前因动作。它基于 Wan2.2(MoE 扩散模型)+ ControlNet,核心是把物理意图编码成多通道控制信号,并用一套「随机遮蔽因果」的训练策略,逼模型在简单合成数据上学会因果链规划,再零样本迁到工具使用、人-物交互等复杂场景。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["用户物理意图<br/>目标力 / 直接力 / 质量"] --> B
subgraph B["三通道物理控制张量"]
direction TB
B0["Ch0 直接力(因)<br/>移动高斯 blob"]
B1["Ch1 目标力(果)<br/>移动高斯 blob"]
B2["Ch2 质量(物性)<br/>静态高斯 blob,可选"]
end
D["极简合成训练数据<br/>多米诺 / 滚球 / 康乃馨 ~12k"] --> C
B --> C["随机遮蔽因果信息<br/>训练时只留一路:Goal→Plan 或 Action→Outcome"]
C --> E["只微调 High-Noise Expert<br/>克隆 10 层 DiT + zero-conv 接冻结 Wan2.2"]
E --> F["生成视频:逆向规划因果链<br/>零样本泛化到工具使用 / 人-物交互"]
关键设计¶
1. 三通道物理控制张量:把原因、效果、属性拆成正交的三路信号
文本太抽象、目标图像又难获取,于是 GoalForce 用一个 \(\tilde{\pi} \in \mathbb{R}^{f \times 3 \times h \times w}\) 的控制张量来精确表达物理意图。Channel 0(Direct Force)编码直接施加的力即「原因」,用移动高斯 blob 表示,blob 的轨迹/持续时间与力向量成正比;Channel 1(Goal Force)编码期望的目标力即「效果」,同样用移动 blob 表示目标对象的期望运动;Channel 2(Mass)编码质量等属性,用静态高斯 blob 表示、半径与质量成正比,可选。三路正交,恰好对应「因/果/物性」三个维度。
2. 随机遮蔽因果信息:逼模型学会双向推理
如果训练时同时给齐原因和效果,模型只会照抄、学不到规划。关键训练策略是对有碰撞的视频随机只留一路:要么给直接力(Ch0)、要么给目标力(Ch1),另一路置零;质量通道也随机遮蔽。于是模型被迫学会双向推理——给目标力时要 Goal→Plan,推断并生成前因的直接力事件;给直接力时要 Action→Outcome,模拟碰撞结果;并且在有没有质量信息时都得能工作。正是这种遮蔽让模型从「指定效果」走到「生成原因」。
3. 极简合成训练数据:只用约 12k 段简单视频喂出因果理解
不需要真实复杂场景,GoalForce 只用三类 Blender 合成数据:多米诺骨牌 3k(直接力→链式反应→目标力)、滚动小球 6k(4.5k 碰撞 + 1.5k 未碰撞)、PhysDreamer 康乃馨 3k(非刚体动力学)。数据虽简单,但因果结构干净,配合上面的遮蔽策略,足以让物理规划能力涌现并迁移出去。
4. 只微调 High-Noise Expert:把控制力注在管全局动力学的那一支
ControlNet 只微调负责全局结构和低频动力学的 High-Noise Expert——克隆前 10 层 DiT,通过 zero-convolution 接到冻结的基础模型上。因为因果规划主要影响的是全局运动趋势而非纹理细节,只动这一支既对位又省力,全程仅 3000 步、×4×A100、<48 小时即可训完。
损失函数 / 训练策略¶
基于标准扩散损失训练 ControlNet,训练视频 81 帧 @ 16 FPS。文本 prompt 只设语义上下文(如 "a pool table"),不指定低级因果计划;力和质量值采用相对归一化,无需绝对物理尺度。
实验关键数据¶
主实验¶
人类研究(N=40,2AFC)对比 Goal Force vs. 纯文本基线:
| 基准类别 | Force Adh. | Realism | Visual Qual. |
|---|---|---|---|
| 两物体碰撞 | 73.4% | 67.2% | 66.0% |
| 多物体碰撞 | 72.0% | 69.0% | 66.8% |
| 人-物交互 | 70.5% | 47.5% | 48.9% |
| 工具-物交互 | 74.5% | 61.6% | 58.7% |
(表中百分比为 Goal Force 被偏好的比例)
物理规划准确率(50 次生成/场景):
| 场景 | 有效数 | 成功数 | 准确率 |
|---|---|---|---|
| Pool | 49 | 48 | 97.96% |
| Paper Balls | 50 | 49 | 98.00% |
| Kitchen Lemon | 50 | 50 | 100.00% |
| Coffee Cups | 44 | 41 | 93.18% |
| Duckie | 40 | 34 | 85.00% |
| Rubik's Cube | 49 | 46 | 93.88% |
随机基线最多 33.3%,模型远超此水平。
消融实验¶
规划多样性实验(6 块多米诺,5 个可选发起点):
| 分布 | 多样性得分 δ(p) |
|---|---|
| Goal Force 模型 | 0.6577 |
| Unif{0..4}(最大多样性) | 1.0000 |
| Unif{0..1} | 0.6042 |
| 确定性基线 | 0.3900 |
模型在多种有效计划间采样,避免模式坍塌。
质量感知实验:改变射弹和目标球的质量,模型正确调整射弹速度(in-distribution 场景满足 4/4 关系,out-of-distribution 场景满足 3/4)。
关键发现¶
- 惊人的零样本泛化:仅在合成球、多米诺和一朵花上训练,却能泛化到高尔夫球杆击球、手拿玫瑰等复杂场景
- 模型学会了通过茎而非花瓣拾取玫瑰,学会了选择未被障碍物阻挡的发起者
- 文本 prompt 不足以指定目标力——纯文本的 fine-tuned 基线在 Force Adherence 上仍大幅落后
- 先前的力条件方法(PhysGen、PhysDreamer、Force Prompting)将目标力误解为直接力,无法规划因果链
亮点与洞察¶
- 从"指定原因"到"指定效果"的范式转变深具启发性:Goal Force = 效果导向的规划,让模型自主推理因果链,而非被动执行指令
- 极简训练数据(~12k 合成视频)+ 极短训练时间(3000 步/<48h)就能涌现复杂规划能力,说明物理因果理解在给定正确归纳偏置后学习效率极高
- 多通道控制信号的设计优雅:将物理控制分解为原因/效果/属性三个正交维度,且通过随机遮蔽实现双向推理
- 隐式神经物理模拟器概念:模型不依赖外部物理引擎,在推理时充当近似的物理规划器
局限与展望¶
- 力和质量使用相对归一化,无法跨域统一物理尺度
- 训练数据仅覆盖简单碰撞和非刚体动力学,更复杂物理现象(流体、形变)的泛化未验证
- 81 帧视频分辨率和长度有限,长时序因果链规划能力待探索
- 人-物交互场景的 Motion Realism(47.5%)和 Visual Quality(48.9%)偏低,说明泛化到人体动作仍有挑战
- 未探索与机器人控制的实际集成
相关工作与启发¶
- 与 UniPi、Adapt2Act 等视频规划方法互补:Goal Force 提供了文本之外的物理目标指定方式
- 合成简单数据训练 → 复杂泛化的范式可推广到其他需要物理理解的视频生成任务
- Concurrent work(Learning 3D Trajectories、Freefall fine-tuning)侧重局部物理性质,Goal Force 关注因果交互链
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 从"施加力"到"目标力"的范式转变极具原创性
- 实验充分度: ⭐⭐⭐⭐ — 人类研究 + 准确率 + 多样性 + 质量感知,验证全面
- 写作质量: ⭐⭐⭐⭐⭐ — 足球罚球的类比精准,Fig.3 对比 direct vs. goal force 一目了然
- 价值: ⭐⭐⭐⭐⭐ — 开辟了物理条件视频规划的新方向,潜在应用广泛