Progressive Guessing to Fixed Point: Rethinking Human Motion Prediction with Deep Equilibrium Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 人体理解 / 人体运动预测
关键词: 运动预测, 深度均衡模型, 不动点, 等变建模, 流式预测

一句话总结¶

MotionDEQ 把人体运动预测里「多阶段渐进猜测」的级联框架重写成一个隐式层内的不动点求解问题——等价于无限多次精化但只需 \(O(1)\) 训练显存，再把欧氏几何等变性注入这个均衡过程，并利用相邻预测的时间连贯性把上一轮不动点当「暖启动」复用，在 Human3.6M 上用不到 300K 参数取得 [email protected] 的 SOTA 精度、训练显存比多阶段对手省 2 倍多。

研究背景与动机¶

领域现状：人体运动预测 (从过去姿态预测未来姿态) 近年常用「由粗到精」的多阶段精化框架 (如 PGBIG)。一个常见预处理是把最后观测帧复制到整个预测时段当作「初始猜测」(initial guess)，模型只需在此基础上做小幅调整逼近目标；多阶段框架则堆叠多个不共享参数的精化阶段，逐级产出更好的猜测，并用递归平滑的 GT 在每阶段提供中间监督。

现有痛点：这种级联设计有三个硬伤——① 参数不高效：每个精化阶段都有自己的参数，显存冗余且过拟合风险高，计算/显存随网络深度至少线性增长；② 缺乏停止准则：精化深度 \(L\) 只能凭经验设，太少则预测粗糙、太多则浪费算力，是个 trade-off；③ 阶段间不一致：人工设的中间目标让早期阶段倾向平滑、后期阶段才补细节，且最终猜测依赖中间轨迹 (path-dependent)。

核心矛盾：多阶段精化的本质是「有限步、独立参数、轨迹依赖」，而我们真正想要的是「足够深、参数共享、与轨迹无关、有收敛停止准则」的精化。

本文目标：在不改 EqMotion 的等变/不变特征学习设计前提下，只改造精化过程本身，让它既深又省。

切入角度：作者借鉴隐式深度学习里的深度均衡模型 (DEQ)——把多阶段精化看成对一个共享变换 \(f_\theta\) 反复迭代直到收敛，输出定义为不动点 \(\mathbf{z}^*=f_\theta(\mathbf{z}^*,\mathbf{x})\)，这天然实现「无限层猜测」且训练只需常数显存。

核心 idea：用单个共享变换的不动点求解，替代多阶段独立参数的有限精化；并把等变性、稀疏监督、流式暖启动三件事补齐，让 DEQ 真正适配运动预测。

方法详解¶

整体框架¶

给定过去 \(T_p\) 帧观测 \(\mathbf{X}_{1:T_p}\) (每帧 \(J\) 个关节的 3D 坐标)，目标是预测后续 \(T_f\) 帧。MotionDEQ 以 EqMotion 为底座：先经特征初始化 + 不变推理模块把观测构造成「观测条件」\(\mathbf{x}=\{\mathbf{X}_G,\mathbf{X}_H,\mathbf{X}_C\}\) (几何特征、模式特征、关节交互图)，并把末帧复制作为初始猜测 \(\mathbf{z}^{(0)}\)；再把 EqMotion 原本堆叠的 \(L\) 个独立精化阶段，替换成单个共享参数变换在隐式层里反复迭代，用黑盒求解器 (Anderson mixing) 解出不动点 \(\mathbf{z}^*=(\mathbf{G}^*,\mathbf{H}^*)\)；最后经等变输出层把 \(\mathbf{z}^*\) 解码成预测运动，保证整网等变。

直接套 DEQ 会失败：因为 DEQ 路径无关，\(\mathbf{z}^*\) 对初始猜测不敏感，观测信息会在无限精化中被稀释；而把观测注入又会破坏等变/不变性。所以作者补了等变/不变注入、稀疏不动点监督，并为流式场景加了暖启动 + 等变校正适配器。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["历史观测 X₁:Tp"] --> B["特征初始化 + 不变推理<br/>观测条件 x={XG,XH,XC}<br/>末帧复制为初始猜测 z⁰"]
    B --> C["渐进猜测→不动点重构<br/>共享变换 fθ 反复迭代<br/>z*=fθ(z*,x)"]
    C --> D["等变几何注入 + 不变模式注入<br/>保住等变/不变性"]
    D --> E["Anderson 求解 → 不动点 z*<br/>等变输出层 → 预测运动"]
    E -->|流式连续预测| F["暖启动 + 等变校正适配器<br/>复用上轮 z* + 吸收偏差反馈"]

关键设计¶

1. 把渐进猜测重写成不动点问题：用无限层共享精化换 \(O(1)\) 显存

针对「多阶段参数冗余、无停止准则、轨迹依赖」三个痛点，作者把 EqMotion 第 \(\ell\) 阶段的几何特征学习 \(\mathcal{F}^{(\ell)}_{\text{EGFL}}\) 和模式特征学习 \(\mathcal{F}^{(\ell)}_{\text{IPFL}}\) 从「各阶段独立参数」改成「全程共享 \(\theta\)」，整个精化变成均衡过程，输出即不动点 \(\mathbf{z}^*=f(\mathbf{z}^*,\mathbf{x}\mid\theta)\)，求解化为找根 \(g(\mathbf{z},\mathbf{x}\mid\theta)=f-\mathbf{z}=0\) (Anderson mixing)。前向直接解不动点；反向用隐函数定理 \(\frac{\partial\mathcal{L}}{\partial\theta}=\frac{\partial\mathcal{L}}{\partial\mathbf{z}^*}\big(\mathbf{I}-\frac{\partial f}{\partial\mathbf{z}^*}\big)^{-1}\frac{\partial f}{\partial\theta}\)，只依赖最终不动点 \(\mathbf{z}^*\)、不需回传所有精化步，于是训练显存从 \(L\) 阶段的 \(O(L)\) 降到 \(O(1)\)，深度也由收敛残差 \(\epsilon\) 自动决定 (天然停止准则)，且与中间轨迹无关。

2. 等变几何注入 + 不变模式注入：让观测信息进得来、又不破坏等变性

直接把观测当条件注入会破坏 EqMotion 的等变/不变结构。作者用 \(\mathcal{F}_{\text{DL}}\) 把初始猜测 (末帧复制 \(\mathbf{X}_{rep}\)) 分解成等变几何特征 \(\mathbf{G}^{(0)}\) 与不变模式特征 \(\mathbf{H}^{(0)}\)，再设计两个保结构的注入层：几何注入 \(\mathcal{F}_{\text{EGI}}\) 全程对均值做中心化再加回 (\(\mathbf{P}=\phi_{g_2}(\mathbf{g}+\mathbf{X}_G-\bar{\mathbf{g}}-\bar{\mathbf{X}}_G)+\bar{\mathbf{X}}_G\)，线性层无偏置)，对平移/旋转 \(R,t\) 保持等变；模式注入 \(\mathcal{F}_{\text{IPI}}\) 用带 SiLU 的 MLP 保持不变。论文给出 Theorem 1 证明初始化、DEQ 更新层、校正适配器、Anderson 前向乃至不动点复用都保持等变/不变。这一步是「把 DEQ 和等变运动建模真正桥接起来」的关键——少了它，注入观测反而掉点。

3. 稀疏不动点监督 + 截断相位梯度：稳住 DEQ 训练且不靠人工平滑 GT

PGBIG 靠递归平滑 GT 给每阶段中间监督，但这会引入阶段间不一致。MotionDEQ 改用稀疏不动点监督：从求解轨迹 \((\mathbf{z}^{(0)},\dots,\mathbf{z}^*)\) 里均匀采几个中间态直接对齐 GT，损失 \(\mathcal{L}_{total}=\|\mathcal{F}_{\text{EOL}}(\mathbf{z}^*)-\mathbf{Y}\|_2^2+\gamma\|\mathcal{F}_{\text{EOL}}(\mathbf{z}^{(\ell)})-\mathbf{Y}\|_2^2\) (无需手工平滑、无需密集逐阶段监督，更契合 DEQ 路径无关本性)。反向因逆 Jacobian 太贵，放弃纯 JFB 单步近似 (会显著伤收敛)，改用 2 步 Neumann 级数的截断相位梯度 \(\frac{\partial\mathcal{L}}{\partial\theta}\approx\frac{\partial\mathcal{L}}{\partial\mathbf{z}^*}\big(\mathbf{I}+\frac{\partial f}{\partial\mathbf{z}^*}\big)\frac{\partial f}{\partial\theta}\)，在效率与精度间取平衡。

4. 流式运动的暖启动 + 等变校正适配器：把时间连贯性变成省算力的杠杆

真实运动是流式到达的，相邻预测轮高度连贯。作者观察到连续「行走」序列中第 105、106 轮的不动点几乎一致 (150 轮才明显变化)，于是把上一轮不动点当下一轮的暖启动 \(\mathbf{z}^{(0)}_{r+1}=\mathbf{z}^*_r\)，让求解器从近收敛态出发，大幅减少迭代。此外，流式设定下上一轮 GT 在下一轮开始时已可得，于是引入轻量等变校正适配器 \(\mathcal{F}_{\text{ECA}}\)：把上一轮预测与新观测的偏差 \(\hat{\mathbf{Y}}_r-\mathbf{X}_{r+1}\) 经 \(\mathcal{F}_{\text{DL}}\) 分解后注入，\(\mathbf{H}=\mathbf{H}^*_{r+1}+\text{MLP}(\mathbf{H}')\)，再过一层等变 EGNN 输出，吸收上一轮的预测偏差反馈而不破坏等变性。

损失函数 / 训练策略¶

几何特征维 \(C=72\) (长时 96)、模式特征维 \(D=64\)；DEQ 求解训练 \(T_{\text{train}}=20\) 次、推理 \(T_{\text{infer}}=30\) 次迭代，相对残差 \(<\epsilon=1\text{e-}3\) 时早停；稀疏正则权重 \(\gamma=0.8\)。Adam，初始 lr \(5\text{e-}4\) (每 2 epoch 衰减 0.98)，batch 100，训练 100 epoch，单张 RTX-3090。

实验关键数据¶

主实验¶

在 Human3.6M、CMU-MoCap、3DPW 三个基准上以 MPJPE (平均每关节位置误差，mm，越低越好) 评测，重点对比多阶段精化方法 PGBIG 与 EqMotion。

数据集	指标	PGBIG	EqMotion	MotionDEQ
Human3.6M	平均 MPJPE @80ms	10.3	9.2	8.9
Human3.6M	平均 MPJPE @400ms	58.5	55.9	55.3
CMU-MoCap	平均 MPJPE	33.54	32.61	32.42
3DPW	平均 MPJPE	70.40	67.07	65.95
3DPW	@200ms / @400ms	—	32.05 / 63.41	30.63 / 61.38

相对多阶段对手，Human3.6M 上对 EqMotion/PGBIG 分别在 80/160/320/400ms 提升 3.4%/15.7%、2.5%/12.9%、1.1%/7.5%、1.0%/5.8%；最难的 3DPW 在 200/400ms 各提升 4.6%/3.3%。

消融实验¶

网络结构消融 (Human3.6M，平均 MPJPE) 验证不动点重构与等变注入的必要性。

配置	平均 MPJPE	说明
DEQ with Eq.(2)	71.4	直接用观测当初始猜测，均衡学习严重失效
w/o \(\mathcal{F}_{\text{EGI}}\) (去等变几何注入)	38.1	掉点明显
w/o \(\mathcal{F}_{\text{IPI}}\) (去不变模式注入)	35.3	同样掉点
Ours (完整)	32.1	等变 + 不变注入缺一不可

关键发现¶

不动点收敛质量 ≈ 预测精度：前向迭代越多误差越低，约 10 次迭代后趋于强性能；暖启动让求解更快收敛 (比冷启动少迭代)，而 ESL-8 (EqMotion 共享 8 阶段) 几乎无法收敛。
显存优势显著：batch 100 训 Human3.6M 时，MotionDEQ 训练显存比 EqMotion 省 2.3×、比 ESL-8 省 4.1×；暖启动复用又把 DEQ 求解的推理开销拉回到接近前馈基线。
参数-精度最优折中：仅 298K 参数达 [email protected]；SiMLPe 虽更小 (140K) 但误差 57.3 明显更差；EqMotion 需 635K。
ECA 对大幅度运动收益更大：「行走」等大位移动作偏差大，ECA 提供的校正信息更有用；「拍照」等微小动作收益较小。
平滑 GT 反而有害：在 DEQ 设定下把稀疏监督换成 PGBIG 式平滑 GT，虽略稳训练却降精度 (密集校正甚至 NaN)，印证稀疏不动点监督更契合路径无关本性。
JFB 单步梯度不够：直接用不精确 JFB 梯度性能次优，截断相位梯度更稳。

亮点与洞察¶

「多阶段精化 = 不动点」是个干净的重述：把一类启发式级联框架统一成隐式层的均衡求解，一次性解决参数冗余、深度选择、轨迹依赖三个老问题——这种「把堆叠换成迭代到收敛」的视角可迁移到其它由粗到精的预测/重建任务。
等变性 × 隐式深度学习的首次结合：论文是把 DEQ 引入人体运动预测的首个工作，并给出完整等变/不变性证明，说明隐式网络可以和强几何先验兼容，而非二选一。
流式连贯性变成算力杠杆：暖启动复用上一轮不动点这一招几乎零成本，却把 DEQ 最被诟病的「求解慢」问题大幅缓解，是利用数据时间结构降本的好例子。
与已有等变架构即插即用：MotionDEQ 保留 EqMotion 的特征学习设计、只改精化过程，意味着可嫁接到其它多阶段等变预测器上。

局限与展望¶

额外的不动点求解开销：虽然暖启动缓解了，但 DEQ 前向仍需迭代求解，标准 (非流式) 设定下推理时间相对纯前馈仍有代价；收敛速度也依赖求解器与残差阈值的设置。
依赖 EqMotion 底座：方法是在 EqMotion 上做精化过程改造，等变/不变注入的设计与该底座耦合较紧，迁到非等变骨干时需重新设计注入层。
短时为主：⚠️ 正文主表集中在 ≤400ms 短时预测，长时结果作者称放在附录，超长时序下不动点能否稳定收敛、暖启动是否仍有效有待更多验证。
改进方向：把求解迭代数做成按动作难度自适应、或学一个更强的不动点初始化网络，可能进一步压低推理开销。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 DEQ 引入人体运动预测，并把「多阶段精化↔不动点」的统一视角与等变建模、流式暖启动打通
实验充分度: ⭐⭐⭐⭐ 三基准 + 显存/参数/收敛/流式多维消融扎实，但长时预测主要放在附录
写作质量: ⭐⭐⭐⭐ 动机层层递进、理论与方法自洽，公式记号偶有 OCR 噪声
价值: ⭐⭐⭐⭐ 在精度、参数、显存间取得优秀折中，对资源受限/流式运动预测部署有实际意义