LaDy: Lagrangian-Dynamic Informed Network for Skeleton-based Action Segmentation via Spatial-Temporal Modulation¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/HaoyuJi/LaDy （有）
领域: 视频理解 / 骨架动作分割
关键词: 骨架动作分割、拉格朗日动力学、物理先验、广义力、时间边界定位

一句话总结¶

LaDy 给骨架时序动作分割（STAS）补上了一直被忽视的"物理动力学"维度：它用一条拉格朗日动力学支路从关节坐标显式合成关节广义力（力矩），再用能量一致性损失保证这些力符合功-能定理，最后把力信息分别注入空间特征（融合）和时间特征（分层门控），在六个数据集上刷新 SOTA，尤其在 PKU-MMD v2 上 F1@50 最高提升 5.2%，且只用 1.83M 参数。

研究背景与动机¶

领域现状：骨架时序动作分割（Skeleton-based Temporal Action Segmentation, STAS）要把一段未裁剪的骨架序列逐帧标注成动作类别。主流做法（MS-GCN 以来）是"GCN 建空间拓扑 + TCN/Transformer 建长程时序"，后续工作在解耦架构、运动增强、对比学习、多尺度金字塔上不断打磨，本质都是在学运动学（kinematics）模式——也就是身体"怎么动、动成什么样"。

现有痛点：这些方法几乎只活在运动学空间里，对驱动运动的动力学（dynamics）一无所知。但人体运动不只是一串姿态，它是经典力学里"力"作用的物理结果。忽略这层物理基础会丢掉动作的意图与因果信息，带来两个具体问题：（1）类间可分性差——运动学上很像、但动力学意图完全不同的动作分不开，比如"推购物车"和"走路"姿态轨迹相似，但前者要持续输出推力；（2）边界定位不准——动作切换的本质是力的剖面发生突变，而纯运动学模型常把这种突变抹平，导致边界模糊。

核心矛盾：运动学只回答"what/how"，回答不了"why"。同样的轨迹背后可能是完全不同的受力，光看位姿无法消歧；动作边界这种"力突变"事件，在运动学特征里恰恰是被平滑掉的。

本文目标：把"为什么这样动"显式建进分割流程——具体拆成：① 从关节运动学反推出每个关节的广义力；② 保证这些反推出来的力物理上自洽（不能是任意拟合的特征）；③ 让力信息真正帮到空间判别和时间边界两件事。

切入角度：作者从拉格朗日力学出发——刚体开链系统的广义力可以由"惯性项 + 科里奥利/离心项 + 重力项 + 非保守力"组成（\(\tau = M\ddot{q} + C\dot{q} + G + F\)）。与其让网络黑盒回归力，不如把这个物理方程的结构直接搭进网络，让网络只去填各个物理算子，再用功-能定理当监督，逼网络合成的力符合能量守恒。

核心 idea：用"显式合成的关节广义力"代替"只有运动学特征"来做时空调制——动力学告诉你哪里在使劲、力在什么时刻突变，正好对应类间消歧和边界定位两个老大难。

方法详解¶

整体框架¶

LaDy 是双流并行结构。输入是骨架序列 \(X \in \mathbb{R}^{C_0 \times T \times V}\)（\(T\) 帧、\(V\) 关节），输出逐帧动作标签。主支路是常规时空模型：多尺度 + 自适应 GCN 抽运动学特征 \(F_{kin}\)，再喂进 \(L\) 阶段时间模型（Linear Transformer + 自适应融合）。辅助支路（本文创新核心）是拉格朗日动力学模型：先从关节坐标算出广义坐标/速度/加速度 \((q, \dot{q}, \ddot{q}) \in \mathbb{R}^{T \times D}\)，送进物理约束的 LDS 模块合成广义力 \(\tau \in \mathbb{R}^{D \times T}\)，并由 ECLoss 监督其物理自洽性。

两条支路通过时空调制（STM）交互：空间上，把力投影/扩展成动态特征 \(F_{dyn}\) 与 \(F_{kin}\) 拼接得到增强表征 \(F_{sp}\)；时间上，从力里蒸馏出三路显著动态信号（功率、力矩范数、力矩变化量），对时间模型的每个阶段做分层门控。最后表征送进分类头与边界头，经多阶段细化得到最终预测；整网端到端训练。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["骨架序列 X"] --> B["广义坐标计算<br/>关节位置 → q, q̇, q̈"]
    A --> S["空间模型<br/>多尺度 + 自适应 GCN → 运动学特征 Fkin"]
    B --> C["LDS：拉格朗日动力学合成<br/>估计 M/C/G/F → 广义力 τ"]
    C -->|功-能定理约束| D["ECLoss：能量一致性损失"]
    C --> E["STM：时空调制<br/>空间融合 + 分层时间门控"]
    S --> E
    E --> F["多阶段时间模型<br/>Linear Former + 门控逐级细化"]
    F --> G["分类头 + 边界头<br/>逐帧动作 / 边界预测"]

关键设计¶

1. 拉格朗日动力学合成 LDS：把物理方程的结构当网络骨架，从运动学反推广义力

痛点是纯运动学缺"力"这一维信息，而直接让 MLP 黑盒回归力又没有物理保证。LDS 的做法是把拉格朗日方程 \(\tau = M(q)\ddot{q} + C(q,\dot{q})\dot{q} + G(q) + F(q,\dot{q})\) 的每一项都用"带物理约束的可学习算子"来填，而不是整体拟合。具体地，先把骨架建成开运动链：根节点用相邻关节（脊柱中点、左右髋）经 Gram-Schmidt 正交化构造时变局部坐标系，得到根姿态 \(q_{root}\) 的轴角表示；其余关节用父骨与子骨方向的轴角对齐得到局部旋转 \(q_{local}\)，拼起来就是广义坐标 \(q\)，差分得到 \(\dot{q}, \ddot{q}\)。

关键在于各物理算子都内嵌约束，保证物理合法性而非随便一个矩阵：惯性矩阵 \(M(q)\) 必须对称正定，于是网络只输出一个下三角矩阵 \(L(q)\)、对角元用 \(\mathrm{softplus}(L^{low}_{ii}(q)) + \epsilon\) 保正，再令 \(M(q) = L(q)L(q)^T\)（Cholesky 形式天然 SPD）；科氏矩阵 \(C(q,\dot{q})\) 要满足无源性（passivity），即 \(\dot{M} - 2C\) 必须反对称，于是网络输出严格上三角向量构造 \(N^{up}\)，令 \(N = N^{up} - (N^{up})^T\) 强制反对称，再由 \(C = 0.5(\dot{M} - N)\) 反解（\(\dot{M}\) 用有限差分近似），从数学上保证无源性；重力项 \(G(q)\) 和非保守力 \(F(q,\dot{q})\) 则各用一个 MLP 直接估。这样合成的 \(\tau\) 不是任意特征，而是满足刚体动力学结构约束的"准物理量"——这正是它能比纯运动学更有判别力的根因。

2. 能量一致性损失 ECLoss：用功-能定理给合成的力上一道物理紧箍

LDS 把方程结构搭好了，但各算子仍是学出来的，合成的力数值上可能不守恒。ECLoss 用功-能定理做正则：净力矩做的功应等于动能变化。在旋转骨架系统里净力矩为 \(\tau_{net} = \tau - G - F\)（\(\tau\) 是预测驱动力，\(G/F\) 是负载力矩），离散区间 \([t-1, t]\) 上 \(E_K(t) - E_K(t-1) = \int_{t-1}^{t} P(s)\,ds\)，其中瞬时功率 \(P = \tau_{net} \cdot \dot{q}\)。动能取 \(E_K(t) = 0.5\,\dot{q}(t)^T M(t)\dot{q}(t)\)，功用梯形法 \(W(t) = 0.5(P(t) + P(t-1))\) 近似。

直接对 \(\Delta E_K\) 与 \(W\) 做 L1 会被运动幅度（能量量级）带偏，所以作者设计了尺度无关的相对能量残差：

\[r_E(t) = \frac{\Delta E_K(t) - W(t)}{|\Delta E_K(t)| + |W(t)| + \delta} \cdot \mathcal{M}(t)\]

分母做归一化让残差对不同能量尺度鲁棒，\(\delta\) 保数值稳定；掩码 \(\mathcal{M}(t)\) 在分母接近零（静止或微动相）时直接把残差清零，避免在低能量段放大噪声。最终对 \(r_E\) 与 0 算 Huber 损失并按时间平均，进一步抗动态估计里的离群点。消融显示这一项能在已经很强的 +LDS+STM 基础上再稳定涨点，说明"物理自洽"确实让力的表征更精确。

3. 时空调制 STM：把力分别注入空间判别和时间边界两条路

合成出的力要真正帮到分割，必须落到空间和时间两个层面。空间调制针对类间可分性：把广义力 \(\tau \in \mathbb{R}^{D \times T}\) 线性投影到运动学通道维 \(C\) 得 \(F'_{dyn}\)，沿关节维扩展 \(V\) 倍成 \(F_{dyn} \in \mathbb{R}^{C \times T \times V}\)，再与 \(F_{kin}\) 沿通道拼成 \(F_{sp} \in \mathbb{R}^{2C \times T \times V}\)——这个特征同时编码"几何位姿"和"驱动它的因果动力学"，让运动学相似的动作因受力不同而被区分开。

时间调制针对边界定位：先从动态状态量蒸馏出三路 1D 显著信号——瞬时功率 \(g_P(t) = \|\tau(t) \cdot \dot{q}(t)\|_1\)（总能量消耗）、力矩范数 \(g_\tau(t) = \|\tau(t)\|_2\)（驱动幅度）、力矩变化量 \(g_{\dot\tau}(t) = \|\tau(t) - \tau(t-1)\|_2\)（动态突变，最能标记边界）。三路信号拼成初始门控 \(G^{(0)}_{dyn} \in \mathbb{R}^{3 \times T}\)。时间模型有 \(L\) 个阶段并行一条门控支路做分层门控：每阶段先把三路信号用各自独立的 1D 卷积 + sigmoid 精炼（关键是三路分开处理，保留功率/力矩/力矩变化各自的物理语义，不让通道串扰），\(g_k^{(l)} = \sigma(\mathcal{G}_k^{(l)}(g_k^{(l-1)}))\)；再用每路门控通过广播 Hadamard 积分别调制时间特征 \(H^{(l)}_k = H^{(l)}_T \odot g_k^{(l)}\)，三路调制结果拼接后 1×1 卷积融合并加残差 \(\tilde{H}^{(l)} = \mathcal{F}_{fuse}(\mathrm{Concat}(H^{(l)}_P, H^{(l)}_\tau, H^{(l)}_{\dot\tau})) + H^{(l)}_T\)。这样在每个时间尺度上都用动态线索自适应放大对边界敏感的特征。可视化显示三路信号（尤其"力矩变化"）会在真实动作边界处出现尖锐的波谷，正好被网络拿来当边界线索。

损失函数 / 训练策略¶

端到端最小化复合损失 \(\mathcal{L}_{total} = \mathcal{L}_{as} + \lambda_1 \mathcal{L}_{br} + \lambda_2 \mathcal{L}_{atc} + \lambda_3 \mathcal{L}_{EC}\)，其中 \(\mathcal{L}_{as}\) 是作用于所有阶段输出的标准分割损失，\(\mathcal{L}_{br}\) 是监督边界预测的二元交叉熵，\(\mathcal{L}_{atc}\) 是沿用 LaSA 的动作-文本对比损失，\(\mathcal{L}_{EC}\) 即 ECLoss；权重 \(\lambda_1=1.0, \lambda_2=0.8, \lambda_3=0.1\)。特征维 \(C=64\)，拉格朗日项估计的线性层用 128 通道；Adam，学习率 \(10^{-3}\)，多数数据集训 300 epoch（LARa 因收敛快只需 60），单张 RTX 3090 即可训练。

实验关键数据¶

主实验¶

六个 STAS 数据集：PKU-MMD v2（X-view / X-sub）、MCFS-22、MCFS-130、LARa、TCG-15。指标为帧准确率（Acc）、分段编辑距离（Edit）、IoU 阈值 {10,25,50} 下的分段 F1。

数据集	指标	LaDy	前最佳	提升
PKU-MMD v2 (X-view)	Acc / Edit / F1@50	77.0 / 74.7 / 67.6	ME-ST 74.1 / 70.5 / 62.4	+2.9 / +4.2 / +5.2
PKU-MMD v2 (X-sub)	Acc / Edit / F1@50	76.2 / 75.1 / 67.0	LaSA 73.5 / 73.4 / 63.6	+1.5 / +1.7 / +3.4
LARa	Acc / Edit / F1@50	75.6 / 65.9 / 59.7	LaSA 75.3 / 65.7 / 57.9	+0.3 / +0.2 / +1.8
MCFS-22	Acc / F1@{10,25,50}	81.5 / 90.8·86.7·76.7	—	SOTA
MCFS-130	Acc / F1@{10,25,50}	72.8 / 80.0·76.8·66.9	—	SOTA
TCG-15	Acc / F1@{10,25,50}	89.3 / 82.1·80.1·74.3	—	SOTA

LaDy 在几乎所有指标上 SOTA，且效率极高——在 LARa（输入 \(\mathbb{R}^{12 \times 6000 \times 19}\)）上仅 13.67G FLOPs、1.83M 参数，远低于同档精度的 ME-ST（97.07G / 3.16M）和 MTST-GCN（108.87G / 2.58M）。t-SNE + 聚类指标（Silhouette↑、Calinski-Harabasz↑、Davies-Bouldin↓）三项全优，证明学到的表征类内更紧、类间更分。

消融实验¶

在 PKU-MMD v2（X-sub）上逐组件验证。Baseline 是 DeST + CTR-GCN 自适应 GCN + LaSA 的 \(\mathcal{L}_{atc}\)。

配置	Acc	Edit	F1@50	说明
Baseline	73.6	73.0	64.3	纯运动学起点
+LDS+SM	74.8	74.0	65.7	只加空间调制
+LDS+TM	74.9	73.5	65.8	只加时间调制
+LDS+STM	75.9	74.6	66.3	空间+时间协同跳变
+LDS+STM+ECLoss (LaDy)	76.2	75.1	67.0	完整模型

关键发现¶

空间调制和时间调制是互补而非冗余：单加 SM 或 TM 各涨约 1.4–1.5 F1@50，但两者一起（STM）跳到 66.3，呈现协同效应——SM 主攻类间歧义、TM 主攻边界定位，两件事本就不同。
ECLoss 是锦上添花的稳定收益：在已经很强的 +LDS+STM 上再全指标小幅提升（F1@50 66.3→67.0、Acc 75.9→76.2），说明强制物理守恒能进一步精炼力的表征，而不是仅靠拟合涨点。
动力学先验可解释：把每关节力的范数渲染成肢体粗细，敬礼集中在敬礼臂、投掷激活整个上半身、单脚跳正确指向腿部、鼓掌聚焦双手前臂——证明 LDS 合成的是物理合理、且类判别的真力，不是任意特征。
三路门控信号在边界处出现尖锐波谷，尤其"力矩变化"信号与真实边界高度吻合，直观解释了时间调制为何能提升边界感知。

亮点与洞察¶

把物理方程的"结构"而非"数值"搬进网络：不是黑盒回归力，而是让网络去填 \(M/C/G/F\) 各算子，并用 Cholesky 保 SPD、反对称构造保无源性——这种"结构化归纳偏置"是物理信息神经网络在骨架任务里非常干净的落地，可迁移到姿态估计、动作生成等任何需要"力/力矩"的人体运动任务。
尺度无关的相对能量残差很巧：动作幅度差异巨大时，绝对能量残差会被大幅运动主导，归一化 + 低能量段掩码让损失在静止和剧烈运动上都稳定——这个 trick 对任何"跨尺度物理量监督"都适用。
三路动态信号分通道门控而非混在一起，刻意保留功率/力矩/力矩变化的物理语义，避免通道串扰——是个值得借鉴的"语义解耦门控"设计。
最让人"啊哈"的是把"动作边界 = 力剖面突变"这一物理直觉，转化成"力矩变化信号的波谷"当显式边界线索，理论动机和可视化高度自洽。

局限与展望¶

依赖关节连接拓扑与坐标系构造：广义坐标计算需要明确父子骨关系和根坐标系（靠脊柱/髋关节定义），对不同骨架格式、缺失关节或 2D 骨架的鲁棒性论文未充分讨论。
有限差分近似导数：\(\dot{q}, \ddot{q}, \dot{M}\) 都用相邻帧差分得到，对噪声敏感、对低帧率或抖动数据可能放大误差，物理量的精度受采样质量制约。
"准物理量"非真实物理量：合成的力没有真实力学标注做监督，只靠功-能定理自洽约束，无法验证其绝对物理正确性，更多是"物理结构正则化的特征"。
提升幅度依数据集而异：在 PKU-MMD v2 上提升显著，但在 LARa 上相对前最佳仅小幅领先，动力学先验对不同动作类型/采集场景的增益不均衡。
可改进方向：引入真实力板/IMU 数据做弱监督校准、把动力学先验扩展到 RGB 视频 TAS、或用更鲁棒的可微分滤波替代裸有限差分。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把拉格朗日动力学 + 功-能定理系统性引入骨架动作分割，物理先验落地干净且动机扎实。
实验充分度: ⭐⭐⭐⭐⭐ 六数据集 SOTA + 逐组件消融 + 力/门控可视化 + 聚类指标，证据链完整。
写作质量: ⭐⭐⭐⭐ 方法严谨、图示清晰，但物理约束公式密集，部分构造（如无源性反解）对非力学背景读者门槛较高。
价值: ⭐⭐⭐⭐ 小模型高精度且可解释，物理结构化思路对人体运动类任务有较强迁移价值。