Curvature-Guided Task Synergy for Skeleton based Temporal Action Segmentation¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=Vgh30npuN3
代码: 待确认
领域: 人体理解 / 骨架动作分割 / 时序动作分割
关键词: 骨架动作分割, 曲率几何先验, 任务协同, 混合专家, 边界定位

一句话总结¶

CurvSeg 针对骨架时序动作分割中"分类要时序不变、边界定位要时序敏感"的内在冲突，提出用分类特征轨迹的几何曲率当边界先验——动作段内曲率高、转换处曲率低，由此在分类与定位之间建立双向闭环协同，并配一套双专家 MoE 给两个子任务各自蒸馏特征，作为即插即用模块提升 DeST/LaSA 等基线在四个数据集上的分割精度。

研究背景与动机¶

领域现状：时序动作分割（TAS）要给未裁剪视频的每一帧打动作标签，是细粒度人体行为理解的基础任务。基于 RGB/光流的视频方法虽进展很大，但在隐私敏感、外观多变的场景（如医疗）下不可靠。基于骨架的 TAS（STAS）只建模纯运动学，天然保护隐私、与视觉混淆因素解耦，成为重要替代路线。

现有痛点：STAS 有两个子任务且需求天然冲突——动作分类要时序不变、抽象的特征，保证段内识别一致；边界定位要时序敏感、细粒度的特征，精确锁定动作切换时刻。主流范式是"任务解耦"：在共享时空编码器（GCN+TCN）上挂两个独立解码头（DeST、LaSA 等）。

核心矛盾：作者认为这种解耦是一种"过度简化"。特征层面两个任务确实竞争，但语义层面它们高度互补——知道"正在发生什么动作"能为"边界在哪"提供强先验，反之亦然。把两者隔离会造出"信息孤岛"（information silos），人为切断了本可互利的跨任务协同。近期工作要么解耦时空建模缓解过平滑（DeST），要么引语言先验增强表示（LaSA），都没触及"跨任务协同不足"这个根本问题。

切入角度：作者借用表示学习里的一个几何洞察——在学好的特征空间里，连续数据序列（如骨架帧）的轨迹会被空间约束在各自的类簇内部。这种约束逼着轨迹在动作段内不断转向以免越出类簇边界，于是段内曲率高；而在动作转换处轨迹"拉直"，形成低曲率的"山谷"。曲率谷恰好天然标记了潜在的转换点。

核心 idea：用分类特征的曲率当参数无关的几何先验去引导边界检测，再让定位预测反过来监督分类特征空间（惩罚预测动作段内的低曲率），形成"特征学习 ↔ 时序定位"的良性闭环；同时用双专家 MoE 为两个子任务各自提炼专属特征，保证曲率计算所依赖的特征质量。

方法详解¶

整体框架¶

CurvSeg（图 2）在 DeST/LaSA 式骨架编码器之上叠两个核心模块。输入是骨架序列 \(F_s \in \mathbb{R}^{D_{in}\times T\times V}\)（\(D_{in}=3\) 是 3D 坐标，\(T\) 帧，\(V\) 关节），输出是每帧动作标签。整条流水线是：骨架先过时空编码器（多尺度 GCN 做空间建模 + 线性 Transformer 做 \(O(n)\) 全局时序建模）拿到帧级时空特征 \(F_{ST}\)；接着专家驱动解耦（EDD）把这份共享特征按任务自适应地拆成分类专属特征 \(F_{cls}\) 和定位专属特征；然后曲率引导协同（CGS）从 \(F_{cls}\) 算出每帧曲率、转成边界变化度量 \(C_t\)，与边界头预测 \(\hat{y}^b_t\) 做双向一致性约束；最后分类头和边界头分别输出帧分类 logits 和边界 logits。两个模块互为依存——EDD 提供高质量特征作地基，CGS 在此地基上把几何潜力发挥到极致。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：骨架序列<br/>Fs (3×T×V)"] --> B["时空编码器<br/>MS-GCN + 线性Transformer"]
    B --> C["EDD 专家驱动解耦<br/>双专家MoE按任务蒸馏特征"]
    C -->|分类专属特征 Fcls| D["曲率几何先验<br/>轨迹曲率→边界度量 Ct"]
    C -->|定位专属特征| E["边界头 / 分类头"]
    D --> F["CGS 双向协同<br/>曲率↔边界预测一致性"]
    F --> E
    E --> G["输出：逐帧动作标签<br/>+ 边界预测"]

关键设计¶

1. EDD 专家驱动解耦：给分类和定位各自蒸馏专属特征

曲率协同的有效性取决于底层特征质量，但现有做法让两个解码头吃同一份共享编码输出，这是个"妥协表示"，谁都伺候不好。EDD 受多模态感知启发，构建分类专家和定位专家两组时空专家：它们处理同一份编码特征，但各自聚焦任务相关方面。空间上用 SE 风格模块重标定关节——\(F_{ST} = F_{ST} + \mathrm{Sigmoid}(\mathrm{MLP}(z_{st}))\, F_{ST}\)，\(z_{st}\) 是 \(F_{ST}\) 沿时间维全局池化的结果，再经解耦时空交互层（DSTI）压成 \(F_{ST}\in\mathbb{R}^{D\times T}\)。时序上部署一组高斯专家当软时序掩码：把 \(T\) 帧视频均匀切成 \(M\) 段（\(M>N\)，\(N\) 为真实动作段数），每段含 \(S=\lfloor T/M\rfloor\) 帧；每段生成 \(G\) 个高斯函数 \(G^{(m)}_i=\mathcal{N}(\mu^{(m)}_i,(\sigma^{(m)}_i)^2)\)，中心和方差由 MLP 算出。路由器按段特征给每个专家打软权重 \(\tau^{(m)}=\mathrm{Sigmoid}(\mathrm{MLP}(\mathrm{Avg}(F^{(m)})\cdot W_g))\)，再加权求和 \(\tilde{F}^{(m)}=\sum_{i=1}^{G}\tau^{(m)}_i G^{(m)}_i F^{(m)}\)。分段建模让高斯专家学的是"事件开始"这类相对时序模式（在归一化局部上下文里），而非长视频里的绝对位置，大幅简化学习、增强泛化。和"强制共享"（丢失任务专属性）或"完全独立编码器"（丢失互通信号）相比，EDD 用动态路由各取所长。

2. 曲率几何先验：把分类特征轨迹的曲率当边界探针

这是全文的几何基石。当分类表示成功分开不同动作类时，会把序列轨迹约束在紧凑的类专属区域里；附录 B 形式化推导出随机游走的平均曲率与其包围超球半径成反比。直观后果是：段内的点为留在类边界内必须频繁改变方向 → 高曲率；段间转换的点在类区域之间平移 → 低曲率。具体计算时取轨迹上三个连续点 \(F_{cls,t-w},F_{cls,t},F_{cls,t+w}\)，用两个相邻差分向量的夹角衡量转向：

\[\theta_t = \arccos \frac{(F_{cls,t}-F_{cls,t-w})\cdot(F_{cls,t+w}-F_{cls,t})}{\|F_{cls,t}-F_{cls,t-w}\|\cdot\|F_{cls,t+w}-F_{cls,t}\|}\]

曲率定义为转向角按差分向量长度归一 \(\kappa_t = \theta_t/(\|F_{cls,t}-F_{cls,t-w}\|\cdot\|F_{cls,t+w}-F_{cls,t}\|+\epsilon)\)。再对原始曲率序列做滑动平均去噪得 \(\bar\kappa\)，min-max 归一化保证尺度不变 \(\hat\kappa_t=\frac{\bar\kappa_t-\min(\bar\kappa)}{\max(\bar\kappa)-\min(\bar\kappa)}\)，最后取反得到边界变化度量 \(C_t = 1-\hat\kappa_t\)——低曲率（谷）对应高边界概率。相比传统距离度量（欧氏/余弦对特征幅度敏感）和梯度显著性（倾向高亮动作中心而非边界），曲率显式刻画特征流形的方向演化，是稳健的参数无关转换代理。

3. CGS 双向任务协同：曲率与边界预测互相对齐成良性闭环

光有曲率先验还不够，关键是把它和定位、分类拧成闭环。CGS 在边界预测概率和曲率边界度量之间施加双向一致性约束：

\[L_{curv} = -\frac{1}{T}\sum_{t=1}^{T}\big[\mathrm{MSE}(\hat{y}^b_t,\varphi(C_t)) + \mathrm{MSE}(C_t,\varphi(\hat{y}^b_t))\big]\]

其中 \(\varphi(\cdot)\) 是梯度停止函数。前向路 \(C\!\to\!L\)（曲率引导边界）主要靠几何先验细化边界、提升 F1；后向路 \(L\!\to\!C\)（边界监督分类）通过惩罚预测动作段内的低曲率，逼分类特征组织成更具判别力、更紧凑的簇，从而提升准确率并产出更精准的几何先验。两条路互相强化，形成"边界更准 → 特征更纯 → 先验更好 → 边界更准"的螺旋上升，完整 CGS 的协同增益显著大于两条单路之和。

损失函数 / 训练策略¶

总目标把基线的帧级交叉熵+段级平滑分类损失 \(L_c\)、二元逻辑回归边界损失 \(L_b\) 与曲率协同损失 \(L_{curv}\) 加权相加：

\[L = L_c + L_b + \lambda L_{curv}\]

\(\lambda\) 平衡协同强度。训练用 Adam、单卡 3090；MCFS 用 batch=1、lr=5e-4、300 epoch；PKU-MMD/LARa 用 batch=4/3、lr=1e-3、300/40 epoch。曲率窗口 \(w=10\)，\(\lambda\) 在 PKU/LARa/MCFS 上分别取 4/2.5/2，每视频切 64 段、每段 2 个高斯专家。

实验关键数据¶

主实验¶

CurvSeg 作为即插即用模块挂到 DeST 和 LaSA 上，在四个标准数据集（MCFS-22/130、PKU-MMD X-sub/X-view、LARa）全面提升，段级 F1 提升最显著，同时帧准确率也涨，印证了"边界更准 → 特征更纯 → 分类更好"的互惠闭环。

数据集	指标	基线 LaSA	+Ours	提升
PKU-MMD (X-sub)	F1@50	63.6	65.5	+1.9
PKU-MMD (X-view)	F1@10	72.9	74.4	+1.5
LARa	Acc	75.3	76.6	+1.3
MCFS-130	Edit	79.3	79.8	+0.5

（在 MCFS-22/130 上 Ours 全面超 DeST/LaSA，如 MCFS-130 Acc 72.6→73.1，F1@10 79.3→79.8。）

消融实验¶

配置	LARa Acc	F1@50	说明
Base (LaSA)	75.3	57.9	仅基线
+EDD	76.2	58.4	专家解耦提供专属特征地基
+CGS	76.2	58.7	曲率协同主攻边界 F1
Full (Ours)	76.6	59.0	两者协同，增益超单模块之和

引导信号对比（LARa）：曲率 vs 其他边界代理。

引导方式	Acc	F1@50	说明
Base	75.3	57.9	无引导
欧氏距离	76.0	57.8	对幅度敏感
余弦	75.2	57.0	表现最差
梯度显著性	74.4	57.1	倾向高亮动作中心
曲率 (Ours)	76.2	58.7	最优、参数无关

关键发现¶

EDD 与 CGS 互为表里：全模型增益显著大于两模块单独贡献之和——EDD 提供高质量专属特征作地基，CGS 才能把曲率几何潜力发挥到极致。
双向路各司其职：前向 \(C\!\to\!L\) 主升 F1（细化边界），后向 \(L\!\to\!C\) 主升 Acc（正则化特征），合起来产生协同增益。
曲率可直接当边界检测器：把取反曲率值直接阈值化当边界预测，在 LARa 上效果已相当可观（F1@10 72.3），强证"低曲率点是时序边界的高效代理"。
超参敏感性：\(\lambda=2\)、\(M=64\)、\(G=2\)、\(w=10\) 为最优。\(w\) 太小（5）上下文不足，太大（≥40）会把定义边界的尖锐方向变化过平滑掉；\(G>2\) 收益递减并可能过拟合。

亮点与洞察¶

把"表示几何"翻译成"任务协同信号"：曲率谷=边界这一洞察，把抽象的流形几何变成可直接监督边界的参数无关先验，是最让人"啊哈"的地方——不引入新参数就架起分类与定位的桥。
双向梯度停止设计巧妙：\(L_{curv}\) 两项都用 \(\varphi\) 停梯度，让曲率与边界互为"软标签"对齐而非互相拖拽崩塌，是实现稳定良性闭环的关键 trick。
高斯专家的"相对时序"思路可迁移：把长视频切段、让专家学"事件开始"这类相对模式而非绝对位置，这套归一化局部上下文的做法可迁移到任何长序列时序定位任务。
即插即用：CGS+EDD 不改基线主干，能直接增益 DeST/LaSA，复用成本低。

局限与展望¶

低动态动作曲率谷浅：如花滑的 Step Sequence 这类连续演化、无突变的动作，曲率谷比 Jump 等高动态动作浅得多，边界在物理上本就更模糊，几何先验失灵。
传感器噪声造伪峰：骨架估计抖动会在特征轨迹引入高频波动，在非边界区造出虚假曲率峰（假阳性）。
依赖分类特征质量：整套机制建立在"分类表示已学好、类簇紧凑"的前提上，训练早期或类别极不平衡时几何先验可能不可靠。
改进方向：可对低动态段引入自适应窗口或多尺度曲率，对噪声引入鲁棒平滑/置信度加权，缓解上述两类失败模式。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用表示几何的曲率当边界先验并构建双向闭环，角度新颖且有理论支撑（附录 B 曲率-半径反比推导）
实验充分度: ⭐⭐⭐⭐ 四数据集、两基线、CGS/EDD 逐组件消融、引导方式对比、超参分析齐全，但绝对提升幅度多在 1-2 个点
写作质量: ⭐⭐⭐⭐ 动机递进清晰、几何直觉讲得透，图 1 的孤岛→协同对比一目了然
价值: ⭐⭐⭐⭐ 即插即用、参数无关、隐私友好，对医疗等骨架场景的细粒度动作分割有实用价值