ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis¶

会议: CVPR 2026
arXiv: 2603.09611
代码: 项目主页
领域: 人体理解
关键词: text-to-motion, 身体部位引导, VQ-VAE, 部位感知文本对齐, 动作连贯性

一句话总结¶

提出 ParTY 框架，通过部位引导网络（Part-Guided Network）和部位感知文本对齐（Part-aware Text Grounding），在保持全身动作连贯性的同时大幅提升身体各部位的文本-动作语义对齐精度，解决了现有整体式方法与部位拆分方法之间"部位表达力 vs 全身连贯性"的根本矛盾。

研究背景与动机¶

文本驱动动作生成的应用前景：text-to-motion 在动画、VR、游戏、机器人等领域有广泛应用，近年在架构层面取得了显著进展（VQ-VAE + Transformer、扩散模型等）。
整体式方法的局限：大多数现有方法将人体视作单一整体生成全身动作，虽然全局连贯性好，但对文本中涉及特定肢体部位的细粒度描述难以准确建模，部位级别的语义常被忽略或误表达。
部位拆分方法的两大缺陷：ParCo、LGTM 等部位拆分方法将身体拆解为手臂、腿等独立生成，虽然部位控制力更强，但（i）缺乏将文本语义与各部位显式对齐的机制；（ii）独立生成后简单拼合导致全身动作不连贯（如颈部扭曲、上下身朝向不一致）。
核心矛盾：部位表达力与全身连贯性之间存在根本性权衡——部位拆分方法提升了前者却牺牲了后者，目前没有方法能同时兼顾两者。
评估协议缺失：现有评估指标（如 FID、R-Precision）仅在全身层面操作，无法准确衡量部位级语义对齐质量，也没有直接评估跨部位动作连贯性的度量。
本文目标：设计一个统一框架，桥接整体式和部位拆分方法的优势——既实现精细的部位-文本对齐，又保持全身连贯的动作输出；同时提出部位级和连贯性级别的新评估指标。

方法详解¶

整体框架¶

ParTY 采用两阶段训练策略。第一阶段训练 Temporal-aware VQ-VAE，将全身和各部位（手臂、腿）的动作序列分别量化为离散码本。第二阶段训练整体 Transformer 和部位 Transformer：文本 embedding 经 Part-aware Text Grounding (PTG) 处理后分别送入各部位 Transformer，先生成部位动作 token 构建 Part Guidance，再将其注入整体 Transformer 引导全身动作生成，并在生成过程中通过 Holistic-Part Fusion (HPF) 持续融合部位信息。推理时，预测的码本序列由第一阶段预训练的 VQ-VAE 解码器重建为动作。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph VQ["Temporal-aware VQ-VAE（第一阶段·预训练）"]
        direction TB
        M["全身 / 手臂 / 腿动作序列"] --> LG["LTE 组内 MLP 加权 → GTE 跨组 GCN"]
        LG --> CB["量化进离散码本"]
    end

    T["文本描述"] --> CLIP["CLIP 文本编码器"]
    CLIP --> PTG["部位感知文本对齐 PTG<br/>K 个 MLP 分裂 + 部位 Gate 按需取语义"]

    subgraph PGN["部位引导网络 + 部位感知融合 HPF（第二阶段·循环生成）"]
        direction TB
        PT["部位 Transformer<br/>自回归生成部位 token"] --> PG["Part Guidance<br/>各部位 token 相加过 MLP"]
        PG --> HT["整体 Transformer<br/>以 Part Guidance 为条件生成全身 token"]
        HT --> HPF["HPF：全身 token 作 query、部位作 key/value<br/>cross-attention 实时融回全身"]
        HPF -->|逐周期循环| PT
    end

    PTG --> PT
    CB -.提供码本空间.-> PGN
    HPF --> DEC["VQ-VAE 解码器（第一阶段预训练）<br/>码本序列重建为动作"]
    DEC --> OUT["全身连贯动作"]

关键设计¶

1. Temporal-aware VQ-VAE：让大压缩窗口下也不丢时序流

标准 VQ-VAE 在固定窗口里压缩动作时，窗口一大就会把帧间的时序流抹平，量化质量随之崩塌——可窗口小又意味着更多 token、更慢的推理。ParTY 用两级时序增强把这对矛盾拆开：Local Temporal Enhancement (LTE) 先把帧级特征按窗口分组，组内用一个 MLP 算权重再加权求和得到组级特征，保住窗口内的局部动态；Global Temporal Enhancement (GTE) 再在组级特征上搭一张图卷积网络（GCN），跨组捕捉全局时序依赖，最后才量化进码本。这样即便窗口从 4 放大到 12（推理时间缩减约 64%），量化后的 FID 也只微升到 0.042，仍远好于同等窗口下原始 MoMask 的 0.126。

2. Part-aware Text Grounding (PTG)：让每个部位读到「为它定制」的文本语义

一句话动作描述往往同时管着手臂、腿、躯干，单一文本 embedding 喂给所有部位，细粒度的部位语义就被稀释了。PTG 的做法是先「分裂」再「按需取用」：CLIP 文本 embedding 经 K 个独立 MLP 变换成 K 个多样化 embedding，再由每个部位专属的 Gate 网络自适应加权，挑出对该部位最相关的语义方向。为了让这 K 个 embedding 既彼此不同又不跑偏，训练时加一个对比式的多样性损失 \(\mathcal{L}_{\text{div}}\) 约束它们语义一致但方向发散；同时用 LLM 为每个部位生成辅助描述（如原句"向前走并左手捡东西"→ 手臂描述"左臂捡起地上的东西"），用 L1 loss 把 Gate 选出的部位 embedding 对齐到这段描述上。关键在于 LLM 只在训练时用——推理阶段 Gate 已经学会了如何拆分语义，不再需要 LLM，因此也避开了 LGTM 那种直接让 LLM 切分文本、丢掉整句上下文的问题。

3. Part-Guided Network + Holistic-Part Fusion：让部位「先行一步」引导全身，而非事后拼合

部位拆分方法连贯性差的根因，是各部位独立生成完再硬拼，颈部扭曲、上下身朝向打架都出在这一步。ParTY 改成循环式的「部位先走、全身跟上」：每个周期里，部位 Transformer 先自回归生成 T 步 token，各部位 token 相加后过 MLP 融成 Part Guidance；整体 Transformer 在同一时间段以这份 Part Guidance 为额外条件生成全身 token，相当于全身生成时手里已经攥着部位的前瞻信息。Holistic-Part Fusion (HPF) 则负责每一步的动态对齐——它把全身、手臂、腿 token 拼起来做 self-attention，再以全身 token 为 query、各部位 token 为 key/value 做 cross-attention，把部位信息实时融回全身表示。注意力图显示，文本里被点名的部位会拿到显著更高的权重，说明这种持续融合确实在按语义分配注意力，而不是简单平均，从根本上避开了"拼合"带来的不连贯。

一个完整示例：生成"向前走并左手捡东西"¶

输入这句文本后，CLIP 先把它编码成一个全局 embedding，PTG 再把它分裂成 K 个多样化 embedding——腿部的 Gate 主要取到"向前走"的语义方向，左臂的 Gate 取到"捡东西"的方向。第一个生成周期里，腿部 Transformer 自回归生成前 T 步迈步 token，手臂 Transformer 生成对应的弯腰伸手 token，两者相加融成 Part Guidance；整体 Transformer 拿着这份引导，在同一时间段生成"既在走路、左手又向下探"的全身 token，HPF 此刻把全身 query 对齐到"左臂" key 上、给它更高权重，保证伸手动作不会和走路的躯干姿态打架。如此逐周期推进直到序列结束，最后由第一阶段预训练的 VQ-VAE 解码器把码本序列重建成连续动作。

损失函数¶

总损失由四部分组成：

\[\mathcal{L} = \mathcal{L}_{\text{hol}} + \mathcal{L}_{\text{part}} + \lambda_{\text{div}} \mathcal{L}_{\text{div}} + \lambda_{\text{aux}} \mathcal{L}_{\text{aux}}\]

\(\mathcal{L}_{\text{hol}}\)：整体 Transformer 的交叉熵损失，监督全身动作 token 的自回归预测
\(\mathcal{L}_{\text{part}}\)：部位 Transformer 的交叉熵损失（手臂 + 腿），监督各部位动作 token 预测
\(\mathcal{L}_{\text{div}}\)：对比学习多样性损失，鼓励 K 个变换 embedding 彼此不同但与原始 embedding 语义一致
\(\mathcal{L}_{\text{aux}}\)：辅助 L1 损失，将 PTG 输出与 LLM 生成的部位描述 embedding 对齐（仅训练时）

VQ-VAE 阶段：\(\mathcal{L}_{vq} = \mathcal{L}_{rec} + \lambda_{app} \cdot \mathcal{L}_{app}\)，包含 L1 重建损失和 L2 码本逼近损失。

实验¶

在 HumanML3D（14,616 动作，44,970 文本）和 KIT-ML（3,911 动作，6,278 文本）上评估。

表1：HumanML3D 全身级别主实验

方法	R-Prec Top-1↑	R-Prec Top-3↑	FID↓	MM-Dist↓
T2M-GPT	0.491	0.775	0.116	3.118
ParCo	0.515	0.801	0.109	2.927
MoMask	0.521	0.807	0.045	2.958
BAMM	0.525	0.814	0.055	2.919
ParTY	0.550	0.836	0.035	2.779

ParTY 在所有核心指标上均取得 SOTA，R-Prec Top-1 比第二名 BAMM 高 2.5 个百分点，FID 降低 36%。

表2：部位级别评估（HumanML3D）

方法	部位	R-Prec Top-1↑	FID↓	MM-Dist↓
MoMask	Arms	0.452	0.175	3.440
ParCo	Arms	0.468	0.215	3.326
ParTY	Arms	0.506	0.133	3.079
MoMask	Legs	0.403	0.104	3.513
ParCo	Legs	0.407	0.118	3.482
ParTY	Legs	0.463	0.078	3.122

表3：连贯性评估

方法	Temporal Coherence↑	Spatial Coherence↑
ParCo	0.49	0.59
MoMask	0.84	0.90
ParTY	0.88	0.92

ParTY 在部位表达力上远超整体式和部位拆分方法，同时连贯性甚至略优于整体式方法 MoMask，验证了同时兼顾两个目标的有效性。

表4：Temporal-aware VQ-VAE 移植到 MoMask 的效果

方法	窗口大小	重建 FID↓	生成 FID↓	推理时间
MoMask	4	0.020	0.045	80ms
MoMask + Ours	4	0.003 (+85%)	0.033 (+26%)	-
MoMask	8	0.042	0.094	43ms (-46%)
MoMask + Ours	8	0.005 (+88%)	0.039 (+58%)	-
MoMask	12	0.079	0.126	29ms (-64%)
MoMask + Ours	12	0.011 (+86%)	0.042 (+67%)	-

表5：各组件消融

PG	PTG	HPF	R-Prec Top-1↑	FID↓	MM-Dist↓
			0.494	0.158	3.087
✓			0.520	0.086	2.913
✓	✓		0.545	0.051	2.799
✓	✓	✓	0.550	0.035	2.779

亮点¶

解决核心矛盾：首次有效解决部位拆分方法"部位表达力 vs 全身连贯性"的根本权衡，Part-Guided Network 让部位信息前瞻引导全身生成而非事后拼合。
PTG 模块设计精巧：通过对比学习产生多样化 embedding + Gate 动态选择，比 LGTM 的 LLM 文本分解方案更优雅，且 LLM 辅助仅限训练阶段，推理无额外开销。
Temporal-aware VQ-VAE 通用性强：可直接移植到 MoMask 等方法上带来显著提升（FID 降低 26%-67%），大窗口时推理时间缩减 64% 而性能几乎不降。
完善的评估体系：提出部位级和连贯性级别评估指标（TC、SC），填补了该领域的评估空白，首次量化验证了部位拆分方法的连贯性缺陷。

局限性¶

身体部位仅拆分为手臂和腿两大组，缺乏对手指、头部、躯干等更细粒度部位的建模能力。
训练阶段依赖 LLM 生成部位辅助描述，数据准备成本增加，且 LLM 描述质量可能影响 PTG 训练效果。
循环式"先部位后全身"的生成流程增加了推理步数，虽然 Temporal-aware VQ-VAE 可通过大窗口部分补偿，但总体推理时间仍高于单一 Transformer 方法。
仅在 HumanML3D 和 KIT-ML 上验证，未涉及更复杂场景（如多人交互、物体交互、长序列生成）。
TC 和 SC 连贯性指标虽然有效区分了部位拆分方法的缺陷，但其统计特性和与人类感知的相关性还需更广泛验证。

评分¶

维度	评分
创新性	⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐⭐
写作清晰度	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐