Beyond Label Semantics: Language-Guided Action Anatomy for Few-shot Action Recognition¶

会议: ICCV 2025
arXiv: 2507.16287
代码: 无
领域: 视频理解 / 小样本动作识别
关键词: few-shot action recognition, LLM, atomic action, multimodal fusion, metric learning

一句话总结¶

提出 Language-Guided Action Anatomy (LGA) 框架，利用大语言模型将动作标签解剖为原子级动作描述（主体-动作-对象三要素），同时在视频端通过聚类分割将帧序列划分为对应的原子动作阶段，在原子级别进行多模态融合和匹配，显著提升小样本动作识别性能。

研究背景与动机¶

小样本动作识别（FSAR）旨在用极少标注样本对未见类别视频进行分类。近年来多模态方法（特别是引入文本信息）取得了一定进展，但现有方法通常仅利用动作标签的粗粒度语义。然而，人体动作包含丰富的细粒度信息——姿态变化、运动动态和物体交互在不同阶段呈现不同特征，这些关键知识无法仅通过动作标签充分挖掘。

作者观察到动作的关键因素包括：（1）主体（subject）、运动动态（motion）、对象交互（object）三个核心要素；（2）时间维度上，动作的起始、进行和结束阶段对类别判断至关重要。因此需要在查询-支持视频间进行细粒度对齐，确保动作的每个关键方面都被考虑。

方法详解¶

整体框架¶

LGA 框架包含三大核心模块：动作解剖（Action Anatomy）、细粒度多模态融合（Fine-grained Multimodal Fusion）和多模态匹配（Multimodal Matching）。输入视频经视觉骨干提取特征后，在文本端利用 LLM 将标签分解为原子动作描述，在视频端将帧序列分割为对应的原子动作阶段，随后在原子级别进行特征融合与匹配。

关键设计¶

文本解剖（Textual Anatomy）:
- 利用 LLM 将每个动作标签分解为有序的原子动作描述序列
- 每个描述显式编码主体、动作和对象三要素
- 例如 "Jump into pool" → 起始："A person standing at the edge..."，进行："The person leaping off..."，结束："The person entering the water..."
- 将原子描述输入文本骨干提取特征 \(\{t_i\}_{i=1}^{L}\)
视觉解剖（Visual Anatomy）与 CLUSTER-Segment:
- 将帧特征序列 \(\{f_i\}_{i=1}^{T}\) 划分为 \(L\) 个原子动作阶段
- 采用 CLUSTER-Segment 策略：初始化每帧为独立簇，计算相邻簇的余弦相似度，反复合并最相似的相邻簇直至剩余 \(L\) 个
- 相邻簇之间添加重叠帧以增强鲁棒性
- 设计动机：不同于均匀分割，该策略能自适应捕捉不同时长的子动作
细粒度多模态融合模块:
- 使用多头交叉注意力机制整合原子级视觉和文本特征
- Query 由原子视觉特征 \(f_{S_i}\) 与对应文本特征 \(t_i\) 相加得到：\(\mathbf{Q_i} = t_i + f_{S_i}\)
- Key 和 Value 由所有原子视觉特征拼接：\(\mathbf{K} = \mathbf{V} = \text{concat}(\{f_{S_i}\}_{i=1}^{L})\)
- 每个原子动作特征既学习局部语义细节，又保持对全局时间结构的感知
- 最终拼接所有阶段特征得到动作原型：\(\tilde{f} = \text{concat}(\tilde{f}_{S_1}, \tilde{f}_{S_2}, \tilde{f}_{S_3})\)
多模态匹配模块:
- Video-video 匹配：提出 Aligned Bidirectional Mean Hausdorff Metric（AB-MHM），在原子动作级别对齐时序，计算查询与支持视频的距离
- Video-text 匹配：将查询视频每阶段的平均池化特征与各类别文本特征计算相似度
- 最终通过加权几何平均融合两种匹配结果：\(p_{(y=i|q)} = (p^{v-v})^{\alpha} \times (p^{v-t})^{(1-\alpha)}\)

损失函数 / 训练策略¶

训练阶段采用 episode-based 元学习策略
使用交叉熵损失 + 对比损失联合优化
训练时仅使用 video-video 匹配结果进行分类以保证稳定性
推理时使用完整的多模态匹配结果
视觉骨干采用 CLIP ViT-B/16 初始化，均匀采样 8 帧

实验关键数据¶

主实验¶

数据集	设置	LGA	CLIP-FSAR	EMP-Net	提升（vs CLIP-FSAR）
HMDB51	1-shot	86.8	77.1	76.8	+9.7
HMDB51	5-shot	89.3	87.7	85.8	+1.6
Kinetics	1-shot	95.2	94.8	89.1	+0.4
UCF101	1-shot	98.2	97.0	94.3	+1.2
SSv2-Small	1-shot	58.9	54.6	57.1	+4.3
SSv2-Small	5-shot	69.3	61.8	65.7	+7.5
SSv2-Full	1-shot	63.8	62.1	63.1	+1.7
SSv2-Full	5-shot	74.4	72.1	73.0	+2.3

消融实验¶

Visual-An	Textual-An	V-V匹配	V-T匹配	HMDB51 1-shot	HMDB51 5-shot
✗	✗	✓	✗	75.8	87.7
✓	✗	✓	✗	79.9	86.0
✗	✓	✓	✗	79.6	87.2
✓	✓	✓	✗	80.8	88.2
✓	✓	✗	✓	83.1	86.2
✓	✓	✓	✓	86.8	89.3

关键发现¶

视觉解剖和文本解剖单独使用就分别带来 4.1% 和 3.8% 的 1-shot 提升
多模态匹配（V-V + V-T）在 1-shot 场景下效果尤为显著（+6.0%），说明在视觉信息有限时文本线索更关键
原子动作数量为 3（起始/进行/结束）时最优，过多会导致 LLM 幻觉和时序重叠
CLUSTER-Segment 优于均匀分割（HARD）和 TW-FINCH，因为能自适应不同时长的子动作

亮点与洞察¶

LLM 作为动作知识引擎：巧妙地利用 LLM 的世界知识来解剖动作，而非简单使用标签文本，将隐含在动作标签中的丰富先验知识显式化
原子级对齐思想：不同于全局级别的视觉-文本对齐，在子动作级别进行精细对齐，更符合人类理解动作的方式
AB-MHM 度量：在 Hausdorff 距离中引入原子级时序对齐，非参数化设计使其具有良好的迁移性和计算效率

局限与展望¶

原子动作数量固定为 3，对于复杂动作可能不够灵活，可考虑自适应确定分段数
LLM 生成的描述质量依赖于 LLM 模型能力，存在幻觉风险
单独使用视觉或文本解剖在 5-shot 设置下可能导致性能退化（模态不对齐问题）
未在更大规模的数据集和骨干网络上验证

评分¶

新颖性: ⭐⭐⭐⭐ 动作解剖+原子级融合匹配的创新组合，利用LLM挖掘动作先验知识
实验充分度: ⭐⭐⭐⭐⭐ 5个基准、详细消融、多维度分析和可视化
写作质量: ⭐⭐⭐⭐ 动机清晰，方法阐述系统完整
价值: ⭐⭐⭐⭐ 为小样本动作识别中如何利用LLM提供了新范式