FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation¶

会议: CVPR 2026
arXiv: 2603.16596
代码: https://github.com/
领域: 人体理解
关键词: 牛只姿态估计, 发情检测, 频率空间融合, 多尺度自校准, 轻量骨干网络

一句话总结¶

FSMC-Pose 提出面向牛只爬跨(mounting)姿态估计的轻量级 top-down 框架，包含频率-空间融合骨干网络 CattleMountNet（通过 SFEBlock 的小波变换+高斯滤波分离前景-背景，RABlock 的多尺度扩张卷积聚合上下文）和多尺度自校准头 SC2Head（空间-通道共校准 + 自校准分支纠正结构偏移），同时构建了首个牛只爬跨数据集 MOUNT-Cattle，在复杂群养环境中以极低计算成本(4.41 GFLOPS, 2.698M 参数)达到 89% AP。

研究背景与动机¶

领域现状：牛只发情检测对畜牧业经济效益至关重要。爬跨行为是最直观的发情视觉指标。现有动物姿态估计主要沿用人体姿态方法（DeepLabCut、HRNet 等），分为自底向上和自顶向下两种范式。
现有痛点：(1) 缺乏公开的牛只爬跨数据集，研究基础空白；(2) 发情牛只倾向聚集，爬跨场景比一般牧场密度更高；(3) 杂乱背景干扰、牛只间严重遮挡、相似皮毛模式导致关键点混淆和身份混乱；(4) 现有方法计算量大，不适合实时生产监控。
核心矛盾：密集群养环境下的爬跨姿态估计需要同时处理背景干扰、遮挡和多尺度关键点，但现有方法无法在轻量计算下同时解决这些问题。
本文目标：构建数据集 + 设计轻量高精度的爬跨姿态估计方法。
切入角度：从频率域（小波分解）和空间域（多尺度上下文）两个互补视角增强特征。
核心 idea：频率-空间融合分离前景 + 多尺度感受野捕获尺度变化 + 自校准纠正遮挡偏移。

方法详解¶

整体框架¶

FSMC-Pose 采用 top-down 设计，遵循 RTMPose 框架，使用 MobileNet 作为基础。CattleMountNet 骨干网络提取多层级特征，SC2Head 预测头进行关键点回归。输入为裁剪的牛只图像，输出 16 个关键点坐标。

关键设计¶

空间-频率增强块 (SFEBlock):
- 功能：在杂乱牧场环境中增强牛只与背景的分离
- 核心思路：结合小波变换卷积(WTConv)和高斯滤波。WTConv 对输入做小波分解得到低频和高频子带，在每个子带上做卷积捕获多尺度频率特征，再逆小波变换重建。固定 5×5 高斯核平滑噪声。两路特征相加后 1×1 压缩，元素乘法精化空间响应，残差连接保留输入信息：\(F_{\text{out}} = \text{Conv}^{3\times3}(F_{\text{WTconv}} \otimes F_{\text{temp}}) + F_{\text{in}}\)
- 设计动机：牛场中泥土、阴影、光照使牛只纹理与背景相似，低对比度下关键点模糊，频率域建模可增大感受野同时保留局部结构
感受野聚合块 (RABlock):
- 功能：处理牛只关键点从小蹄部到大躯干的强尺度变化
- 核心思路：在倒残差单元上添加三个并行 3×3 深度可分离卷积，扩张率分别为 1、3、5，分别捕获局部、中程和远程上下文。三路输出求和后 LayerNorm 归一化：\(\mathbf{H}_{l-1} = \text{LN}(\mathbf{H}^1 + \mathbf{H}^2 + \mathbf{H}^3)\)，配合 HardSwish 激活和残差连接
- 设计动机：单尺度特征无法同时捕获小关节和大躯干区域
空间-通道自校准头 (SC2Head):
- 功能：纠正牛只间遮挡导致的结构偏移和关键点误关联
- 核心思路：三分支设计——空间注意力分支(SAB)用平均+最大池化生成空间权重，通道注意力分支(CAB)用通道级池化生成通道权重，自校准分支(SCB)提供结构校正。三者通过 \(C_o = f_{1\times1}([\text{SA}, \text{CA}]) \odot \text{SC} + X\) 融合
- 设计动机：骨干网络的 SFEBlock 和 RABlock 主要在早期特征提取中起作用，预测头仍需处理结构混淆

损失函数 / 训练策略¶

遵循 RTMPose 的 SimCC 坐标回归策略，KL 散度损失监督。

实验关键数据¶

主实验¶

方法	AP↑	AP75↑	AR↑	GFLOPs	参数量
RTMPose-s	87.6	89.5	89.0	5.47	13.49M
HRNet-w32	86.8	88.1	88.3	9.83	28.54M
SimpleBaseline	85.4	87.2	87.5	8.90	34.00M
FSMC-Pose	89.0	92.5	89.9	4.41	2.698M

FSMC-Pose 以最低的计算量和参数量达到最高精度。

消融实验¶

配置	AP	AP75	说明
MobileNet 基线	86.2	87.8	无 SFE/RA
+SFEBlock	87.5	89.2	频率增强的贡献
+RABlock	88.1	90.8	多尺度聚合的贡献
+SC2Head (完整)	89.0	92.5	自校准的贡献

关键发现¶

SFEBlock 在高遮挡场景提升最大，说明频率域前景-背景分离有效
AP75（严格阈值）提升比 AP 更大（+3.0% vs +1.4%），说明方法提升了精确定位能力
参数量仅 2.698M（比 RTMPose 减少 80%），GFLOPs 4.41，支持商用 GPU 实时推理
MOUNT-Cattle 数据集涵盖 1176 个爬跨实例，是首个专注爬跨行为的数据集

亮点与洞察¶

首个爬跨姿态数据集：填补了牛只发情视觉检测的数据空白，采用 COCO 格式支持即插即用训练
频率-空间双重建模：小波变换在动物姿态估计中的应用是新颖的
极致轻量化：2.698M 参数 + 4.41 GFLOPs 实现 89% AP，具有强实际部署价值

局限与展望¶

数据集规模有限（1176 实例），泛化到不同牧场/品种需要更多数据
仅考虑了 16 个关键点，更细粒度的行为分析可能需要更多关键点
未结合行为识别进行端到端发情判断
未来可扩展到视频级的时序行为识别

评分¶

新颖性: ⭐⭐⭐ 方法是已有模块的组合，但场景应用新颖
实验充分度: ⭐⭐⭐⭐ 数据集构建扎实，对比充分
写作质量: ⭐⭐⭐⭐ 问题定义清晰
价值: ⭐⭐⭐⭐ 对智慧牧业有实际价值