FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation¶
会议: CVPR 2026
arXiv: 2603.16596
代码: https://github.com/
领域: 人体理解
关键词: 牛只姿态估计, 发情检测, 频率空间融合, 多尺度自校准, 轻量骨干网络
一句话总结¶
FSMC-Pose 提出面向牛只爬跨(mounting)姿态估计的轻量级 top-down 框架,包含频率-空间融合骨干网络 CattleMountNet(通过 SFEBlock 的小波变换+高斯滤波分离前景-背景,RABlock 的多尺度扩张卷积聚合上下文)和多尺度自校准头 SC2Head(空间-通道共校准 + 自校准分支纠正结构偏移),同时构建了首个牛只爬跨数据集 MOUNT-Cattle,在复杂群养环境中以极低计算成本(4.41 GFLOPS, 2.698M 参数)达到 89% AP。
研究背景与动机¶
- 领域现状:牛只发情检测对畜牧业经济效益至关重要。爬跨行为是最直观的发情视觉指标。现有动物姿态估计主要沿用人体姿态方法(DeepLabCut、HRNet 等),分为自底向上和自顶向下两种范式。
- 现有痛点:(1) 缺乏公开的牛只爬跨数据集,研究基础空白;(2) 发情牛只倾向聚集,爬跨场景比一般牧场密度更高;(3) 杂乱背景干扰、牛只间严重遮挡、相似皮毛模式导致关键点混淆和身份混乱;(4) 现有方法计算量大,不适合实时生产监控。
- 核心矛盾:密集群养环境下的爬跨姿态估计需要同时处理背景干扰、遮挡和多尺度关键点,但现有方法无法在轻量计算下同时解决这些问题。
- 本文目标:构建数据集 + 设计轻量高精度的爬跨姿态估计方法。
- 切入角度:从频率域(小波分解)和空间域(多尺度上下文)两个互补视角增强特征。
- 核心 idea:频率-空间融合分离前景 + 多尺度感受野捕获尺度变化 + 自校准纠正遮挡偏移。
方法详解¶
整体框架¶
FSMC-Pose 采用 top-down 设计,遵循 RTMPose 框架,使用 MobileNet 作为基础。CattleMountNet 骨干网络提取多层级特征,SC2Head 预测头进行关键点回归。输入为裁剪的牛只图像,输出 16 个关键点坐标。
关键设计¶
-
空间-频率增强块 (SFEBlock):
- 功能:在杂乱牧场环境中增强牛只与背景的分离
- 核心思路:结合小波变换卷积(WTConv)和高斯滤波。WTConv 对输入做小波分解得到低频和高频子带,在每个子带上做卷积捕获多尺度频率特征,再逆小波变换重建。固定 5×5 高斯核平滑噪声。两路特征相加后 1×1 压缩,元素乘法精化空间响应,残差连接保留输入信息:\(F_{\text{out}} = \text{Conv}^{3\times3}(F_{\text{WTconv}} \otimes F_{\text{temp}}) + F_{\text{in}}\)
- 设计动机:牛场中泥土、阴影、光照使牛只纹理与背景相似,低对比度下关键点模糊,频率域建模可增大感受野同时保留局部结构
-
感受野聚合块 (RABlock):
- 功能:处理牛只关键点从小蹄部到大躯干的强尺度变化
- 核心思路:在倒残差单元上添加三个并行 3×3 深度可分离卷积,扩张率分别为 1、3、5,分别捕获局部、中程和远程上下文。三路输出求和后 LayerNorm 归一化:\(\mathbf{H}_{l-1} = \text{LN}(\mathbf{H}^1 + \mathbf{H}^2 + \mathbf{H}^3)\),配合 HardSwish 激活和残差连接
- 设计动机:单尺度特征无法同时捕获小关节和大躯干区域
-
空间-通道自校准头 (SC2Head):
- 功能:纠正牛只间遮挡导致的结构偏移和关键点误关联
- 核心思路:三分支设计——空间注意力分支(SAB)用平均+最大池化生成空间权重,通道注意力分支(CAB)用通道级池化生成通道权重,自校准分支(SCB)提供结构校正。三者通过 \(C_o = f_{1\times1}([\text{SA}, \text{CA}]) \odot \text{SC} + X\) 融合
- 设计动机:骨干网络的 SFEBlock 和 RABlock 主要在早期特征提取中起作用,预测头仍需处理结构混淆
损失函数 / 训练策略¶
遵循 RTMPose 的 SimCC 坐标回归策略,KL 散度损失监督。
实验关键数据¶
主实验¶
| 方法 | AP↑ | AP75↑ | AR↑ | GFLOPs | 参数量 |
|---|---|---|---|---|---|
| RTMPose-s | 87.6 | 89.5 | 89.0 | 5.47 | 13.49M |
| HRNet-w32 | 86.8 | 88.1 | 88.3 | 9.83 | 28.54M |
| SimpleBaseline | 85.4 | 87.2 | 87.5 | 8.90 | 34.00M |
| FSMC-Pose | 89.0 | 92.5 | 89.9 | 4.41 | 2.698M |
FSMC-Pose 以最低的计算量和参数量达到最高精度。
消融实验¶
| 配置 | AP | AP75 | 说明 |
|---|---|---|---|
| MobileNet 基线 | 86.2 | 87.8 | 无 SFE/RA |
| +SFEBlock | 87.5 | 89.2 | 频率增强的贡献 |
| +RABlock | 88.1 | 90.8 | 多尺度聚合的贡献 |
| +SC2Head (完整) | 89.0 | 92.5 | 自校准的贡献 |
关键发现¶
- SFEBlock 在高遮挡场景提升最大,说明频率域前景-背景分离有效
- AP75(严格阈值)提升比 AP 更大(+3.0% vs +1.4%),说明方法提升了精确定位能力
- 参数量仅 2.698M(比 RTMPose 减少 80%),GFLOPs 4.41,支持商用 GPU 实时推理
- MOUNT-Cattle 数据集涵盖 1176 个爬跨实例,是首个专注爬跨行为的数据集
亮点与洞察¶
- 首个爬跨姿态数据集:填补了牛只发情视觉检测的数据空白,采用 COCO 格式支持即插即用训练
- 频率-空间双重建模:小波变换在动物姿态估计中的应用是新颖的
- 极致轻量化:2.698M 参数 + 4.41 GFLOPs 实现 89% AP,具有强实际部署价值
局限与展望¶
- 数据集规模有限(1176 实例),泛化到不同牧场/品种需要更多数据
- 仅考虑了 16 个关键点,更细粒度的行为分析可能需要更多关键点
- 未结合行为识别进行端到端发情判断
- 未来可扩展到视频级的时序行为识别
相关工作与启发¶
- vs DeepLabCut: DeepLabCut 在拥挤场景下个体混淆严重,FSMC-Pose 通过自校准解决
- vs RTMPose: RTMPose 通用性强但参数量大,FSMC-Pose 针对牛只场景定制更高效
- vs CMBN: CMBN 压缩 HRNet 但仍是自底向上,密集场景下关键点误关联
评分¶
- 新颖性: ⭐⭐⭐ 方法是已有模块的组合,但场景应用新颖
- 实验充分度: ⭐⭐⭐⭐ 数据集构建扎实,对比充分
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰
- 价值: ⭐⭐⭐⭐ 对智慧牧业有实际价值