Evaluating Few-Shot Pill Recognition Under Visual Domain Shift¶

会议: CVPR 2026
arXiv: 2603.10833
代码: 无
领域: 目标检测
关键词: 少样本学习, 药片识别, 域偏移, 目标检测, 部署鲁棒性

一句话总结¶

从部署导向的视角系统评估少样本药片识别在跨数据集域偏移下的表现，揭示语义分类在 1-shot 即饱和但遮挡/重叠场景下定位与召回急剧退化的解耦现象，并论证训练数据的视觉真实性是决定少样本泛化的主导因素。

药物不良事件（ADEs）是可预防伤害的重要来源，推动了自动化药片识别系统的开发。然而实际部署面临重大挑战：

本研究的核心目标不是提出新架构，而是从 部署诊断 视角系统审视少样本药片识别的泛化行为和失败模式。

采用基于 Faster R-CNN 的两阶段少样本目标检测框架（FsDet）：

跨域评估协议设计：
- 基础训练使用 CURE 或 MEDISEG 数据集
- 少样本微调和评估在完全独立的新部署数据集上进行
- 三个阶段之间严格无数据泄漏
- 5-way K-shot 设定（\(K \in \{1, 5, 10\}\)）
两个基础训练数据集的对比设计：
- CURE：8,973 张图像，196 类，每张单个药片，受控条件拍摄，无遮挡——视觉简洁
- MEDISEG：8,262 张图像，32 类，每张多个药片实例，分药盒场景，有遮挡和杂乱——视觉真实
- 故意选择这两个差异巨大的数据集来研究基础域真实性对少样本适应的影响
分类中心+误差导向的评估指标：
- 不使用 AP 作为首要指标（因标注粒度异质导致 AP 不可比）
- 核心指标：前景分类准确率（FG-Acc）、假阴性率（FN rate）、分类损失、RPN 损失、总损失
- 这些指标能隔离语义识别与定位伪影，在标注异质性下保持公平可比

指标	CURE 1-shot	CURE 5-shot	CURE 10-shot	MEDISEG 1-shot	MEDISEG 5-shot	MEDISEG 10-shot
FG Acc	0.989±.004	0.980±.004	0.977±.004	0.994±.005	0.991±.002	0.983±.003
FN rate	0.011±.004	0.020±.004	0.023±.004	0.006±.005	0.009±.002	0.017±.003
loss_cls	0.005±.001	0.014±.001	0.019±.002	0.005±.001	0.011±.001	0.015±.002
total_loss	0.015±.003	0.039±.003	0.055±.005	0.014±.002	0.032±.003	0.044±.003

关键观察：1-shot 即可达到 ≥0.989 的前景分类准确率，MEDISEG 训练模型的假阴性率比 CURE 低 45%。

指标	CURE 1-shot	CURE 5-shot	CURE 10-shot	MEDISEG 1-shot	MEDISEG 5-shot	MEDISEG 10-shot
FG Acc	0.131	0.372	0.558	0.406	0.625	0.740
FN rate	0.816	0.465	0.342	0.513	0.246	0.210
loss_cls	0.351	0.421	0.320	0.383	0.279	0.191
loss_rpn_cls	0.863	0.224	0.133	0.312	0.182	0.059
total_loss	1.326	0.844	0.674	0.963	0.680	0.445

语义识别饱和极快：前景分类准确率在 1-shot 即达 0.989+，增加标注样本边际效益递减
定位与分类解耦：标准评估中语义分类强劲，但重叠压力测试中定位和召回急剧退化（CURE 1-shot FG Acc 从 0.989 暴跌至 0.131）
训练数据真实性是主导因素：MEDISEG（多药片真实场景）训练的模型在 1-shot 重叠测试中比 CURE（单药片受控场景）高出 210% 的前景分类准确率
增加监督的收益递减：1-shot→5-shot 提升显著（MEDISEG FG Acc 0.406→0.625），5-shot→10-shot 收益明显减小（+18%）
损失増长非退化信号：total_loss 随 shot 数增加而增大，但不代表识别退化——而是更复杂的优化格局
MEDISEG 优势在低样本时最大：1-shot 时相对优势 210%，10-shot 时缩小至 33%，说明真实训练数据在极端数据稀缺时尤为关键