ProstaTD: Bridging Surgical Triplet from Classification to Fully Supervised Detection¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0NkXZ98BjJ
代码: https://github.com/chen-yiliang/ProstaTD
领域: 医学图像 / 手术视频理解 / 目标检测
关键词: 手术三元组检测, 全监督, 数据集, 前列腺切除, 自蒸馏
一句话总结¶
本文构建了首个面向「全监督手术三元组检测」的大规模多中心数据集 ProstaTD(21 台机器人辅助前列腺切除术、71,775 帧、196,490 个带框实例、89 类三元组),用临床定义的时间边界 + 精确包围框把这个任务从「帧级弱监督分类」推进到「带空间定位的全监督检测」,并配套两款标注工具、一套评测工具和一个融合多任务学习 + 实例级自蒸馏的基线 TDnet。
研究背景与动机¶
领域现状:手术三元组(surgical triplet)指从手术视频每一帧里识别出 <器械, 动作, 目标> 三元组(instrument-verb-target),刻画「哪个器械、做了什么动作、作用在哪块解剖结构上」,是手术数据科学里支撑术中决策辅助、术后技能评估、规范化训练的基础任务。这个方向由 CholecT40/45/50 系列开创,目前 CholecT50 是最主流的基准。
现有痛点:CholecT50 有三个硬伤。其一,没有包围框标注,只给帧级类别标签,任务被困在弱监督设定里,无法做精确空间定位;CholecTriplet 2022 挑战赛虽然把检测纳入考量,但仍然只能靠类激活图(CAM)+ NMS 弱监督地「猜」位置,预测含糊。其二,时间边界模糊不一致:到底是器械「入画」算三元组开始还是「接触目标」算开始、是「离开目标」还是「退出画面」算结束,原文没说清,导致标注口径不统一,模型学不到稳定的时序动态。其三,数据源单一:只采自一家机构的胆囊切除术,器械外观与术式风格单调,罕见三元组缺失,模型容易过拟合本地风格、跨院泛化差。
核心矛盾:三元组任务要真正「可用于临床」,必须同时给出空间位置(框)和语义标签(三元组类别),但现有数据集只提供帧级类别,从根上就只支持分类、不支持检测——空间监督信号的缺失把整个领域钉死在了弱监督天花板下。
本文目标:造一个带精确包围框 + 临床标准时间边界 + 多机构来源的检测级数据集,把任务从分类升级到全监督检测;并提供标注工具、评测工具和基线方法,让后续工作能公平对比。
切入角度:作者选择技术难度更高的「机器人辅助前列腺根治术(RARP)」作为新场域——它属于「超大手术」(cholecystectomy 只是「大手术」),器械并发度更高、解剖结构更复杂、可跨 ESAD/PSI-AVA/自采 PWH 三源采集,天然比胆囊切除术更能逼出检测模型的真实能力。
核心 idea:用「全监督检测数据集 + 临床定义的时序/空间标注协议」替代「帧级弱监督分类标签」,把手术三元组从识别问题彻底变成检测问题。
方法详解¶
整体框架¶
ProstaTD 不是一个算法,而是一条「数据集构建 + 基准 + 基线」的完整管线:先把任务重定义为带框、带时间边界的全监督检测;再从三个异构来源(自采 PWH 9 台、PSI-AVA 8 台、ESAD 4 台)汇集 21 台前列腺切除手术视频,统一弃用原始标注、按自研协议重标;标注分两阶段半自动完成(先器械框、后动作/目标),辅以两款自研标注工具,最终产出 COCO/YOLO 双格式、覆盖 7 器械 / 10 动作 / 10 目标 / 89 三元组类的数据集;最后用一套专门的评测工具(ivtdmetrics)跑五折交叉验证基准,并给出融合自蒸馏的基线模型 TDnet。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["三源手术视频<br/>PWH / PSI-AVA / ESAD"] --> B["任务重定义<br/>分类→全监督检测<br/>框 + 时间边界"]
B --> C["临床时间边界<br/>连续/瞬时/null 三类动作"]
C --> D["两阶段半自动标注<br/>器械框 → 动作目标"]
D --> E["COCO/YOLO 双格式数据集<br/>71,775 帧 / 196,490 实例"]
E --> F["评测工具 ivtdmetrics<br/>五折交叉验证基准"]
F --> G["TDnet 基线<br/>多任务 + 实例级自蒸馏"]
关键设计¶
1. 任务重定义:从帧级弱监督分类升级为带框全监督检测
针对 CholecT50「只有类别标签、无空间定位」的根本缺陷,本文把手术三元组形式化为一个标准检测问题:给定视频帧 \(F_t\),每个器械实例都带一个包围框 \(B=\{(c_x, c_y, w, h)\}\)(中心点 + 宽高)和一个三元组类别 \(C \in \{C_1, \dots, C_N\}\),检测目标是找出帧内全部有效三元组 \(T_t = \{C_1, \dots, C_k\}\) 并同时给出每个交互的空间位置 + 语义标签。正是这个「框」的引入,让任务从「这帧里有没有某个三元组」变成「某个三元组发生在画面的哪个位置」,从而能解耦同时出现的多个器械、可靠地把器械和它的动作/目标关联起来——这是弱监督 CAM 做不到的。为兼容主流检测框架,数据同时以 YOLO 格式 ⟨tri, i, a, t, cx, cy, w, h⟩ 和 COCO 格式(左上角 x,y,w,h)发布。
2. 临床定义的时间边界:用手术语义而非器械出现来切动作
CholecT50 的时间边界模糊,本文与泌尿外科专家协作制定统一规则。关键洞察是:不能仅凭「器械出现在画面里」就判定三元组开始——那只是器械级步骤识别,和临床上的手术技能评估并不对齐。于是把三元组动作分为三类分别定义边界:连续动作(如沿髂血管的淋巴结清扫),从器械接触/极度贴近目标时开始,到器械离开同一目标超过 2 秒时结束;瞬时动作(如用剪刀剪线),时间窗更宽松,取器械-目标接触时刻前后各 2 秒;null 动作,对应器械静止或移动但无实质交互。这套「临床知情」的切分让标注在时序上既精确又有语义,更贴合真实手术,也使得多个标注者能在一致口径下合并标注——其可靠性由后文 0.82 的 Cohen's Kappa 一致性印证。
3. 两阶段半自动标注 + 专用工具:在专家监督下规模化产出高质量标签
为在 60 余名贡献者、近 20 万实例规模下保住质量,标注拆成两阶段。第一阶段(器械框):用此前自研的膀胱镜器械检测模型预标注,因前列腺与膀胱手术存在域差异,团队对选定视频做至少三轮人工修正后再回炉微调检测器,如此「半自动训练-修正」迭代五个循环,完成全部器械类型 + 框标注;这一阶段可由学生助理承担。第二阶段(动作/目标):在器械标注上补全动作与目标,需要大量医学专业知识,由 10 名外科医生 + 14 名医学背景资深学生完成,每帧至少 3 人复核。配套自研两款工具:Triplet-labelme 做单帧三元组(器械/动作/目标 + 框)精细编辑,SurgLabel 做跨用户自定义时间段的动作/目标高吞吐批量标注。最终 5 位未参与原标注的外科医生独立复核,与合并真值的平均 Cohen's Kappa 达 0.82,分歧主要出现在解剖边界附近的目标归属上,再经二次共识解决。
4. TDnet 基线:多任务学习 + 实例级自蒸馏缓解三元组类别不均衡
数据集类别长尾严重(89 类、分布极不均),导致所有方法 F1 都偏低。作者给出基线 TDnet:采用多任务学习,在三元组主任务外对器械(I)、动作(V)、目标(T)三个分量施加辅助监督;并在实例级引入自蒸馏,以此缓解三元组不均衡、提升检测鲁棒性。效果上,TDnet 把召回从主流 YOLO 的 ~36% 提到 39.7%、同时保持 34.7% 精度,拿到最高 F1 32.8%,并在 mAP\(_{IVT}\)@0.5 上从 YOLOv12 的 34.3% 提到 36.1%、@0.50:0.95 从 31.8% 提到 33.1%,且保持 126.6 FPS 的实时速度——说明它能在不大幅增加误报的前提下捕获更多真阳性。(TDnet 仅作为「未来工作的参照基线」给出,更多细节在原文附录 E,⚠️ 自蒸馏与多任务的具体损失形式以原文为准。)
实验关键数据¶
主实验¶
评测协议:在全部 21 台手术视频上做五折交叉验证(轮换测试折),输入 640×640、单张 RTX 4090,用自研 ivtdmetrics 报告 IoU 0.5 与 0.50:0.95 下的 mAP 以及 Precision/Recall/F1。其中 mAP\(_{IVT}\)(完整三元组)最关键。
| 方法 | mAP\(_I\)@50 | mAP\(_V\)@50 | mAP\(_T\)@50 | mAP\(_{IVT}\)@50 | mAP\(_{IVT}\)@95 | FPS |
|---|---|---|---|---|---|---|
| Tripnet-Det*(弱监督) | 1.6 | 0.6 | 0.4 | 0.1 | – | 331.8 |
| RDV-Det*(弱监督) | 1.8 | 0.6 | 0.3 | 0.1 | – | 146.6 |
| Faster R-CNN | 73.3 | 48.4 | 43.5 | 25.9 | 22.6 | 23.4 |
| RT-DETR | 91.6 | 58.9 | 56.8 | 33.0 | 29.6 | 66.3 |
| YOLOv12 | 88.8 | 59.9 | 54.5 | 34.3 | 31.5 | 204.1 |
| MCIT-IG | 77.4 | 53.6 | 48.4 | 29.6 | 26.0 | 16.0 |
| TDnet(本文) | 89.9 | 61.7 | 55.7 | 36.1 | 33.1 | 126.6 |
* 弱监督方法。可见弱监督管线(Tripnet-Det / RDV-Det)的 mAP\(_{IVT}\) 仅 0.1%,几乎完全失效——它们只靠类别标签,无法解耦共现器械、也无法可靠关联器械与动作/目标,这是「分类标签做不了检测」的直接证据,也是本文要造检测数据集的最有力论据。
Precision–Recall 分析(IVT 分量)¶
| 方法 | Precision | Recall | F1 |
|---|---|---|---|
| Deformable-DETR | 36.1 | 19.7 | 22.7 |
| RT-DETR | 36.4 | 31.5 | 30.9 |
| YOLOv12 | 33.5 | 36.2 | 31.9 |
| TAPIR | 35.2 | 20.3 | 23.4 |
| MCIT-IG | 35.5 | 21.0 | 24.1 |
| TDnet(本文) | 34.7 | 39.7 | 32.8 |
关键发现¶
- 弱监督 vs 全监督鸿沟巨大:弱监督方法 mAP\(_{IVT}\) 几乎为 0,全监督检测器普遍在 25–36%,直接证明空间监督(框)对这个任务不可或缺。
- 专为手术设计的旧方法反而吃亏:TAPIR(依赖稀疏时序标注 + 过时 backbone)和 MCIT-IG(为半监督两阶段设计)在全监督全标注场景下表现不佳,说明它们的归纳偏置不适配「标签完整」的新设定。
- 不均衡远未解决:即便最好的 TDnet,F1 也只有 32.8%,绝对分数偏低,说明重类别不均衡下的手术三元组检测仍有很大改进空间。
- 数据集复杂度更高:ProstaTD 有 58.77% 的帧同时含 ≥3 个三元组实例,而 CholecT50 中 93.25% 的帧 ≤2 个、且没有任何帧 ≥4 个——前列腺手术场景明显更拥挤、更难。
亮点与洞察¶
- 用「框」把弱监督天花板捅破:以往领域被困在帧级分类,本文抓住「缺空间监督」这一根因,直接造检测级标注,弱监督基线接近 0 的对照实验把这个 motivation 钉得非常实。
- 时间边界的临床化定义:把动作分成连续/瞬时/null 三类、用「接触目标」而非「器械入画」+ 2 秒规则切边界,这种「按手术语义而非视觉出现」的标注哲学,可迁移到其它手术视频时序标注任务。
- 半自动 + 五轮迭代的标注工程:用旧检测器预标注 → 多轮人工修正 → 回炉微调的闭环,是大规模医学标注「降本保质」的可复用范式,0.82 Kappa 给了质量背书。
- 多任务 + 实例级自蒸馏对长尾的针对性:TDnet 在精度几乎不降的情况下把召回拉高近 4 个点,说明对三元组分量加辅助监督 + 自蒸馏是缓解长尾的有效手段。
局限与展望¶
- 作者承认:即便最佳模型 F1 仅 32.8%,重类别不均衡下的检测远未解决,留给后续大量空间。
- 数据集规模虽大但仍限于单一术种(前列腺根治术),跨术种的泛化能力未验证;89 类三元组也仍受限于本数据集采集到的术式分布。
- TDnet 仅作为基线给出,自蒸馏 / 多任务的设计细节、消融贡献在正文中较简略(放在附录 E/F),论文重心明显在数据集而非方法创新。
- 改进思路:引入时序建模(跨帧三元组一致性)、面向长尾的重采样/损失、以及用本数据集预训练手术基础模型再迁移到其它术种。
相关工作与启发¶
- vs CholecT45/50:它们是此前唯一用于「程序级」三元组研究的数据集,但只提供帧级类别标签、无框、无明确时间边界,只支持分类;本文提供框 + 临床时间边界 + 多源数据,支持全监督检测,且场景更复杂(前列腺 vs 胆囊)。
- vs CholecQ:提供了类三元组的框标注,但仅限 Cholec80 的 3 秒片段,帧冗余高、时序多样性差、只有 17 类三元组、无法覆盖完整动作,被本文判定为「玩具规模」;ProstaTD 覆盖完整手术、89 类。
- vs ESAD / PSI-AVA:两者本身是前列腺手术资源,但 ESAD 的框粗糙、常把多个器械框在一起,PSI-AVA 只有稀疏标注;本文弃用其原始标注、按统一协议全部重标。
- vs CholecTriplet 2022 弱监督方案(Tripnet-Det / RDV-Det):它们靠 CAM + NMS 弱监督定位,预测含糊、mAP\(_{IVT}\)≈0;本文用全监督框标注直接把检测精度提升一到两个数量级。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 首个全监督手术三元组检测数据集 + 任务重定义,数据贡献扎实,但方法(TDnet)创新有限。
- 实验充分度: ⭐⭐⭐⭐⭐ 13+ 种检测器五折交叉验证基准、弱监督对照、Kappa 一致性、复杂度分布分析,benchmark 很全。
- 写作质量: ⭐⭐⭐⭐☆ 动机与数据集构建讲得清楚,方法(基线)部分相对简略。
- 价值: ⭐⭐⭐⭐⭐ 把整个手术三元组领域从分类推进到检测,配套工具 + 评测 + 基线,基础设施价值高。