Point2RBox-v3: Self-Bootstrapping from Point Annotations via Integrated Pseudo-Label Refinement and Utilization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=9vlS8PSGG7
代码: https://github.com/VisionXLab/Point2RBox-v3
领域: 旋转目标检测 / 弱监督检测
关键词: 点监督, 旋转目标检测, 伪标签, 标签分配, SAM, 分水岭

一句话总结¶

针对"只用一个点标注训练旋转框检测器"这一弱监督任务，本文提出 Point2RBox-v3，用渐进式标签分配（PLA）把伪标签里的尺度信息喂给 FPN 多层标签分配、并用先验引导的动态掩码损失（PGDM-Loss）让 SAM 管稀疏场景、分水岭管密集场景，在 DOTA-v1.0 等六个遥感基准上把点监督旋转检测推到新 SOTA（DOTA-v1.0 两阶段 66.09%）。

研究背景与动机¶

领域现状：旋转目标检测（OOD）在遥感、自动驾驶、场景文字等领域需求旺盛，但标注一个旋转框（RBox）比水平框贵 36.5%、比一个点贵 104.8%，于是"只标点、弱监督学旋转框"成了热门替代路线。当前点监督方法大致分四类：多示例学习/类概率图生成伪框、单样本知识组合、借 SAM 零样本能力的点提示分割、以及用空间布局生成伪标签（如 Point2RBox-v2）。

现有痛点：作者把矛头指向所有端到端方法共有的两个短板——伪标签利用效率低和质量差。利用效率上，端到端方法需要给特征金字塔网络（FPN）做标签分配，而 FPN 的不同层本应负责不同尺度的目标；可是 Point2RBox-v2 这类方法图省事，把所有真值点都丢到同一层，白白浪费了伪标签里本就携带的尺度信息。质量上，Point2RBox-v2 靠"Voronoi 分水岭损失"造掩码当伪标签，但分水岭在稀疏场景（目标稀少、空间线索不足）容易过/欠分割；而 SAM 虽然在稀疏场景更鲁棒，却在密集场景翻车（过分割导致掩码糊成一片），且算力开销大。

核心矛盾：点本身不含尺度，导致标签分配无法直接套用经典的 FPN 多层分配；而单一的伪标签生成器（分水岭 or SAM）各有死角，没有一个在稀疏和密集场景都靠谱。

本文目标：(1) 把伪标签里的粗尺度线索重新利用起来，恢复 FPN 多层标签分配；(2) 让伪掩码生成在稀疏和密集场景都准。

切入角度：作者注意到 Point2RBox-v2 里分水岭伪标签本来只用于损失约束（尺度学习），那么这份尺度信息能不能"一鱼两吃"，再引到标签分配模块里去？同时分水岭和 SAM 的失效场景恰好互补，能不能按场景稀疏程度动态路由、取长补短？

核心 idea：用"伪标签自举"——把模型自己产出的伪标签（含尺度）反哺给多层标签分配（PLA），并按场景稀疏度把掩码生成在 SAM 与分水岭之间动态切换（PGDM-Loss）。

方法详解¶

整体框架¶

Point2RBox-v3 是一个端到端的点监督旋转检测器：输入是图像 \(I\) 和每个实例的中心点标注 \(P=\{(x_i,y_i)\}\)，输出是每个实例的旋转框 \([(x,y),(w,h),\theta]\) 和类别。骨干（Backbone+Neck，FPN）共享，接分类子网和回归子网。围绕"伪标签"做两件事：利用侧用 PLA 把伪标签的尺度信息分配到合适的 FPN 层；质量侧用 PGDM-Loss 按稀疏/密集动态选择 SAM 或分水岭来产掩码监督。其余损失项沿用 Point2RBox-v2。整条管线最关键的一点是：伪标签不是一次性算好就固定，而是随训练阶段动态演化——早期用分水岭区域给个粗尺度，中后期改用网络自己的前向预测框，越训越准，这就是"self-bootstrapping"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：图像 + 点标注"] --> B["共享骨干<br/>FPN + 分类/回归子网"]
    B --> C["渐进式标签分配 PLA<br/>早期用分水岭尺度<br/>中后期用网络预测框"]
    C -->|按训练 epoch 切换| D["把 GT 点分配到<br/>合适的 FPN 层 P2~P6"]
    B --> E["先验引导动态掩码损失 PGDM<br/>实例数≤Nthr 走 SAM<br/>否则走分水岭"]
    E --> F["先验引导选择器<br/>挑最优掩码"]
    D --> G["检测损失 + 掩码回归损失"]
    F --> G
    G --> H["输出：旋转框 + 类别"]

关键设计¶

1. 渐进式标签分配 PLA：把伪标签的尺度信息引回 FPN 多层分配

这一设计针对"点无尺度、所有点被塞进同一 FPN 层、浪费尺度信息"的痛点。经典检测里目标尺度决定它该由 FPN 哪一层负责，但点监督拿不到尺度，前人干脆放弃多层分配——作者指出这正是点监督与全监督差距的主因。PLA 的做法是把原本只服务于损失的伪标签尺度"借"到标签分配上，并且分阶段演化：训练早期用分水岭生成的伪标签估尺度，公式为 \(V=\text{Voronoi}(X)\)、\(S=\text{Watershed}(I,X,V)\)、\(PL=\text{minAreaRect}(S)\)，即先按标注点做 Voronoi 划分、再分水岭得到每个实例的盆地区域 \(S\)、最后取最小外接旋转矩形当伪框。但分水岭区域是静态的，一旦某样本分割得差，这个缺陷会贯穿整个训练无法纠正。所以中后期改用网络的前向预测：对每个 FPN 层，取离目标点最近的锚点预测框作为候选集 \(C_g\)，再按分类置信度挑最优，\(PL_g=\arg\max_{b\in C_g}\text{score}(b)\)。这样伪标签随网络变强而变准，引导真值点被分到越来越合适的 FPN 层（P2~P6）。消融显示切换 epoch 取 3 或 6 最好（选 6），而全程只用分水岭（switch=12）或全程只用网络预测（switch=0）都明显更差，说明"先粗后精"的阶段切换是关键。据作者所知，这是首个用动态伪标签做标签分配的点监督模型。

2. 先验引导动态掩码损失 PGDM-Loss：让 SAM 和分水岭按场景稀疏度分工

这一设计针对"分水岭在稀疏场景差、SAM 在密集场景差且慢"的质量痛点，是对 Point2RBox-v2 的 Voronoi 分水岭损失的增强。核心是一个按图像实例数动态路由的混合损失：一张图的总实例数 \(\le N_{thr}\) 判为稀疏场景，走 SAM 分支；否则判为密集场景，走原分水岭分支。这样既补上了稀疏场景的精度，又保留了分水岭在密集场景的效率，避免对所有图都用 SAM 带来的算力爆炸。作者用轻量的 MobileSAM 当 SAM，且 SAM 只在训练时充当弱监督来源、完全不参与推理，因此不拖慢推理。消融里 \(N_{thr}=4\) 取得最佳 E2E 59.6%，而把 \(N_{thr}\) 设成 \(\infty\)（所有实例都走 SAM）训练时间翻了约四倍、精度反而掉，印证了"分场景"而非"一刀切用 SAM"的必要性。两分支拿到掩码 \(S\) 后统一计算损失：先把掩码旋转对齐当前预测得到回归目标 \(\binom{w_t}{h_t}=2\max R^\top(S-\binom{x_c}{y_c})\)，再用高斯 Wasserstein 距离损失 \(L_{mask}=L_{GWD}(\cdot)\) 算单实例宽高回归损失，整图损失为所有实例的均值 \(L_{PGDM}=\frac{1}{N}\sum_{j}L_j\)。

3. 先验引导选择器：用类相关先验挑出 SAM 真正对的那张掩码

这一设计针对"SAM 在遥感域的原生置信度不可靠"的痛点——SAM 在通用数据上训练，虽能按边缘分割遥感实例，但它给的 native score 常常不能反映掩码质量（最对的那张掩码未必得分最高）。对走 SAM 分支的实例 \(j\)，SAM 会吐一组候选掩码 \(M_j=\{m_1,\dots,m_k\}\)，本文用一个先验引导的打分函数选最优：\(m^*_j=\arg\max_{m_i\in M_j}\sum_k w_{k,c_j}\cdot\phi_k(m_i)\)，其中 \(\phi_k(m_i)\) 是从掩码算出的五个度量（中心对齐、颜色一致性、矩形度、圆形度、长宽比可靠性，⚠️ 细节以原文附录 A.5 为准），\(w_{k,c_j}\) 是按类别 \(c_j\) 的形状先验设的类相关权重（如某类应更接近矩形）。消融（Table 6）显示，若只用 SAM 原生置信度，E2E / 两阶段分别掉 1.75 / 2.5 个点，说明这套先验筛选确实把 SAM 的输出"翻译"成了对遥感更靠谱的监督。

损失函数 / 训练策略¶

总损失在 Point2RBox-v2 各损失项基础上，把分水岭损失替换增强为 PGDM-Loss（单实例用 GWD 宽高回归、整图取均值），其余尺度/布局损失沿用。训练用 ResNet50 骨干、AdamW，学习率 \(5\times10^{-5}\) 起、warm-up 500 iter、分阶段衰减，所有数据集统一训练 12 epoch、仅随机翻转增强、不用多尺度；PLA 切换 epoch 设 6，PGDM 稀疏阈值 \(N_{thr}=4\)。模型同时支持端到端（训完直接测）和两阶段（先造 RBox 伪标签再训一个标准 FCOS）两种用法。

实验关键数据¶

主实验¶

六个遥感/检测基准（DOTA-v1.0/1.5/2.0、DIOR、STAR、RSAR）上均刷新点监督 SOTA：

数据集	指标	本文	之前 SOTA(Point2RBox-v2)	说明
DOTA-v1.0 (两阶段)	AP50	66.09	62.61	+3.48，亦超 SAM 路线 P2RBox(59.04) 7.05
DOTA-v1.0 (端到端)	AP50	59.61	51.00	+8.61
DOTA-v1.5	AP50	56.86	—	六基准之一
DOTA-v2.0	AP50	41.28	—
DIOR	AP50	46.40	—
STAR	AP50	19.60	—
RSAR	AP50	45.96	—

类别级分析显示，提升主要来自大尺寸、低密度类别：桥梁 BR 从 8.0% 飙到 41.6%、环岛 RA 55.4%、足球场 SBF 44.4%——这些正是稀疏点最难推出准确旋转框的类别；而在高密度类别（船、车、飞机等）上与强基线 Point2RBox-v2 持平。

消融实验¶

配置	DOTA E2E	DOTA FCOS(两阶段)	说明
基线(无 PLA / 无 PGDM)	51.0	62.6	Point2RBox-v2 起点
+ PLA	56.6	64.6	单加渐进标签分配
+ PGDM	54.2	63.9	单加动态掩码损失
+ PLA + PGDM (Full)	59.6	66.1	两者叠加最佳
w/o 先验(只用 SAM 原生分)	57.86	63.59	比 PGDM-Loss 掉 1.75 / 2.5

PGDM 稀疏阈值消融：\(N_{thr}=4\) 时 E2E 59.6%、训练 19.5h；\(N_{thr}=\infty\)（全走 SAM）精度掉到 57.2%、训练却要 79.0h，约四倍开销。

关键发现¶

PLA 与 PGDM 互补可叠加：单加 PLA 增益最大（端到端 +5.6），单加 PGDM 也有正收益，两者叠加再上一个台阶，说明"利用效率"和"质量"是两条相对独立的改进维度。
阶段切换是 PLA 的命门：全程用网络预测或全程用分水岭都比中途切换差很多，验证了"早期粗尺度托底、中后期自举精修"的设计直觉。
SAM 必须分场景 + 配先验：无脑全用 SAM 既慢又掉点；用原生置信度选掩码也掉点——SAM 的价值要靠"稀疏才用 + 先验筛选"才能释放。
方法可迁移：把 PLA、PGDM 模块嫁接进部分弱监督框架 PWOOD（10%/20%/30% 点标注 + 大量无标注），在 DOTA-v1.0/1.5 各比例下均稳定提升（如 DOTA-v1.0 full 从 PWOOD 的 55.87 提到 64.57），证明其通用性。

亮点与洞察¶

"伪标签一鱼两吃"：把本来只用于损失约束的伪标签尺度，复用到 FPN 多层标签分配上——几乎零额外成本就补回了点监督与全监督的主要差距来源，思路很巧。
按数据特性路由两种弱监督器：分水岭与 SAM 的失效场景天然互补，用"实例数阈值"这个极简信号做动态路由，既避开 SAM 的算力坑又拿到它在稀疏场景的红利。
承认基础模型置信度不可信并给出补丁：先验引导选择器是一个可迁移的 trick——当用通用大模型（SAM）做特定域弱监督时，别信它的原生分，用域先验度量重排候选，这一经验对其他"借 SAM 当伪标签"的工作普遍适用。
训练用 SAM、推理不用：把昂贵大模型限制在训练期当监督源，保住推理速度，是弱监督里实用的工程取舍。

局限与展望¶

依赖人工设定的类相关先验：PGDM 的五个度量与类权重 \(w_{k,c_j}\) 需按"期望形状"等先验设定，迁到先验未知或形状多变的新域时需要重调，自动化程度有限。
稀疏判定用全局实例数较粗：用整图实例数 \(\le N_{thr}\) 判稀疏，对"同一图局部稀疏局部密集"的情形可能不够精细。
横向比较需谨慎：六个基准的绝对 AP 差异很大（STAR 仅 19.60），不同数据集难度悬殊，跨数据集比大小意义有限；端到端与两阶段也不可直接混比。
改进方向：可探索可学习/自适应的稀疏路由与掩码打分先验，减少手工调参；或把 PLA 的"自举尺度"思想推广到水平框、视频等更多弱监督设定。

评分¶

新颖性: ⭐⭐⭐⭐ 首个用动态伪标签做多层标签分配、并按场景互补融合 SAM 与分水岭，角度新颖且切中点监督痛点
实验充分度: ⭐⭐⭐⭐⭐ 覆盖六个基准 + 类别级分析 + 多组消融（模块/切换 epoch/阈值/先验）+ PWOOD 迁移
写作质量: ⭐⭐⭐⭐ 动机与方法清晰，配图到位；部分指标定义需查附录
价值: ⭐⭐⭐⭐ 低成本提升弱监督旋转检测，模块可迁移，对"借大模型做域内弱监督"有普适启发