RoadGIE: Towards A Global-Scale Aerial Benchmark for Generalizable Interactive Road Extraction¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/chaineypung/RoadGIE
领域: 遥感
关键词: 路网提取, 交互式分割, 遥感基准, 拓扑连通性, 涂鸦提示
一句话总结¶
本文先造了 WorldRoadSeg-360K——一个覆盖 38 国 223 城、36.7 万张像素级标注的全球航拍路网分割基准,再基于它提出 RoadGIE:一个仅 3.7M 参数、支持点击/涂鸦"连通性感知"交互的实时路网提取框架,在分割精度和拓扑一致性上都刷到 SOTA,同时把人工标注时间砍掉约 79%。
研究背景与动机¶
领域现状:从航拍/卫星影像里提取道路是地图更新、空间结构分析、GIS 构建的基础任务。现有数据集分两类——图标注(vector centerline,如 Global-Scale、SpaceNet)和分割标注(pixel mask,如 DeepGlobe、LSRV)。
现有痛点:没有一个数据集能同时兼顾场景多样性、语义粒度、结构连续性。Global-Scale 虽然全球覆盖,但用的是 OSM 矢量中心线,丢了道路宽度和边界连续性,做不了细粒度分割;LSRV 是高精度像素级 mask,但样本少、几乎只覆盖城市,缺多样地形和复杂形态。多数像素级数据集还被局限在单个国家或城市。
核心矛盾:道路是高长宽比、强连续、拓扑敏感的细长结构。纯自动分割模型容易输出断裂的路网;而 SAM 这类交互式基础模型虽泛化强,但点/框提示只能给粗糙的空间线索,与路网拓扑天然不对齐,再叠加高延迟和用户意图歧义,交互体验很差。
本文目标:(1) 造一个真正全球尺度、像素级、地形多样的路网分割基准;(2) 设计一个交互范式,让提示形式与道路形态对齐,并在多轮交互中保持结构一致、不退化。
切入角度:作者的观察是——视觉提示的形式应当匹配目标物体的形态特征。涂鸦(scribble)本身就编码了形状、连续性和连通性,比孤立的点更适合细长道路,且更接近标注员的真实操作习惯。
核心 idea:用"连通性感知提示(点击+涂鸦)+ 难区引导 + 拓扑感知损失"替代点/框提示来做交互式路网提取,并配一个全球尺度数据集把泛化打满。
方法详解¶
整体框架¶
本文是"基准 + 方法"双轨。基准侧是 WorldRoadSeg-360K:366,947 张 512×512、0.8–1.1m 分辨率的卫星图,跨 38 国 223 城(除南极外所有大陆),并额外用 LSRV 的 1,789 张图(Boston/Birmingham/Shanghai)当 OOD 测试集来考察跨域泛化。数据靠 Google Static Maps 取图、OSM 取粗标,再用 SAM/HQ-SAM/RobustSAM 把粗标当 prompt 精修融合,最后人工分高/低质量子集。
方法侧是 RoadGIE 的迭代式交互流程:第 \(n\) 轮输入当前图像 \(x\)、上一轮预测 \(M_n=\hat{y}_{n-1}\)(\(M_0=\mathbf{0}\))和一组提示 \(P_n\),网络输出更新预测 \(\hat{y}_n = f_\theta(x, M_n, P_n)\)。预测与 GT 比对得到误差图,由模拟标注器在出错处生成纠正提示,回灌进下一轮,循环若干步直到精度达标。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["航拍图 x + 上轮 mask Mₙ + 提示 Pₙ"] --> B["连通性感知交互 + DAM<br/>轻量 UNet 沿主方向聚合保连通"]
B --> C["预测 mask ŷₙ"]
C -->|与 GT 比对得误差图 εₙ| D["难区引导采样 + 拓扑语义实例化<br/>在不确定区生成点/涂鸦、消解意图歧义"]
D -->|n←n+1 回灌| A
C -->|仅训练时监督| E["Prompt-excluded Skeleton Loss<br/>只在非提示区做骨架监督,抗多轮退化"]
关键设计¶
1. WorldRoadSeg-360K:全球尺度像素级路网分割基准
针对"现有数据集顾此失彼"的痛点,作者从全球城市普查出发,系统选取 15–45km 的矩形区域覆盖不同规模城市,每个区域含密集城区、乡村、山地等多种地形。构建流程是一条半自动管线:Google Static Maps 取高分卫星图、OSM 取粗略道路标注,把粗标当 prompt 喂给 SAM、HQ-SAM、RobustSAM 多个 SOTA 分割模型,融合多模型输出与原始标注得到精修 mask,再人工校验分成高/低质量两档(高质量子集留作后期微调)。最终规模 366,947 张图、223 城、38 国,地理覆盖约为 Global-Scale 的 4 倍,并单独留 LSRV 全量作 OOD 测试集。它的价值不只是"大",而是同时把像素级精度、地形多样性、跨域评测三件事凑齐,能当通用预训练基准(Table 3 验证)。
2. 连通性感知交互 + DAM:让提示和网络都顺着路网拓扑走
针对"点/框提示与道路形态不对齐"的痛点,RoadGIE 在两端都注入连通性先验。提示端支持点击和涂鸦,训练时用 prompt simulation 合成"类用户纠正"——每轮算误差图 \(\varepsilon_n = y - \hat{y}_{n-1}\),在纠正区域 \(V\) 里采样:点提示按中心偏置的距离变换采样 \(P(x)=\dfrac{\exp(\alpha E(x))}{\sum_{z\in V}\exp(\alpha E(z))}\)(\(E\) 为 \(V\) 内归一化欧氏距离变换,\(\alpha\in[1,10]\) 控中心偏置);涂鸦则分中心涂鸦(从 \(V\) 的骨架截取)、直线涂鸦、贝塞尔涂鸦(三控制点拟合的平滑曲线)三种,并加平滑位移场扰动模拟真实抖动。网络端用轻量 UNet 主干,在解码器输出接 方向聚合模块 DAM:对四个方向 \(D\in\{(1,0),(0,1),(1,1),(-1,1)\}\) 各做 1D 卷积捕捉长程方向依赖,\(Z_D[i,j,c]=\sum_{l=-k}^{k} F_n[i+l d_h, j+l d_w, c]\cdot w_D[k-l]+b_D\),再 concat + \(1\times1\) 卷积 + sigmoid 出二值 mask。沿主方向聚合特征,正好补上道路被遮挡处的断裂。
3. Expert-guided prompt 与拓扑语义实例化:把监督导向难区、消解用户意图歧义
这一组设计专治"模型在简单区反复刷分、却学不会难区,且用户意图模糊"的问题。Expert-guided prompt(EG-Prompt) 用一组预训练分割模型 \(\{M_j\}_{j=1}^N\) 与 GT 的平均绝对误差作不确定性图 \(U(x)=\frac{1}{N}\sum_j |M_j(x)-y|\),再把提示采样概率写成 \(P(u{=}{+}1\mid x)=\dfrac{U(x)^\beta}{\sum_{z\in\Omega} U(z)^\beta}\)(\(\beta>1\) 控尖锐度),让正提示更多落在高不确定的遮挡/模糊路段,逼模型从难样本里学。拓扑语义耦合实例化(Algorithm 1) 则解决"有人只想标主干道、有人要标所有路"的歧义:模型不直接出 mask,而是先用 \(F_{clean}\) 规整道路结构、\(F_{thin}\) 抽中心线、\(F_{attr}\) 算段级属性并分组,再用一个 prompt 条件打分器 \(\text{Score}(\cdot, q; \theta_{sel})\) 对候选段按与提示的相关性排序,选出 top 段后用 \(\Psi\) 迭代扩张、\(F_{refine}\) 精修。把"实例化"推迟到结构抽象之后,模型对不同地区、不同提示风格的泛化更稳。
4. Prompt-excluded skeleton loss:只在非提示区做骨架监督,抑制多轮退化
作者观察到一个反直觉现象:多轮交互反而掉点——后面的提示会覆盖前面已正确的区域,最后只剩稀疏的细线痕迹(Fig 5)。根因是骨架类损失若全图施加,会在已被提示充分监督的区域过拟合。解法是把骨架召回损失只作用在非提示区:定义提示掩码 \(\mathcal{M}_n\)(被提示覆盖处为 1),用 \(\bar{\mathcal{M}}_n = 1 - \mathcal{M}_n\) 限制骨架项的计算范围。总损失为 Focal + Soft Dice + Prompt-excluded Skeleton 三项之和,其中骨架项形如 \(\dfrac{\sum_i \bar{\mathcal{M}}_n[i]\cdot\hat{y}_i\cdot \text{Skel}(y_i)+\epsilon}{2\sum_i \bar{\mathcal{M}}_n[i]\cdot \text{Skel}(y_i)+\epsilon}\)。这样把学习压力导向尚未标注的路级几何,而不是在用户已经标好的地方反复纠结,从而跨轮保持连通性。
损失函数 / 训练策略¶
总损失 \(\mathcal{L}_{total}\) = Focal Loss + Soft Dice Loss + Prompt-excluded Skeleton Loss(上式公式 6)。训练每个 batch 跑 5 轮交互、每轮 1–3 个提示;数据增强含旋转、翻转、对比度/亮度调整、高斯模糊;bf16 精度、AdamW、初始学习率 0.0003、cosine 调度,4×RTX 3090 (24GB) 训练。
实验关键数据¶
主实验¶
在 Baseline dataset(多个路网数据集合并)和 WorldRoadSeg-360K 上对比各交互式分割模型(点+涂鸦提示,5 轮交互后):
| 方法 | Baseline Dice↑ | Baseline APLS↑ | WorldRoadSeg Dice↑ | WorldRoadSeg APLS↑ |
|---|---|---|---|---|
| EISeg | 0.701 | 0.511 | 0.706 | 0.515 |
| ScribbleSeg-B3 | 0.761 | 0.556 | 0.788 | 0.580 |
| SAM (ViT-h) | 0.738 | 0.539 | 0.756 | 0.553 |
| PRISM-2D | 0.622 | 0.463 | 0.643 | 0.481 |
| ScribblePrompt | 0.791 | 0.584 | 0.809 | 0.592 |
| RoadGIE | 0.807 | 0.593 | 0.835 | 0.620 |
RoadGIE 在两个数据集上都拿第一,比次优的 ScribblePrompt 分别高 1.6 / 2.6 Dice 点,而其它模型在两个数据集上的提升都不超过 0.8 点。
消融实验¶
数据集泛化(固定 LSRV 为测试集,5 轮交互后)——验证 WorldRoadSeg-360K 当预训练集的价值:
| 预训练数据集 | Dice↑ | Recall↑ | clDice↑ | APLS↑ | β0↓ | β1↓ |
|---|---|---|---|---|---|---|
| Global-Scale | 0.686 | 0.605 | 0.783 | 0.512 | 13.582 | 37.886 |
| Baseline dataset | 0.807 | 0.897 | 0.869 | 0.593 | 8.150 | 3.061 |
| WorldRoadSeg-360K | 0.835 | 0.934 | 0.905 | 0.620 | 5.823 | 2.752 |
损失策略消融(5 轮均值)——验证 prompt-exclusion 该配哪种损失:
| Prompt-exclude 配置 | Dice↑ | APLS↑ | 说明 |
|---|---|---|---|
| 全图(不排除) | 0.818 | 0.603 | 基准 |
| Focal 上排除 | 0.806 | 0.595 | 反而掉点,局部损失不适合排除 |
| Dice 上排除 | 0.823 | 0.609 | 略升 |
| Skeleton-recall 上排除 | 0.829 | 0.615 | 骨架级结构监督 + 排除最契合 |
关键发现¶
- WorldRoadSeg-360K 当预训练集全面碾压:相比 Global-Scale,β0(连通分量数)从 13.58 降到 5.82、β1(环洞数)从 37.89 降到 2.75,拓扑断裂与冗余环大幅减少;矢量中心线数据(Global-Scale)训出来的模型连通性最差。
- EG-Prompt 在后期轮次增益最大(Table 4):第 5 轮 Dice +2.7、APLS +2.9;因为后几轮标注员都在啃硬区,正好对应 EG-Prompt 把监督导向难样本的设计意图。
- 提示类型上贝塞尔涂鸦最强:10 轮后 Dice 达 87.1,明显优于点提示(<80);点提示在高长宽比道路上难以提供连通性先验,印证"提示形态要匹配目标形态"的核心假设。
- 效率与可用性:仅 3.7M 参数,GPU 单次预测 39.52ms(仅次于 ScribblePrompt 的 30.76ms,远快于 SAM-ViT-b 的 283.65ms);用户研究里把人工标注 Dice 0.827 提到 0.885(达专家级),单图标注时间从 73s 降到 15s(约 7 次交互),省时约 79%。
亮点与洞察¶
- "提示形态匹配目标形态"是贯穿全文的统一观点:从涂鸦设计到 DAM 方向聚合,再到骨架损失,都在围绕"道路是细长连通结构"这一先验做文章,逻辑自洽且可迁移到血管、河流等管状目标分割。
- Prompt-excluded skeleton loss 是个反直觉但巧妙的 trick:发现"多轮交互越标越差"后,用提示掩码把骨架监督挡在已标注区之外,把模型注意力逼向未标注的路级几何——这种"把监督从已知区移开"的思路可复用到任何 human-in-the-loop 迭代任务。
- 拓扑语义实例化"先抽象后实例化":通过中心线/段属性/可学习打分器把用户意图对齐到结构化表示,再延迟实例化,缓解了"主干道 vs 全部道路"这类标注口径不一致带来的训练噪声。
- 半自动多模型融合造数据:用现成 SAM 家族把 OSM 粗标精修成像素 mask,把构造大规模高精度数据集的成本压下来,是工程上很实用的数据飞轮范式。
局限与展望¶
- 作者承认:数据与模型都基于 0.8–1.1m 分辨率遥感图,可能难以泛化到更高分辨率场景;受 GPU 显存所限,训练只跑 6 轮交互,复杂场景推理时可能需要更多轮,超出训练分布会影响精度。
- 自己发现:⚠️ 拓扑语义实例化(Algorithm 1)的可视化与定量证据被放在补充材料,正文只给了定性结论,其相对其它组件的独立增益未在正文清晰量化;半自动标注用 SAM 家族精修 OSM 粗标,数据 mask 质量上限受这些预训练模型在遥感域的表现约束,可能引入系统性偏差。
- 改进思路:可探索分辨率自适应或多尺度训练以放宽 0.8–1.1m 的约束;把交互轮数从固定 6 轮改为按不确定性自适应早停,缓解训练/推理轮数不匹配。
相关工作与启发¶
- vs ScribblePrompt:两者都用涂鸦模拟引擎训练交互模型,但 ScribblePrompt 面向医学分割、通用涂鸦;RoadGIE 专门注入道路连通性先验(DAM + 骨架损失 + 拓扑实例化),在路网上高出 1.6–2.6 Dice,且参数更省。
- vs SAM 家族(含 HQ-SAM/RobustSAM):SAM 用点/框提示做类无关分割、泛化强但对细长遮挡结构粗糙;RoadGIE 用连通性感知提示对齐路网拓扑,且把 SAM 家族当作数据构造工具而非最终模型。
- vs Global-Scale 数据集:Global-Scale 靠 OSM 矢量中心线实现全球覆盖但丢宽度与边界连续性;WorldRoadSeg-360K 提供像素级 mask、地形更多样、规模约 4 倍,连通性指标(β0/β1)显著更好。
- vs clDice / 骨架损失系列:传统骨架损失全图施加易过拟合;本文把它适配到交互场景并加 prompt-exclusion,专门抗多轮交互退化。
评分¶
- 新颖性: ⭐⭐⭐⭐ 全球尺度像素级路网基准 + 连通性感知交互范式,数据与方法都有实质贡献,但单项组件多为已有思路的领域化适配。
- 实验充分度: ⭐⭐⭐⭐ 主对比 + 数据集/损失/提示类型/EG-Prompt 多维消融 + 用户研究 + 运行时,较扎实;拓扑实例化的独立量化稍欠。
- 写作质量: ⭐⭐⭐⭐ 动机与设计对应清晰,公式完整;部分组件证据外置到补充材料。
- 价值: ⭐⭐⭐⭐⭐ 提供可当通用预训练集的大规模基准 + 3.7M 实时模型,标注提效 79%,对遥感路网社区落地价值高。