SFR-Net: Steering-Fusion-Refining Network in Multi-label Zero-Shot Sewer Defect Detection¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/infinitycan/SFR-Net (有)
领域: 多标签零样本 / 工业缺陷检测 / 视觉-语言对齐
关键词: 多标签零样本学习, 下水道缺陷检测, CLIP域适配, 图卷积, 参数高效微调

一句话总结¶

SFR-Net 用「调向（RS）→ 融合（MEF）→ 精修（GR）」三段式流水线把 CLIP 改造到下水道缺陷场景，先用轻量适配器把表征引向管道域、再融合全局与局部证据出初始分、最后用 GCN 从可见类学到一套可迁移的"打分修正逻辑"补到未见类上，在 Sewer-ML 和自建 WZ-Pipe 两个数据集的多标签零样本任务上刷到 SOTA（Sewer-ML ML-ZSL mAP 12.58%，约为次优方法的两倍）。

研究背景与动机¶

领域现状：市政下水道缺陷检测本质是一个多标签图像识别任务——一张管道内壁图里可能同时有变形、堵塞、裂缝、树根入侵等多种缺陷。主流做法是在 Sewer-ML 这类数据集上训 CNN/GNN 多标签分类器，闭集性能不错。

现有痛点：管道场景标注成本极高，而且很多罕见缺陷要管道运行几十年才出现，早期训练样本极度稀缺，导致严重长尾甚至某些类别完全没有样本可学。多标签零样本学习（ML-ZSL）本是出路——借助词嵌入/语义知识从可见类迁移到未见类，但现有 ML-ZSL 方法在这个专业域里全都水土不服：基于属性的方法要人工定义庞大属性矩阵、扩展性差；基于 CLIP 等 VLM 的方法受困于下水道数据与预训练数据之间的巨大域间隙；CoOp/CoCoOp 这类提示微调方法因为冻结图像编码器、缺乏域适配和细粒度特征提取能力，面对昏暗光照、细微裂缝时仍然失败。

核心矛盾：作者把根因归结为一个叫对齐歧义（Alignment Ambiguity）的问题——管道内部复杂的视觉环境与往往稀疏的语义描述之间，无法建立鲁棒且细粒度的视觉-语义对齐。一方面图像编码器没被调到管道域，提取的特征本身就糊；另一方面全局 CLS 特征丢了识别细微缺陷所需的局部细节；再加上未见类缺乏直接监督，打分容易跑偏。

本文目标：在不引入大量参数、不破坏 CLIP 泛化能力的前提下，把对齐歧义逐级化解，让模型既能识别可见缺陷又能泛化到从未见过的缺陷类别。

切入角度：与其一步到位硬对齐，不如把"消歧"拆成渐进的三步——先把表征"调向"管道域（解决特征不适配），再"融合"多粒度证据得到可靠初判（解决细节丢失），最后从可见类关系里"精修"打分逻辑并迁移到未见类（解决零样本打分跑偏）。

核心 idea：用三阶段的 Steering-Fusion-Refining 流水线渐进消解视觉-语义对齐歧义，并用一条"可迁移的打分修正技能"把零样本泛化能力补齐。

方法详解¶

整体框架¶

SFR-Net 建立在冻结的 CLIP（ViT-B/16）双编码器之上，图像和文本编码器主干全程不训练。输入一张管道图像，输出是对全部缺陷类别（含训练时从未出现的未见类）的多标签预测分数。整条流水线分三段：RS 在编码器每一层并行插入轻量适配器，把中间表征持续"引向"管道域；MEF 在调好向的特征上，分全局/局部两条解耦路径产出初始预测分 \(S_{\text{initial}}\)；GR 用一张由语义相似度构建的类别邻接图驱动 GCN，从可见类学到一套"打分修正"技能，算出修正量 \(S_{\text{correct}}\) 加回去得到最终分 \(S_{\text{final}}\)。文本侧的语义描述则由 LLM 预先生成（详细描述供 CLIP 文本编码器编码、显式短语供 GR 构图），整套用一个组合损失 \(\mathcal{L}_{\text{scl}}\) 端到端训练。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["管道图像 + 缺陷类别"] --> B["LLM 语义描述生成<br/>详细描述 + 显式短语"]
    B --> C["表征调向 RS<br/>每层并行瓶颈适配器<br/>引向管道域"]
    C --> D["多粒度证据融合 MEF<br/>全局路径 + 局部路径<br/>→ 初始分 Sinitial"]
    D --> E["广义关系打分精修 GR<br/>语义邻接图 + GCN<br/>→ 修正量 Scorrect"]
    E -->|"Sinitial + Scorrect"| F["最终多标签预测 Sfinal<br/>含未见缺陷类"]

关键设计¶

1. LLM 定制化缺陷描述生成：把"一张照片是X"换成域专家级文本

现有 ML-ZSL 大多只用 "A photo of a [Category]" 这种固定模板，在充斥专业术语的下水道场景里语义太单薄，文本特征不鲁棒，对齐自然糊。作者改用 LLM（实现里是 Gemini-2.5 Flash）为每个缺陷码生成两种文本：详细描述（Detailed Description）——一句域专属、严格控制在 77 token 以内（CLIP 上下文长度）的句子，喂给 CLIP 文本编码器产出鲁棒语义特征；显式短语（Explicit Phrase）——一个简洁无歧义的名词短语，专门用于 GR 模块构建类别邻接矩阵。提示词里塞进角色设定、参考标准（丹麦 TVinspektion 排水管道检测规范）和格式约束，把 LLM 的专业知识逼出来。消融（表4）显示：人工短描述反而最差（细粒度语义不足），固定模板因继承了 CLIP 的结构对齐居然超过人工描述，而 LLM 增强描述在所有任务上最好——证明高语义密度的域专属文本是泛化的关键燃料。

2. 表征调向 RS：用每层瓶颈适配器把 CLIP 拽进管道域而不遗忘

把 CLIP 用到零样本缺陷检测，核心难题是既要跨过域间隙、又不能灾难性遗忘——表5 证明全量微调（All-Finetune）会让可见类知识崩坏。受 PEFT 启发，RS 在图像/文本编码器的每个 Transformer 层旁并行插入一个独立的 RS Block：给定输入特征 \(X_{\text{in}}\)，经一个瓶颈结构（维度 \(D\to d\to D\)，\(d=128\)）算出域专属修正量

\[X_{\text{rs}} = \text{Linear}_2(\text{Dropout}(\text{GeLU}(\text{Linear}_1(X_{\text{in}}))))\]

再以残差形式叠回原层输出：\(X_{\text{out}} = \text{TransformerLayer}(X_{\text{in}}) + X_{\text{rs}}\)。这种"残差域特征学习"把连续、渐进的域调向叠加在中间表征上，主干冻结所以不遗忘，又能针对昏暗光照、细微裂缝锻造专业特征。代价极小：整个模型可学习参数仅 6.05M（表7），却把 ML-GZSL mAP 从 CLIP 基线的 9.92% 一举拉到 39.62%。表5 还揭示一个权衡：partial-finetune（只调末三层）保泛化最好但 F1 和 GZSL 偏弱，train-vision（只调图像编码器）灾难性遗忘最严重，逐层 RS 是最平衡的方案。

3. 多粒度证据融合 MEF：全局判大局、局部抠细节，分数相加

CLIP 图像编码器只输出一个全局 CLS 向量做对齐，它擅长抓整体语境，却因信息聚合丢失了识别细微缺陷的局部细节。MEF 用两条互补路径解耦这件事。全局路径：拿全局图像特征 \(X_g\) 与文本特征 \(T_l\) 直接算余弦相似度，得每类的整体匹配分 \(S_{\text{glb}}=\cos(X_g, T_l^\top)\)，提供稳定的整体判断。局部路径：先算局部图像特征 \(X_l\in\mathbb{R}^{P\times D}\)（\(P=196\) 个 patch）与文本的逐元素亲和度，并沿局部 token 维做 Softmax 得到每类的位置权重 \(W_{\text{affinity}}=\text{Softmax}(\cos(X_l, T_l^\top))\)；再用其转置加权聚合局部 token，为每类生成专属的局部证据特征，过一个 MLP 得局部匹配分 \(S_{\text{loc}}=\text{MLP}(W_{\text{affinity}}^\top \cdot X_l)\)。最后逐元素相加 \(S_{\text{initial}}=S_{\text{glb}}+S_{\text{loc}}\)。这样既保留全局稳定决策、又补回细粒度信息，缓解全局聚合的信息损失。消融里 MEF 给 ML-ZSL mAP 再添 1.45%。

4. 广义关系打分精修 GR：从可见类学一套"打分修正逻辑"迁移给未见类

零样本最大的痛是未见类没有直接监督、初判分容易跑偏。GR 的归纳假设很巧：打分之间相互作用的逻辑规律在所有类别上是通用的，所以可以从可见类的关系里学到这套修正逻辑，推理时迁移给未见类。具体做法：先把 LLM 生成的显式短语用 CLIP 原始文本编码器编成语义向量 \(T_s\)，算余弦相似度矩阵 \(M=\cos(T_s, T_s^\top)\)；再用阈值 \(\gamma=0.85\) 二值化成邻接矩阵 \(A\)（\(M_{ij}>\gamma\) 且 \(i\neq j\) 时 \(A_{ij}=1\)）；加自环、对称归一化得 \(\tilde{A}=\hat{D}^{-1/2}\hat{A}\hat{D}^{-1/2}\)。然后把 MEF 的初始分 \(S_{\text{initial}}\) 当作图节点特征，跑两层 GCN 学出修正量

\[S_{\text{correct}} = \tilde{A}\left[\text{ReLU}\left(\tilde{A}\,S_{\text{initial}}\,W^{(0)}\right)\right]W^{(1)}\]

其中 \(W^{(0)}\in\mathbb{R}^{1\times 64}\)、\(W^{(1)}\in\mathbb{R}^{64\times 1}\) 是可学习权重。最终分 \(S_{\text{final}}=S_{\text{initial}}+S_{\text{correct}}\) 更具逻辑一致性。关键在于 GCN 学的是"如何根据邻类分数修正本类分数"这个与具体类别无关的技能，所以未见类即使没监督也能借邻接关系被修正。表6 证明：把语义邻接换成单位阵（GCN 退化成 MLP）ML-ZSL mAP 从 12.58% 暴跌到 7.74%，随机矩阵居然比单位阵好（随机交换带来正则化），但语义相似度矩阵显著领先两者。

损失函数 / 训练策略¶

组合损失叫协同对比损失 \(\mathcal{L}_{\text{scl}}=\mathcal{L}_{\text{mmc}}+\lambda\mathcal{L}_{\text{rank}}\)（\(\lambda=10\)）。多匹配对比损失 \(\mathcal{L}_{\text{mmc}}\)（沿用 RAM 设计）在 batch 范围内拉近图像与正类标签、推远所有负类，温度 \(\tau=0.1\)，分母对整个 batch 的所有分数求和作为综合负集。Rank 损失 \(\mathcal{L}_{\text{rank}}=\frac{1}{|\mathcal{P}|}\sum_{(i,j)\in\mathcal{P}}\max(0, m+S^{(i)}_{\text{negative}}-S^{(i,j)}_{\text{positive}})\) 强制每个正标签分数比最难负标签高出 margin \(m=0.2\)，专治复杂管道场景下的排序。训练用 CLIP ViT-B/16（编码器冻结），AdamW（lr \(10^{-3}\)，weight decay \(10^{-4}\)），输入 \(224\times224\)（196 patch），8 epoch，batch size 896，单卡 RTX 3090。

实验关键数据¶

主实验¶

两个数据集：公开的 Sewer-ML（130 万图、17 类，取最稀有 5 类作未见类）和自建私有 WZ-Pipe（63,978 图、17 类，同样取最稀有 5 类）。评测用 mAP 和 Top-K 的 P/R/F1。所有对比方法在同一环境复现。

数据集 / 任务	指标	SFR-Net	次优方法	提升
Sewer-ML / ML-ZSL	mAP	12.58	DualCoOp 6.58	+6.00（约2×）
Sewer-ML / ML-ZSL	F1@1	13.59	ML-Decoder 8.22	+5.37
Sewer-ML / ML-GZSL	mAP	43.28	ML-Decoder 38.57	+4.71
WZ-Pipe / ML-ZSL	mAP	9.88	ML-Decoder 4.07	约2.4×
WZ-Pipe / ML-GZSL	mAP	37.42	MKT 26.99	+10.43

SFR-Net 在两个数据集、ML-ZSL 与 ML-GZSL 四个设定上全面 SOTA，尤其零样本 mAP 普遍接近或超过次优方法的两倍，验证了对未见缺陷类的泛化能力。

消融实验¶

模块逐级累加（Sewer-ML，表3）：

配置	ML-ZSL mAP	ML-GZSL mAP	说明
CLIP 基线（无任何模块）	4.94	9.92	直接用 CLIP，几乎不可用
+RS	8.36	39.62	域调向是涨幅最大的一步
+RS +MEF	9.81	40.81	局部细节再补 ML-ZSL +1.45
+RS +MEF +GR	12.25	41.54	打分修正显著拉高零样本
完整（+Lrank）	12.58	43.28	Rank 损失收尾

其他关键消融：文本策略（表4）LLM 描述 12.58 > 固定模板 7.13 > 人工描述 6.90；邻接矩阵（表6）语义 12.58 > 随机 8.28 > 单位阵 7.74；微调策略（表5）逐层 RS 在 F1 与 GZSL 上最平衡。

关键发现¶

RS 是贡献最大的单一模块：仅它一项就把 ML-GZSL mAP 从 9.92% 拉到 39.62%（绝对涨幅近 30 个点），说明把 CLIP 表征调向管道域、跨越域间隙是这个场景成败的根本。
GR 主要吃零样本红利：从 9.81→12.25 的 ML-ZSL mAP 跳跃几乎全归功于 GR，证明"可迁移打分修正逻辑"这个假设在未见类上确实成立；而它对 GZSL 提升相对温和（40.81→41.54）。
轻量却高效：可学习参数仅 6.05M、FLOPs 110.62G，与 RAM（13.02M）相当甚至更省，却把 mAP 从 RAM 的 4.01/23.88 提到 12.58/43.28（表7），是精度-开销权衡里的最优点。
Grad-CAM 定性（图4）：SFR-Net 对长裂缝、大面积树根/沉积、细小入渗等不同尺度缺陷都能精准聚焦，而 RAM 注意力分散，印证其视觉-语义对齐更鲁棒。

亮点与洞察¶

"打分逻辑可迁移"这个归纳假设是全文最巧的一笔：它没有去对齐未见类的视觉/语义（那本来就难），而是把可见类之间"分数如何相互修正"抽象成一个类别无关的技能，用 GCN 学下来再迁移——这是绕开零样本无监督困境的聪明侧路，可迁移到任何多标签零样本场景（不限于下水道）。
三阶段各打一个痛点、互不重叠：RS 治"特征没调到域"、MEF 治"全局丢细节"、GR 治"零样本打分跑偏"，消融里每一步都有独立增益，这种"对齐歧义逐级消解"的拆法本身就是可复用的设计模板。
用 LLM 当"语义放大器"而非分类器：让 LLM 按检测规范生成两类用途不同的文本（描述供编码、短语供构图），把领域知识注入零样本管线，这种"文本侧增强"几乎零成本就能迁移到其他专业域（医学、遥感、工业质检）。
参数高效到 6M 还反超重型方法：逐层瓶颈适配器 + 冻结主干，既防遗忘又省算力，对工业落地很友好。

局限与展望¶

绝对精度仍然偏低：ML-ZSL mAP 只有 12.58%（WZ-Pipe 9.88%），虽是 SOTA 但离实用还远——零样本下水道缺陷检测本身极难，论文也没回避，但读者需注意这是"相对领先"而非"绝对可用"。
作者承认的局限：模型会对背景特征（隐私遮挡区、检测设备）产生虚假注意力；目前只做分类、没做细粒度缺陷分级（严重程度评估），而后者才是实际养护决策需要的。
关键超参依赖经验设定：邻接阈值 \(\gamma=0.85\)、rank margin \(m=0.2\)、\(\lambda=10\) 等都是固定值，论文正文未给敏感性分析（称在补充材料里），跨数据集泛化性存疑。
未见类选取方式偏理想：两个数据集都把"最稀有 5 类"当未见类，这与真实场景中"全新出现的缺陷类型"分布可能不同，零样本能力的外推性还需更贴近实战的设定验证。
可改进方向：GR 的邻接图是静态二值的，可探索可学习/软邻接；MEF 的全局+局部简单相加，或许加权融合/注意力门控能更好；背景虚假注意力可用前景掩码或对比正则缓解。

评分¶

新颖性: ⭐⭐⭐⭐ "打分逻辑可迁移"假设 + 三阶段消歧框架在专业域 ML-ZSL 上是首次成功应用，组合扎实但单个模块（PEFT 适配器、GCN 修正、多粒度融合）多为已有思想的巧妙拼装。
实验充分度: ⭐⭐⭐⭐ 两数据集×两任务全面对比 + 6 张消融表 + Grad-CAM + 参数/FLOPs 分析，逻辑完整；扣分在超参敏感性和部分细节挪到补充材料。
写作质量: ⭐⭐⭐⭐ "对齐歧义→三阶段消解"主线清晰、公式与图配套；个别表述略堆砌形容词。
价值: ⭐⭐⭐⭐ 解决了高标注成本、长尾稀缺的真实工业痛点，开源 WZ-Pipe 数据集 + 代码，零样本工业缺陷检测有现实意义；绝对精度偏低限制了即刻落地。