FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy¶

会议: CVPR 2026
arXiv: 2602.23791
代码: 待确认
领域: 多模态VLM
关键词: 荧光显微镜, 对焦质量评估, CLIP, 序数回归, 染色感知

一句话总结¶

提出 FluoCLIP，一个两阶段视觉-语言框架：先通过染色锚定（stain-grounding）让 CLIP 学习荧光染色的语义，再通过染色引导排序（stain-guided ranking）实现染色感知的对焦质量评估，并引入首个多染色组织级荧光显微镜数据集 FluoMix。

研究背景与动机¶

领域现状：对焦质量评估（FQA）在显微镜成像中至关重要，现有 FQA 方法主要针对明场显微镜设计，依赖边缘/梯度等低级特征。

现有痛点：荧光显微镜中不同荧光染料具有不同的发射特性、信噪比和背景荧光，导致对焦退化表现具有强烈的染色依赖性。简单的边缘检测模型（如 FocusLiteNN）在明场数据上表现好，但在荧光数据上不稳定。

核心矛盾：现有数据集不捕捉荧光显微镜的染色依赖性变异——FocusPath 是明场的，BBBC006 仅含2种染色且是体外细胞系。

本文目标 (a) 构建覆盖多组织、多染色的荧光 FQA 数据集；(b) 让 FQA 模型感知染色类型并据此调整对焦判断。

切入角度：荧光图像的对焦质量同时依赖于空间清晰度和染色的光谱/语义特性，单靠视觉特征不够，文本描述可以提供互补的染色语义信息。

核心idea：用两阶段 CLIP 适配策略，先学染色语义再基于染色进行序数排序。

方法详解¶

整体框架¶

FluoCLIP 要解决的是：荧光显微镜里同一张图清不清晰，不只看空间锐度，还强烈取决于用了什么染色——DAPI、Alexa-488 等不同荧光剂的发射特性、信噪比、背景荧光各不相同，对焦退化的"长相"也随之变化。论文把对焦质量评估（FQA）重新定义成「染色感知的序数回归」，并用两阶段把 CLIP 适配到这个任务上。第一阶段（Stain-Grounding）先让 CLIP 的文本编码器认识各种染色术语的语义，把"什么染色"这件事学进嵌入空间；第二阶段（Stain-Guided Ranking）再拿这些染色嵌入去条件化对焦等级的排序，让模型预测"什么等级"时知道当前是哪种染色。两阶段刻意解耦——先认染色、再判等级——避免染色语义和对焦变化纠缠在一起。整个框架还建立在新数据集 FluoMix 之上，它把多组织、多染色的对焦变异真正放进训练数据里。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    DATA["FluoMix 数据集<br/>多组织·多染色·32 层 z-stack"] --> IMG["视觉编码器 E_img<br/>抽图像特征 v"]
    subgraph S1["染色锚定（Stage 1）"]
        direction TB
        ST["可学习染色嵌入 S_l + context<br/>→ pseudo-sentence"] --> TXT1["冻结文本编码器 + 轻量适配器"]
        TXT1 --> ALIGN["对比对齐：v ↔ 染色文本<br/>学到染色身份 S_l"]
    end
    IMG --> ALIGN
    subgraph S2["染色引导排序（Stage 2）"]
        direction TB
        RBASE["基础排序嵌入 R_base"] --> COND["条件化网络 f_θ<br/>结合染色嵌入 S_l"]
        COND --> RANK["染色专属排序嵌入<br/>插值补中间等级"]
    end
    ALIGN -->|染色嵌入 S_l| COND
    RANK --> PRED["与 v 算余弦相似度<br/>→ 预测对焦等级 r"]
    IMG --> PRED

关键设计¶

1. 染色锚定（Stain-Grounding）：先让 CLIP 学会"DAPI/Alexa-488"是什么

CLIP 的原始词表里根本没有荧光染色术语的有意义对应，直接把染色名拼进 prompt 不但不帮忙，实验里反而把性能拖低——这正说明荧光域和 CLIP 预训练分布之间存在域差距。FluoCLIP 的做法是为每种染色引入一个可学习的染色嵌入 \(\mathbf{S}_l\)，把它和上下文 token 拼成一个 pseudo-sentence，喂给文本编码器；编码器本身冻结（避免破坏预训练语义、产生漂移），只在其上挂一个轻量适配器（单层自注意力 + 两层 MLP）来吸收染色语义。训练时用对比学习把这条染色文本表示和对应的荧光视觉特征对齐，于是"DAPI"这个 token 最终落在特征空间里、和真正的 DAPI 图像聚到一起——染色的身份被显式地学进了嵌入，而不是靠模型隐式猜。

2. 染色引导排序（Stain-Guided Ranking）：判对焦等级时带上染色身份

不同染色的"对焦↔外观"关系并不一样，用一套共享的排序空间没法同时拟合这种异质性。FluoCLIP 先学一组与染色无关的基础排序嵌入 \(\mathbf{R}^{base}\)，再通过一个条件化网络 \(f_\theta\) 把基础排序嵌入和第一阶段得到的染色嵌入结合，生成该染色专属的排序嵌入 \(\mathbf{R}^l_{k'}\)；中间那些没有离散标签的对焦等级，则用相邻等级嵌入之间插值得到，保证等级在嵌入空间里是连续、有序的。这样"清晰→模糊"的排序方向是按当前染色定制的，而不是所有染色共用一把尺子。

3. FluoMix 数据集：把"染色依赖性"真正放进数据里

现有数据集撑不起这个任务——FocusPath 是明场的，BBBC006 只有 2 种染色且是体外细胞系，都不捕捉组织级、多染色的对焦变异。FluoMix 覆盖脑、肺、肝三种组织，每个样本最多 4 种不同染色，每个视野采集 32 层 z-stack，从清晰一路到严重模糊覆盖完整对焦范围。论文还用空间频率（SF）和对焦等级的相关性量化了这种依赖：明场 FocusPath 上 SF 与对焦等级强相关且几乎不受染色影响（SRCC −0.840），而荧光的 BBBC006、FluoMix 上相关性明显减弱、染色间方差很大——这组数字就是"单靠视觉低级特征不够、需要染色语义"的直接证据。

一个例子：一张 DAPI 视野怎么被打分¶

拿 FluoMix 里一张 DAPI 染色、轻度离焦的脑组织图走一遍：视觉编码器（ResNet50）抽出图像特征；第一阶段学好的 S_DAPI 染色嵌入告诉系统"这是 DAPI"；第二阶段拿 \(\mathbf{R}^{base}\) 经 \(f_\theta\) 和 S_DAPI 结合，生成 DAPI 专属的排序嵌入序列，再把图像特征沿这条序列比对——落在"轻度模糊"那一档而非"清晰"，于是给出对应的对焦等级。换一张 Alexa-488 的图，同样的锐度可能因为染色的信噪比不同而被判到不同等级，因为这一步用的是 Alexa-488 定制的排序尺。

训练目标¶

总损失 \(\mathcal{L}_{total} = \alpha \cdot \mathcal{L}_{CE} + \beta \cdot \mathcal{L}_{KL}\)：交叉熵 \(\mathcal{L}_{CE}\) 保证对焦等级的分类对齐，KL 散度 \(\mathcal{L}_{KL}\) 强制相邻等级在概率分布上的序数一致性（清晰和重度模糊之间的概率质量按等级单调过渡）。

实验关键数据¶

主实验（FluoMix，ResNet50 编码器）¶

方法	Accuracy (%)	PLCC ↑	SRCC ↑	MAE ↓
FocusLiteNN	-	0.621	0.624	1.610
CE (交叉熵)	54.59	0.952	0.957	0.510
OrdinalCLIP	83.12	0.989	0.988	0.172
FluoCLIP	最优	最优	最优	最优

染色依赖性分析¶

数据集	SRCC (SF vs 对焦等级)	染色间变异
FocusPath (明场)	-0.840 ± 0.092	低（染色不影响）
BBBC006 (荧光)	-0.343 ± 0.292	高
FluoMix (荧光)	-0.528 ± 0.094	高

关键发现¶

明场数据的空间频率与对焦等级高度相关且染色无关，但荧光数据中这种相关性显著下降并呈现强染色依赖性
直接将染色名插入 CLIP prompt 不仅不帮助，反而降低性能，证实域差距的存在
两阶段设计中，stain-grounding 阶段学到的染色嵌入在特征空间中与对应的荧光图像聚集

亮点与洞察¶

任务形式化有价值：首次将 FQA 明确定义为染色感知的序数回归问题，为荧光显微镜 FQA 奠定基础
两阶段解耦设计巧妙：先解决"什么染色"再解决"什么等级"，避免了染色语义和对焦变化的纠缠
CLIP 的跨域适配策略（冻结编码器+可学习 token+轻量适配器）可迁移到其他领域特定的序数回归任务

局限与展望¶

FluoMix 数据集规模和染色种类还有限，泛化到更多荧光标记物需要验证
仅用 ResNet50 作为视觉编码器，更强的 ViT 编码器可能进一步提升
标注依赖专家选择最佳对焦层，主观性可能引入噪声
两阶段训练增加了流程复杂度

评分¶

新颖性: ⭐⭐⭐⭐ 首次形式化染色感知 FQA 任务和数据集
实验充分度: ⭐⭐⭐ 实验主要集中在单一数据集，跨域泛化实验有限
写作质量: ⭐⭐⭐⭐ 任务动机分析深入，染色依赖性的定量验证有说服力
价值: ⭐⭐⭐⭐ 对生物医学图像分析社区有重要价值