FlowDIS: Language-Guided Dichotomous Image Segmentation with Flow Matching¶

会议: CVPR 2026
arXiv: 2605.05077
代码: https://github.com/Picsart-AI-Research/FlowDIS （有）
领域: 图像分割 / 流匹配生成 / 语言引导
关键词: 二分图像分割（DIS）、流匹配、语言可控、实例配对、确定性生成

一句话总结¶

FlowDIS 把高精度二分图像分割（DIS）重新表述成一个流匹配问题——直接学一个时间相关的速度场把「图像分布」搬运到「掩码分布」，用确定性 ODE 取代扩散模型从噪声去噪的随机过程；再配上 PAIP 实例配对训练策略增强语言可控性，在 DIS5K 全部测试集刷新 SOTA，仅 1 步推理就比次优的 LawDIS 在 DIS-TE 上 \(F_\beta^\omega\) 高约 5.5%、MAE 低约 43%。

研究背景与动机¶

领域现状：DIS（Dichotomous Image Segmentation）是评测「类别无关、像素级超高精度前景分割」的标准任务，数据集是 DIS5K。主流做法分两类：一类把分割当逐像素二分类，用 ResNet / Swin 等分类骨干（IS-Net、BiRefNet、MVANet）；另一类受生成模型启发，把分割套进 DDPM 框架，借用预训练文生图（T2I）扩散先验做「图像条件下的掩码生成」（DiffDIS、LawDIS）。

现有痛点：分类骨干是为「预测整图类别」优化的，缺少前景级的细粒度语义，复杂细节图上掉点，多物体场景里还容易认错前景。而扩散式方法虽然引入了丰富语义先验，却有个根本错配——分割是确定性的稠密预测（必须精确对上 GT），扩散却是从高斯噪声去噪的随机过程。这种错配导致：训练收敛慢（动辄几万步），去噪的随机性还会把细边界搞糊、搞偏。

核心矛盾：要想用上生成大模型的语义先验，又不想要扩散「从噪声生成」带来的随机性和慢收敛——「生成先验」和「确定性分割」之间存在张力。

本文目标：(1) 找一个既能复用预训练生成模型、又天然确定的分割表述；(2) 在多物体真实场景下做到可靠的语言可控分割。

切入角度：作者注意到流匹配（Flow Matching）是比扩散更一般的框架——它学的是任意两个分布之间的连续映射，参考分布 \(p_1\) 不必是高斯。那就让 \(p_1\) 直接是图像分布、\(p_0\) 是掩码分布，于是分割变成「把图像确定性地搬运到它的掩码」，训练和采样全程确定，扩散只是它把 \(p_1\) 设成高斯的特例。

核心 idea：用「图像→掩码的确定性流匹配传输」代替「从噪声去噪生成掩码」，再用 PAIP 配对造多前景样本来撑起语言可控性。

方法详解¶

整体框架¶

FlowDIS 基于流匹配框架，把 RGB 图像看作参考分布 \(p_1\)、二值掩码看作目标分布 \(p_0\)，训练一个速度网络 \(v_\theta\) 学习沿直线插值路径从图像搬运到掩码的速度场。训练时：一个 batch 的 (图像, 掩码, 提示词) 三元组先经 PAIP 选择性地两两混合成多前景样本；混合后的图像和掩码用 VAE 编码进潜空间得到 \(z^I\)、\(z^M\)；按时间步 \(t\sim p(t)\) 在两者间做线性插值得到中间潜变量 \(z_t\)；文本提示经 CLIP+T5 编码成 token \(c_\tau\)，连同 \(z_t\)、图像潜变量 \(z^I\)、时间步 \(t\) 一起喂给 MMDiT 速度预测模型，损失就是预测速度与真值速度的 MSE。推理时：从 \(z_1=z^I\) 出发，用 Euler 法沿 Beta 调度的时间网格迭代求解概率流 ODE 到 \(z_0\)，再用 VAE 解码器还原成掩码。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：图像 + 掩码<br/>+ 文本提示"] --> B["PAIP 位置感知<br/>实例配对：造多前景样本"]
    B --> C["VAE 编码<br/>得 zI、zM"]
    C --> D["确定性流匹配<br/>zt=(1−t)zM+t·zI"]
    D --> E["MMDiT 速度网络<br/>输入 zt、zI、t、文本 cτ"]
    E -->|训练：MSE 速度损失| F["v 预测"]
    E -->|推理：Beta 调度 Euler 解 ODE| G["VAE 解码<br/>输出掩码"]

关键设计¶

1. 确定性流匹配分割：让图像直接「流」成掩码，而不是从噪声去噪

针对扩散式 DIS「随机过程 vs 确定性分割」的根本错配。流匹配学一个时间相关速度场 \(v_\theta(x,t)\)，沿轨迹把参考分布 \(p_1\) 的样本搬到目标分布 \(p_0\)；常用的条件流是两端样本的线性插值 \(x_t=(1-t)x_0+tx_1\)，对应的真值速度恒为 \(v=x_1-x_0\)。FlowDIS 的关键一步是把 \(p_1\) 设成图像分布、\(p_0\) 设成掩码分布：图像 \(I\) 和掩码 \(M\) 都经 VAE 编码成 \(z^I,z^M\)，潜空间轨迹

\[z_t=(1-t)z^M+t\,z^I,\quad t\in[0,1]\]

网络学预测速度 \(z^I-z^M\)。推理时直接从图像潜变量 \(z_1=z^I\) 出发反解概率流 ODE 即得掩码，全程没有任何随机噪声。这样既复用了大生成模型的语义先验，又恢复了分割该有的确定性——收敛极快（消融显示只要 1K 迭代就超过训练了 36K 步的 LawDIS），边界也不会被随机去噪搞糊

2. 图像潜变量通道拼接条件：每一步推理都能看到干净原图

流匹配中间潜变量 \(z_t\) 是图像和掩码的混合，越靠近 \(z_0\)（掩码端）图像信号越弱，多步推理时细节容易丢。作者把图像潜变量 \(z^I\) 直接通道拼接到速度网络输入上，保证 \(v_\theta\) 每一步都能访问到完整的干净图像信号，损失变为

\[\mathcal{L}(\theta)=\mathbb{E}_{z^I,z^M,t}\big[\|v_\theta(z_t,z^I,t,c_\tau)-(z^I-z^M)\|_2^2\big]\]

工程上，为接入这个额外条件，他们扩展了 transformer 第一层线性层的输入通道、新权重初始化为零（零初始化保证起步时不破坏预训练行为）。附录消融（Tab.5）证实加上这个 \(z^I\) 条件后所有指标都稳定提升

3. PAIP 位置感知实例配对：用合成多前景场景撑起语言可控性

标准 DIS 训练集基本是单前景图，直接做提示词引导训练学不会可靠的语言可控——模型见不到「一张图里多个物体、按提示选其中一个」的样本。PAIP 在每个 mini-batch 内为每个参考三元组 \((I_j,M_j,\tau_j)\) 随机配一个配对三元组 \((I_k,M_k,\tau_k)\)，把后者的前景拼进参考图，合成一张含两个主体的新图 \(I_{\text{mix}}\)。拼接是「位置感知」的：先算参考前景的最小外接框 \(B_j\)，再找紧贴 \(B_j\)、面积最大且不重叠的矩形区域 \(R_j^{\max}\) 作为放置区；因 \(R_j^{\max}\) 常比 \(B_j\) 小，就沿共享边对参考图做反射填充（填充量等于 \(R_j^{\max}\) 对侧边长，把放置区翻倍），再把配对前景裁剪、保持长宽比缩放、Alpha 混合放进去。关键的监督构造是：掩码从集合 \(\{\hat{M}_j\,\text{AND}\,(\hat{M}_k)^c,\ \hat{M}_k,\ \hat{M}_j\,\text{OR}\,\hat{M}_k\}\) 里随机选一个，文本则对应地从 \(\{\tau_j,\ \tau_k,\ \text{“}\tau_j\text{ and }\tau_k\text{”}\}\) 里选——这样「提示词」和「目标掩码」严格绑定，逼模型真正按语言去选物体，而不是无视提示输出固定前景

4. Beta 时间步调度：训练偏向难的大 \(t\)，推理非均匀采样

为让流匹配既好训又好采，作者用 Beta 分布同时调控训练与推理。训练时时间步 \(t\sim\mathrm{Beta}(2.5,1)\)，把采样偏向更大的 \(t\) 值——这里预测更难（离掩码端更远、混合信息更复杂），相当于把训练算力压到最吃力的区段。推理时用 Beta CDF 的逆函数把等距网格 \(q\) 映射成非均匀时间网格 \(t_i=F^{-1}_{\text{Beta}}(q_i;\alpha,\beta)\)（同样 \(\alpha=2.5,\beta=1\)），在轨迹关键段做更密的采样，少数几步 Euler 就拿到高质量掩码（1 步即 SOTA，2 步更好）

损失函数 / 训练策略¶

基模型：以 FLUX.1-Schnell（一个 MMDiT 流匹配模型）的预训练权重初始化；文本编码器用 CLIP + T5。
训练目标：预测速度与真值速度 \(z^I-z^M\) 的 MSE（式 8，含文本与图像潜变量条件）。
超参：batch size 32，训练 10,000 迭代（8×A100 约 1.8 天）；AdamW，初始学习率 \(5\times10^{-5}\)，在第 512/2048/4096/8192 步各减半。
推理：Euler 解概率流 ODE，输出 RGB 掩码后取三通道均值转灰度并 clip 到 \([0,1]\)。

实验关键数据¶

数据集 DIS5K（5,470 张高分辨率图-掩码对），训练用 DIS-TR（3,000），DIS-VD（470）/ DIS-TE（2,000，按前景复杂度分 TE1–TE4 各 500）只做测试；所有方法在 \(1024\times1024\) 分辨率评测。指标：\(F_\beta^\omega\uparrow\)、\(F_\beta^{mx}\uparrow\)、\(\mathcal{M}\downarrow\)（MAE）、\(\mathcal{S}_\alpha\uparrow\)、\(E_\phi^{mn}\uparrow\)。

主实验（DIS-TE 1-4 合并集与 DIS-VD）¶

测试集	方法	\(F_\beta^\omega\uparrow\)	\(F_\beta^{mx}\uparrow\)	\(\mathcal{M}\downarrow\)	\(\mathcal{S}_\alpha\uparrow\)	\(E_\phi^{mn}\uparrow\)
DIS-TE(1-4)	LawDIS25（次优）	0.884	0.918	0.030	0.916	0.947
DIS-TE(1-4)	FlowDIS (1-step)	0.933	0.958	0.017	0.951	0.971
DIS-TE(1-4)	FlowDIS (2-step)	0.938	0.959	0.016	0.951	0.973
DIS-VD	LawDIS25（次优）	0.884	0.917	0.030	0.917	0.949
DIS-VD	FlowDIS (2-step)	0.938	0.958	0.014	0.953	0.974

DIS-TE(1-4) 上 1 步 FlowDIS 相对 LawDIS：\(F_\beta^\omega\) 从 0.884→0.933（约 +5.5%），\(\mathcal{M}\) 从 0.030→0.017（约 −43%），与摘要一致。最难子集 DIS-TE4 上 2 步 FlowDIS \(F_\beta^\omega\) 达 0.919，亦显著领先 LawDIS 的 0.884。

消融实验（均在 DIS-VD，2 步推理，除非特别说明）¶

配置	\(F_\beta^\omega\uparrow\)	\(F_\beta^{mx}\uparrow\)	\(\mathcal{M}\downarrow\)	说明
denoising FM（从高斯噪声）	0.883	0.916	0.025	\(z_1\) 设为高斯噪声
deterministic FM（本文）	0.938	0.958	0.014	\(z_1=z^I\) 图像端
w/o language guidance	0.901	0.926	0.027	不给文本
w/ language guidance	0.937	0.956	0.015	给文本

PAIP 专项（DIS-VD-Complex 为用 PAIP 构造的多物体复杂场景测试集，与 DIS-VD 等量）：

测试集	配置	\(F_\beta^{mx}\uparrow\)	\(\mathcal{M}\downarrow\)	\(\mathcal{S}_\alpha\uparrow\)
DIS-VD-Complex	w/o PAIP	0.783	0.063	0.831
DIS-VD-Complex	w/ PAIP	0.960	0.014	0.955
DIS-VD（简单场景）	w/o PAIP	0.956	0.015	0.952
DIS-VD（简单场景）	w/ PAIP	0.958	0.014	0.953

关键发现¶

确定性表述是最大功臣：把 \(z_1\) 从高斯噪声换成图像端，\(F_\beta^\omega\) 从 0.883→0.938、MAE 从 0.025→0.014，印证「分割该用确定性流匹配」的核心论断。
收敛速度碾压：仅 1K 迭代就超过训练 36K 步的 LawDIS（Fig.4），确定性表述同时换来训练效率。
PAIP 只在该发力处发力：复杂多物体场景 \(F_\beta^{mx}\) 0.783→0.960（巨幅提升），简单单物体场景几乎不变（0.956→0.958）——说明它精准补上了「语言可控」短板而不损害常规精度。附录在 COCO 衍生集上 \(F_\beta^\omega\) 0.327→0.511，同样验证语言可控性增益。
语言引导提供语义线索：加文本后 \(F_\beta^\omega\) 0.901→0.937，帮助消解多前景歧义。

亮点与洞察¶

「换参考分布」这一步极其巧妙：扩散是流匹配里 \(p_1\)=高斯的特例，那把 \(p_1\) 换成图像分布，分割就天然确定了——一个观念上的小改动，换来收敛快一个数量级 + 边界更清，是典型「换个表述把难题变简单」。
PAIP 把「语言可控」拆成可监督的信号：核心不是简单贴图，而是「掩码集合 ↔ 提示词集合」严格配对（AND/OR/补三种掩码对应单/单/联合三种文本），逼模型学到「提示词决定选哪个物体」，这套合成监督思路可迁移到任何「按语言选区域」的引用分割任务。
零初始化扩展输入通道复用预训练大模型时不破坏原有行为，是接入新条件的稳妥工程范式。
Beta 调度一鱼两吃：同一组 \((\alpha,\beta)\) 既在训练把算力压到难区段，又在推理做非均匀密采样，少步即高质量。

局限与展望¶

依赖大生成基模型：以 FLUX.1-Schnell + CLIP + T5 起步，参数量和显存远高于轻量分类骨干方法，部署成本高，作者未讨论小模型版本。
语言提示需外部 VLM 生成：训练/评测的 caption 由 GPT-4V / GPT-4o-mini 生成，引入对闭源模型的依赖，提示质量与可复现性受其影响。
PAIP 评测部分用自造基准：DIS-VD-Complex、COCO 衍生集都是作者用 PAIP 思路构造的，与训练分布同源，语言可控性的「绝对水平」仍需更独立的第三方多前景基准佐证 ⚠️。
改进方向：探索蒸馏到轻量速度网络、把 PAIP 扩展到三前景及以上的更复杂指代、以及在医学/遥感等领域分割上验证确定性流匹配的迁移性。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 DIS 重述为「图像→掩码确定性流匹配」，并用 PAIP 把语言可控性变成可监督信号，观念清晰且原创。
实验充分度: ⭐⭐⭐⭐ DIS5K 全测试集 + 多组消融（FM 表述/语言/PAIP/zI 条件）+ 收敛曲线齐全；语言可控基准偏自造，略减一星。
写作质量: ⭐⭐⭐⭐⭐ 动机推导（扩散错配→流匹配确定性）层层递进，方法与图示清晰。
价值: ⭐⭐⭐⭐⭐ 在高精度分割上刷新 SOTA 且收敛极快，确定性流匹配范式对稠密预测有广泛启发，代码开源。