FlowDIS: Language-Guided Dichotomous Image Segmentation with Flow Matching¶
会议: CVPR 2026
arXiv: 2605.05077
代码: https://github.com/Picsart-AI-Research/FlowDIS (有)
领域: 图像分割 / 流匹配生成 / 语言引导
关键词: 二分图像分割(DIS)、流匹配、语言可控、实例配对、确定性生成
一句话总结¶
FlowDIS 把高精度二分图像分割(DIS)重新表述成一个流匹配问题——直接学一个时间相关的速度场把「图像分布」搬运到「掩码分布」,用确定性 ODE 取代扩散模型从噪声去噪的随机过程;再配上 PAIP 实例配对训练策略增强语言可控性,在 DIS5K 全部测试集刷新 SOTA,仅 1 步推理就比次优的 LawDIS 在 DIS-TE 上 \(F_\beta^\omega\) 高约 5.5%、MAE 低约 43%。
研究背景与动机¶
领域现状:DIS(Dichotomous Image Segmentation)是评测「类别无关、像素级超高精度前景分割」的标准任务,数据集是 DIS5K。主流做法分两类:一类把分割当逐像素二分类,用 ResNet / Swin 等分类骨干(IS-Net、BiRefNet、MVANet);另一类受生成模型启发,把分割套进 DDPM 框架,借用预训练文生图(T2I)扩散先验做「图像条件下的掩码生成」(DiffDIS、LawDIS)。
现有痛点:分类骨干是为「预测整图类别」优化的,缺少前景级的细粒度语义,复杂细节图上掉点,多物体场景里还容易认错前景。而扩散式方法虽然引入了丰富语义先验,却有个根本错配——分割是确定性的稠密预测(必须精确对上 GT),扩散却是从高斯噪声去噪的随机过程。这种错配导致:训练收敛慢(动辄几万步),去噪的随机性还会把细边界搞糊、搞偏。
核心矛盾:要想用上生成大模型的语义先验,又不想要扩散「从噪声生成」带来的随机性和慢收敛——「生成先验」和「确定性分割」之间存在张力。
本文目标:(1) 找一个既能复用预训练生成模型、又天然确定的分割表述;(2) 在多物体真实场景下做到可靠的语言可控分割。
切入角度:作者注意到流匹配(Flow Matching)是比扩散更一般的框架——它学的是任意两个分布之间的连续映射,参考分布 \(p_1\) 不必是高斯。那就让 \(p_1\) 直接是图像分布、\(p_0\) 是掩码分布,于是分割变成「把图像确定性地搬运到它的掩码」,训练和采样全程确定,扩散只是它把 \(p_1\) 设成高斯的特例。
核心 idea:用「图像→掩码的确定性流匹配传输」代替「从噪声去噪生成掩码」,再用 PAIP 配对造多前景样本来撑起语言可控性。
方法详解¶
整体框架¶
FlowDIS 基于流匹配框架,把 RGB 图像看作参考分布 \(p_1\)、二值掩码看作目标分布 \(p_0\),训练一个速度网络 \(v_\theta\) 学习沿直线插值路径从图像搬运到掩码的速度场。训练时:一个 batch 的 (图像, 掩码, 提示词) 三元组先经 PAIP 选择性地两两混合成多前景样本;混合后的图像和掩码用 VAE 编码进潜空间得到 \(z^I\)、\(z^M\);按时间步 \(t\sim p(t)\) 在两者间做线性插值得到中间潜变量 \(z_t\);文本提示经 CLIP+T5 编码成 token \(c_\tau\),连同 \(z_t\)、图像潜变量 \(z^I\)、时间步 \(t\) 一起喂给 MMDiT 速度预测模型,损失就是预测速度与真值速度的 MSE。推理时:从 \(z_1=z^I\) 出发,用 Euler 法沿 Beta 调度的时间网格迭代求解概率流 ODE 到 \(z_0\),再用 VAE 解码器还原成掩码。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:图像 + 掩码<br/>+ 文本提示"] --> B["PAIP 位置感知<br/>实例配对:造多前景样本"]
B --> C["VAE 编码<br/>得 zI、zM"]
C --> D["确定性流匹配<br/>zt=(1−t)zM+t·zI"]
D --> E["MMDiT 速度网络<br/>输入 zt、zI、t、文本 cτ"]
E -->|训练:MSE 速度损失| F["v 预测"]
E -->|推理:Beta 调度 Euler 解 ODE| G["VAE 解码<br/>输出掩码"]
关键设计¶
1. 确定性流匹配分割:让图像直接「流」成掩码,而不是从噪声去噪
针对扩散式 DIS「随机过程 vs 确定性分割」的根本错配。流匹配学一个时间相关速度场 \(v_\theta(x,t)\),沿轨迹把参考分布 \(p_1\) 的样本搬到目标分布 \(p_0\);常用的条件流是两端样本的线性插值 \(x_t=(1-t)x_0+tx_1\),对应的真值速度恒为 \(v=x_1-x_0\)。FlowDIS 的关键一步是把 \(p_1\) 设成图像分布、\(p_0\) 设成掩码分布:图像 \(I\) 和掩码 \(M\) 都经 VAE 编码成 \(z^I,z^M\),潜空间轨迹
网络学预测速度 \(z^I-z^M\)。推理时直接从图像潜变量 \(z_1=z^I\) 出发反解概率流 ODE 即得掩码,全程没有任何随机噪声。这样既复用了大生成模型的语义先验,又恢复了分割该有的确定性——收敛极快(消融显示只要 1K 迭代就超过训练了 36K 步的 LawDIS),边界也不会被随机去噪搞糊
2. 图像潜变量通道拼接条件:每一步推理都能看到干净原图
流匹配中间潜变量 \(z_t\) 是图像和掩码的混合,越靠近 \(z_0\)(掩码端)图像信号越弱,多步推理时细节容易丢。作者把图像潜变量 \(z^I\) 直接通道拼接到速度网络输入上,保证 \(v_\theta\) 每一步都能访问到完整的干净图像信号,损失变为
工程上,为接入这个额外条件,他们扩展了 transformer 第一层线性层的输入通道、新权重初始化为零(零初始化保证起步时不破坏预训练行为)。附录消融(Tab.5)证实加上这个 \(z^I\) 条件后所有指标都稳定提升
3. PAIP 位置感知实例配对:用合成多前景场景撑起语言可控性
标准 DIS 训练集基本是单前景图,直接做提示词引导训练学不会可靠的语言可控——模型见不到「一张图里多个物体、按提示选其中一个」的样本。PAIP 在每个 mini-batch 内为每个参考三元组 \((I_j,M_j,\tau_j)\) 随机配一个配对三元组 \((I_k,M_k,\tau_k)\),把后者的前景拼进参考图,合成一张含两个主体的新图 \(I_{\text{mix}}\)。拼接是「位置感知」的:先算参考前景的最小外接框 \(B_j\),再找紧贴 \(B_j\)、面积最大且不重叠的矩形区域 \(R_j^{\max}\) 作为放置区;因 \(R_j^{\max}\) 常比 \(B_j\) 小,就沿共享边对参考图做反射填充(填充量等于 \(R_j^{\max}\) 对侧边长,把放置区翻倍),再把配对前景裁剪、保持长宽比缩放、Alpha 混合放进去。关键的监督构造是:掩码从集合 \(\{\hat{M}_j\,\text{AND}\,(\hat{M}_k)^c,\ \hat{M}_k,\ \hat{M}_j\,\text{OR}\,\hat{M}_k\}\) 里随机选一个,文本则对应地从 \(\{\tau_j,\ \tau_k,\ \text{“}\tau_j\text{ and }\tau_k\text{”}\}\) 里选——这样「提示词」和「目标掩码」严格绑定,逼模型真正按语言去选物体,而不是无视提示输出固定前景
4. Beta 时间步调度:训练偏向难的大 \(t\),推理非均匀采样
为让流匹配既好训又好采,作者用 Beta 分布同时调控训练与推理。训练时时间步 \(t\sim\mathrm{Beta}(2.5,1)\),把采样偏向更大的 \(t\) 值——这里预测更难(离掩码端更远、混合信息更复杂),相当于把训练算力压到最吃力的区段。推理时用 Beta CDF 的逆函数把等距网格 \(q\) 映射成非均匀时间网格 \(t_i=F^{-1}_{\text{Beta}}(q_i;\alpha,\beta)\)(同样 \(\alpha=2.5,\beta=1\)),在轨迹关键段做更密的采样,少数几步 Euler 就拿到高质量掩码(1 步即 SOTA,2 步更好)
损失函数 / 训练策略¶
- 基模型:以 FLUX.1-Schnell(一个 MMDiT 流匹配模型)的预训练权重初始化;文本编码器用 CLIP + T5。
- 训练目标:预测速度与真值速度 \(z^I-z^M\) 的 MSE(式 8,含文本与图像潜变量条件)。
- 超参:batch size 32,训练 10,000 迭代(8×A100 约 1.8 天);AdamW,初始学习率 \(5\times10^{-5}\),在第 512/2048/4096/8192 步各减半。
- 推理:Euler 解概率流 ODE,输出 RGB 掩码后取三通道均值转灰度并 clip 到 \([0,1]\)。
实验关键数据¶
数据集 DIS5K(5,470 张高分辨率图-掩码对),训练用 DIS-TR(3,000),DIS-VD(470)/ DIS-TE(2,000,按前景复杂度分 TE1–TE4 各 500)只做测试;所有方法在 \(1024\times1024\) 分辨率评测。指标:\(F_\beta^\omega\uparrow\)、\(F_\beta^{mx}\uparrow\)、\(\mathcal{M}\downarrow\)(MAE)、\(\mathcal{S}_\alpha\uparrow\)、\(E_\phi^{mn}\uparrow\)。
主实验(DIS-TE 1-4 合并集 与 DIS-VD)¶
| 测试集 | 方法 | \(F_\beta^\omega\uparrow\) | \(F_\beta^{mx}\uparrow\) | \(\mathcal{M}\downarrow\) | \(\mathcal{S}_\alpha\uparrow\) | \(E_\phi^{mn}\uparrow\) |
|---|---|---|---|---|---|---|
| DIS-TE(1-4) | LawDIS25(次优) | 0.884 | 0.918 | 0.030 | 0.916 | 0.947 |
| DIS-TE(1-4) | FlowDIS (1-step) | 0.933 | 0.958 | 0.017 | 0.951 | 0.971 |
| DIS-TE(1-4) | FlowDIS (2-step) | 0.938 | 0.959 | 0.016 | 0.951 | 0.973 |
| DIS-VD | LawDIS25(次优) | 0.884 | 0.917 | 0.030 | 0.917 | 0.949 |
| DIS-VD | FlowDIS (2-step) | 0.938 | 0.958 | 0.014 | 0.953 | 0.974 |
DIS-TE(1-4) 上 1 步 FlowDIS 相对 LawDIS:\(F_\beta^\omega\) 从 0.884→0.933(约 +5.5%),\(\mathcal{M}\) 从 0.030→0.017(约 −43%),与摘要一致。最难子集 DIS-TE4 上 2 步 FlowDIS \(F_\beta^\omega\) 达 0.919,亦显著领先 LawDIS 的 0.884。
消融实验(均在 DIS-VD,2 步推理,除非特别说明)¶
| 配置 | \(F_\beta^\omega\uparrow\) | \(F_\beta^{mx}\uparrow\) | \(\mathcal{M}\downarrow\) | 说明 |
|---|---|---|---|---|
| denoising FM(从高斯噪声) | 0.883 | 0.916 | 0.025 | \(z_1\) 设为高斯噪声 |
| deterministic FM(本文) | 0.938 | 0.958 | 0.014 | \(z_1=z^I\) 图像端 |
| w/o language guidance | 0.901 | 0.926 | 0.027 | 不给文本 |
| w/ language guidance | 0.937 | 0.956 | 0.015 | 给文本 |
PAIP 专项(DIS-VD-Complex 为用 PAIP 构造的多物体复杂场景测试集,与 DIS-VD 等量):
| 测试集 | 配置 | \(F_\beta^{mx}\uparrow\) | \(\mathcal{M}\downarrow\) | \(\mathcal{S}_\alpha\uparrow\) |
|---|---|---|---|---|
| DIS-VD-Complex | w/o PAIP | 0.783 | 0.063 | 0.831 |
| DIS-VD-Complex | w/ PAIP | 0.960 | 0.014 | 0.955 |
| DIS-VD(简单场景) | w/o PAIP | 0.956 | 0.015 | 0.952 |
| DIS-VD(简单场景) | w/ PAIP | 0.958 | 0.014 | 0.953 |
关键发现¶
- 确定性表述是最大功臣:把 \(z_1\) 从高斯噪声换成图像端,\(F_\beta^\omega\) 从 0.883→0.938、MAE 从 0.025→0.014,印证「分割该用确定性流匹配」的核心论断。
- 收敛速度碾压:仅 1K 迭代就超过训练 36K 步的 LawDIS(Fig.4),确定性表述同时换来训练效率。
- PAIP 只在该发力处发力:复杂多物体场景 \(F_\beta^{mx}\) 0.783→0.960(巨幅提升),简单单物体场景几乎不变(0.956→0.958)——说明它精准补上了「语言可控」短板而不损害常规精度。附录在 COCO 衍生集上 \(F_\beta^\omega\) 0.327→0.511,同样验证语言可控性增益。
- 语言引导提供语义线索:加文本后 \(F_\beta^\omega\) 0.901→0.937,帮助消解多前景歧义。
亮点与洞察¶
- 「换参考分布」这一步极其巧妙:扩散是流匹配里 \(p_1\)=高斯的特例,那把 \(p_1\) 换成图像分布,分割就天然确定了——一个观念上的小改动,换来收敛快一个数量级 + 边界更清,是典型「换个表述把难题变简单」。
- PAIP 把「语言可控」拆成可监督的信号:核心不是简单贴图,而是「掩码集合 ↔ 提示词集合」严格配对(AND/OR/补 三种掩码对应 单/单/联合 三种文本),逼模型学到「提示词决定选哪个物体」,这套合成监督思路可迁移到任何「按语言选区域」的引用分割任务。
- 零初始化扩展输入通道复用预训练大模型时不破坏原有行为,是接入新条件的稳妥工程范式。
- Beta 调度一鱼两吃:同一组 \((\alpha,\beta)\) 既在训练把算力压到难区段,又在推理做非均匀密采样,少步即高质量。
局限与展望¶
- 依赖大生成基模型:以 FLUX.1-Schnell + CLIP + T5 起步,参数量和显存远高于轻量分类骨干方法,部署成本高,作者未讨论小模型版本。
- 语言提示需外部 VLM 生成:训练/评测的 caption 由 GPT-4V / GPT-4o-mini 生成,引入对闭源模型的依赖,提示质量与可复现性受其影响。
- PAIP 评测部分用自造基准:DIS-VD-Complex、COCO 衍生集都是作者用 PAIP 思路构造的,与训练分布同源,语言可控性的「绝对水平」仍需更独立的第三方多前景基准佐证 ⚠️。
- 改进方向:探索蒸馏到轻量速度网络、把 PAIP 扩展到三前景及以上的更复杂指代、以及在医学/遥感等领域分割上验证确定性流匹配的迁移性。
相关工作与启发¶
- vs LawDIS / DiffDIS(扩散式 DIS):他们把分割当「图像条件下从高斯噪声去噪生成掩码」,随机过程与确定性分割错配、收敛慢、边界易糊;FlowDIS 用确定性流匹配直接做图像→掩码传输,1 步即超过它们训练 36K 步的结果,语言可控性也更强(LawDIS 常对不同提示输出几乎相同结果)。
- vs BiRefNet / MVANet / PDFNet(判别式分类骨干):他们靠双边参考、多视角融合、深度完整性先验等结构强化细节,但缺生成大模型的语义先验且无语言可控;FlowDIS 借生成先验在 \(F_\beta^\omega\)、MAE 上大幅领先,并额外提供文本可控分割能力。
- vs GenPercept(扩散微调做稠密预测):同样想借生成先验,但仍在扩散/去噪范式内;FlowDIS 指出流匹配的确定性表述对稠密预测更自然,实证性能更优。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把 DIS 重述为「图像→掩码确定性流匹配」,并用 PAIP 把语言可控性变成可监督信号,观念清晰且原创。
- 实验充分度: ⭐⭐⭐⭐ DIS5K 全测试集 + 多组消融(FM 表述/语言/PAIP/zI 条件)+ 收敛曲线齐全;语言可控基准偏自造,略减一星。
- 写作质量: ⭐⭐⭐⭐⭐ 动机推导(扩散错配→流匹配确定性)层层递进,方法与图示清晰。
- 价值: ⭐⭐⭐⭐⭐ 在高精度分割上刷新 SOTA 且收敛极快,确定性流匹配范式对稠密预测有广泛启发,代码开源。