Referring Layer Decomposition¶

会议: ICLR 2026
arXiv: 2602.19358
代码: https://yaojie-shen.github.io/project/RLD/
领域: 图像分解 / 图像编辑
关键词: 图层分解, RGBA 层, 多模态引用输入, 数据引擎, RefLayer

一句话总结¶

提出 Referring Layer Decomposition (RLD) 任务，根据用户提供的灵活提示（空间/文本/混合）从单张 RGB 图像中预测完整的 RGBA 图层，并构建了包含 111 万样本的 RefLade 数据集和自动评估协议。

研究背景与动机¶

现代生成模型通常将图像作为整体进行处理，缺乏对单个场景元素的显式表示，使得选择性操纵、跨编辑一致性维护和语义对齐困难重重。图像图层（RGBA 格式的透明视觉单元）提供了更直观的框架，类似于 Photoshop 中的图层工作流。

现有方法的局限： - MuLAn：数据规模有限（44K 图像），成功率仅 36% - Text2Layer：只能分离前景/背景两层 - LayerDecomp：依赖合成监督，需要目标掩码

RLD 任务的核心创新在于支持多种用户提示（点、框、掩码、文本），实现按需提取目标 RGBA 图层。

方法详解¶

整体框架¶

RLD 把"按提示抽图层"这件事拆成三块互相支撑的工作，整条链路是「造数据 → 训模型 → 评质量」。第一块是 RefLade 数据引擎，用六阶段流水线把单张 RGB 图自动加工成"提示 + 对应完整 RGBA 图层"的训练三元组，并把被前景遮挡的部分补全；第二块是 RefLayer 模型，基于 Stable Diffusion 3，把任意空间/文本提示统一编进输入、再吐出带透明通道的 RGBA 图层；第三块是三维度评估协议，从可见区保真、遮挡区补全、合成自然三个轴自动给抽取质量打分，并对齐人类偏好。三者合起来既给出了任务的训练数据，又给出了参照实现和判分标准。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    IN["单张 RGB 图像"]
    subgraph ENG["RefLade 数据引擎（设计 1）"]
        direction TB
        S1["预过滤<br/>剔除低质量图"] --> S2["场景理解<br/>检测+分割+定位"]
        S2 --> S3["图层完成<br/>补全被遮挡区域"]
        S3 --> S4["后处理<br/>细化掩码+预测 alpha"]
        S4 --> S5["提示生成<br/>空间/文本/多模态"]
        S5 --> S6["后过滤<br/>保真/真实/语义筛选"]
    end
    IN --> ENG
    ENG --> DATA["RefLade 数据集<br/>图像-提示-RGBA 三元组"]
    subgraph MODEL["RefLayer 模型（设计 2）"]
        direction TB
        P["统一提示编码<br/>点/框/掩码画进彩色画布"] --> VAE["VAE 编码 + 轻量卷积"]
        VAE --> DiT["扩散 Transformer 去噪"]
        DiT --> DEC["RGB 解码器 + alpha 解码器"]
    end
    DATA --> MODEL
    MODEL --> OUT["RGBA 图层"]
    subgraph EVAL["三维度评估协议（设计 3）"]
        direction TB
        E1["保持度 Svis"] --> HPA["HPA 综合分<br/>人类偏好加权"]
        E2["完成度 Sgen"] --> HPA
        E3["忠实度 Sfid"] --> HPA
    end
    OUT --> EVAL

关键设计¶

1. RefLade 数据引擎：用六阶段流水线把 RLD 三元组的产出成功率从 36% 拉到 70%

RLD 任务最大的拦路虎是没有现成数据——同一张 RGB 图必须配上"提示 + 对应完整 RGBA 图层"，而被前景遮挡的部分还得补全。引擎把这件难事拆成六步串起来做：先用规则预过滤剔除低质量图像（约 86.1% 的图像通过适用性判定），再做场景理解把封闭集检测、开放词汇检测和 MLLM 定位融在一起找出候选目标；接着图层完成重建被遮挡的物体区域、后处理细化掩码并预测 alpha 遮罩，提示生成为每个目标合成空间/文本/多模态三类提示，最后后过滤从保真度、真实性、语义一致性三方面把不合格的 RGBA 图层筛掉。这条流水线让单样本的端到端产出成功率从 MuLAn 的 36% 提升到 70%，是 RefLade 能做到百万量级的根本原因。

2. RefLayer 模型与统一提示编码：用一张彩色 RGB 图把点/框/掩码/文本等异构提示喂给扩散模型，并加一条 alpha 解码分支直接产出透明图层

数据引擎产出三元组之后，需要一个能吃下这些提示、直接生成图层的模型。难点在于让一个生成器同时接收形态各异的提示、还要输出带透明通道的图层。提示编码策略把所有空间提示画进同一张彩色画布里统一表达：蓝色画布代表背景，绿色区域标边界框，红色区域标掩码，点则渲染成高斯热图，这样不同粒度的提示在输入端就被对齐成同一种模态，模型据此从粗到细地响应。模型基于 Stable Diffusion 3，VAE 编码器把原始图像和这张位置提示图一起编码，经一层轻量卷积压缩通道后送入扩散 Transformer 去噪；解码端在标准 RGB 解码器之外额外接一个自定义 alpha 解码器（结构与 VAE 解码器一致、仅把输出通道设为 1），使网络在生成 RGB 内容的同时直接在隐空间预测 alpha 遮罩，省去事后抠图。训练时冻结 VAE，让扩散 Transformer 与 alpha 解码器在共享隐空间下独立训练，既降低优化难度又让模型对未见提示展现零样本泛化能力。

3. 三维度评估协议 + HPA 综合分：把"抽得好不好"拆成可见区保真、遮挡区补全、合成自然三个互补的轴，再用人类偏好把它们合成一个能信的分

有了模型还需要一把能信的尺子，否则无法判断图层抽得好不好。单一指标在 RLD 上都会偏科：只看可见区域的相似度会奖励"原样抠图"，只看 FID 又抓不住补全是否对。协议因此并行测三件事。保持度 \(\mathcal{S}_{\text{vis}}\) 在可见掩码 \(g_v\) 圈定的区域内对比预测图层与真值的 LPIPS，\(\mathcal{S}_{\text{vis}} = \mathbb{E}_{(p,g)\sim\mathcal{D}}[\text{LPIPS}(g_{\text{rgb}} \odot g_v, p_{\text{rgb}} \odot g_v)]\)，衡量"该保留的有没有被改坏"。完成度 \(\mathcal{S}_{\text{gen}}\) 用 CLIP 特征的方向相似度盯住被补全出来的那部分，\(\mathcal{S}_{\text{gen}} = \mathbb{E}[\cos(f(g_{\text{rgb}}) - f(g_{\text{rgb}} \odot g_v),\, f(p_{\text{rgb}}) - f(g_{\text{rgb}} \odot g_v))]\)，比较的是"真值从可见到完整的语义变化方向"和"预测的变化方向"是否一致。忠实度 \(\mathcal{S}_{\text{fid}}\) 则把预测图层 alpha 混回背景后算 FID，看合成结果整体真不真。由于这三轴各自都无法稳定反映人类偏好，协议进一步用人类偏好 Elo 排名的归一化加权平均得到 HPA 综合分，使自动评分能与人类判断强相关，把图层质量评估从"靠人眼盯"变成可规模化复现。

实验¶

数据集统计¶

数据集	任务	#图像	#类别	#实例	遮挡率
MuLAn	LD	44,860	759	101,269	7.7%
RefLade	RLD	430,488	12K	871,829	60.8%

评估协议验证¶

HPA 分数与人类 ELO 排名强相关，而单独的 \(\mathcal{S}_{\text{vis}}\)、\(\mathcal{S}_{\text{fid}}\)、\(\mathcal{S}_{\text{gen}}\) 均无法一致地反映人类偏好。

质量评估¶

74.7% 的前景图层和 70.2% 的背景图层达到质量阈值
人工标注历时 43 天，由 9 名专业标注员完成
精心筛选获得 59K 高质量图像和 110K 验证图层

关键发现¶

粗粒度提示（单个点）可能导致粗粒度输出，而精确提示产生准确的物体级图层
RefLayer 展现出强零样本泛化能力
多粒度提示系统支持从粗到细的灵活控制

亮点¶

首次定义了基于多模态引用输入的图层分解任务
数据引擎设计系统全面，将成功率从 36% 提升到 70%
评估协议与人类偏好高度对齐，解决了评估瓶颈
RefLade 数据集规模远超现有同类（430K vs MuLAn 的 44K）

局限性¶

数据引擎依赖多个外部模型（检测/分割/补全），级联错误不可避免
人工标注成本高（43 天 × 9 人）
评估协议中 Ground Truth 图层本身可能不完美

评分¶

新颖性：⭐⭐⭐⭐⭐ — 任务定义新颖，填补了研究空白
数据贡献：⭐⭐⭐⭐⭐ — 百万级数据集 + 数据引擎 + 人工标注
评估：⭐⭐⭐⭐ — 三维度评估协议对齐人类偏好
实用性：⭐⭐⭐⭐ — 对图像编辑和合成有直接应用价值