DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models¶
会议: NeurIPS 2025
arXiv: 2509.22793
代码: DEFT
领域: 图像生成
关键词: 高效微调, 扩散模型, 低秩分解, 个性化生成, 通用图像生成
一句话总结¶
提出DEFT(Decompositional Efficient Fine-Tuning),通过将权重更新分解为子空间投影和低秩调整两个组件来高效微调T2I模型,在个性化生成和通用图像生成任务上超越LoRA和PaRa。
研究背景与动机¶
-
领域现状: 文本到图像(T2I)模型微调面临计算资源和过拟合的挑战。LoRA通过低秩更新实现参数高效微调,PaRa通过正交子空间投影减少秩。
-
现有痛点: LoRA的低秩更新缺乏约束,容易过拟合且对姿态、空间位置控制有限。PaRa仅减少预训练权重的秩但不添加新方向。多概念组合生成中概念间的干扰和混合仍是难题。
-
核心矛盾: 高效微调需要在三方面取得平衡——学习目标分布、保持指令遵循能力、维持编辑性(多样化提示或上下文生成),但现有方法难以兼顾。
-
本文目标: 设计更灵活的权重更新方式,既能高效适配新概念/任务,又能保持预训练模型的泛化能力。
-
切入角度: 将权重更新分解为两个互补组件——子空间投影(去除部分方向)和低秩调整(注入新方向),通过两个可训练矩阵联合实现。
-
核心 idea: \(W_{total} = (I - PP^T)W_0 + PR\),其中 \(P\) 定义子空间投影,\(R\) 实现该子空间内的灵活调整,扩展了权重的列空间。
方法详解¶
整体框架¶
DEFT在预训练权重 \(W_0\) 上应用分解式更新:先通过 \(PP^T\) 投影去除部分子空间,再通过 \(PR\) 注入新方向。适用于Stable Diffusion的UNet层和统一模型(如OmniGen)的Transformer线性层。
关键设计¶
1. 分解式权重更新
- 功能: 在去除旧方向的同时注入新的任务特定方向,平衡适配和保留
- 核心思路: \(W_{total} = (I - PP^T)W_0 + PR\)。\((I-PP^T)W_0\) 去除 \(P\) 列空间方向的分量,\(PR\) 在该子空间中注入新信息。总列空间为 \(\text{col}(W_{reduce}) + \text{col}(QR) \subseteq \text{col}(W_0) + \text{col}(Q)\)
- 设计动机: 低秩更新在正交于 \(W_0\) 主奇异向量的方向上最有效。PaRa仅减秩不加新方向,LoRA加方向但不去除旧方向,DEFT两者兼顾
2. 多种分解策略
- 功能: 提供不同结构偏置的即插即用选择
- 核心思路: 支持QR分解、截断SVD、低秩矩阵分解(LRMF)、非负矩阵分解(NMF)、特征分解等。NMF的非负约束产生更稀疏和结构化的更新
- 设计动机: 不同数据体制和下游任务可能受益于不同的结构偏置
3. 学习率差异化设计
- 功能: 稳定优化,平衡投影矩阵和调整矩阵的更新速率
- 核心思路: 对 \(R\) 使用较高学习率,对 \(P\) 使用较低学习率,类似LoRA中 \(A\)/\(B\) 的学习率设计
- 设计动机: \(P\) 定义子空间结构应缓慢稳定变化,\(R\) 负责具体内容适配应快速调整
损失函数 / 训练策略¶
使用标准扩散去噪损失。DreamBench Plus使用rank=4,VisualCloze通用生成使用rank=32。Dreambooth风格的个性化训练。
实验关键数据¶
主实验¶
DreamBench Plus上的图文对齐评分(CLIP-T,150个主题×8个提示):
| 方法 | T2I模型 | CLIP-T |
|---|---|---|
| Textual Inversion | SD v1.5 | 0.302 |
| DreamBooth | SD v1.5 | 0.323 |
| DreamBooth LoRA | SDXL v1.0 | 0.341 |
| PaRa | SDXL v1.0 | 0.354 |
| DEFT (本文) | SDXL v1.0 | 0.361 |
VisualCloze上的通用图像生成性能:
| 条件 | 方法 | CLIP-Score | DINO-v1 | DINO-v2 |
|---|---|---|---|---|
| Canny | OmniGen | 95.45 | 87.13 | 87.60 |
| Canny | DEFT | 95.78 | 90.37 | 90.65 |
| Depth | OmniGen | 92.02 | 85.16 | 77.39 |
| Depth | DEFT | 93.18 | 88.98 | 85.75 |
消融实验¶
| 分解方法 | CLIP-I | CLIP-T | 说明 |
|---|---|---|---|
| 无分解(默认) | 基线 | 基线 | 最简单,作为默认 |
| QR | 竞争力 | 竞争力 | 正交约束 |
| NMF | 高 | 最高 | 非负约束提供更好的提示控制 |
| TSVD | 竞争力 | 竞争力 | SVD基础分解 |
| Relaxing P | 高 | 高 | 可学习投影矩阵 |
关键发现¶
- DEFT在指令遵循(CLIP-T)上超越LoRA 2个百分点,源于低秩注入扩展了微调子空间
- 风格迁移中DEFT的Image Score达到0.69,远超InstantStyle(0.60)和OmniGen(0.52)
- 多概念组合中DEFT不需要为每个概念单独的LoRA,支持联合微调
- 可控性指标(Controllability F1)与OmniGen持平,质量指标(SSIM)显著提升
亮点与洞察¶
- 理论优雅: "去除+注入"的分解思路清晰,有线性代数理论支撑(列空间扩展证明)
- 灵活性高: 支持多种分解方法,即插即用
- 涌现特性: 在少量图像上微调后模型展现出未在训练集中看到的泛化组合能力
- 统一框架: 同一方法适用于个性化、风格迁移和条件生成等多种任务
局限与展望¶
- 默认未使用分解(为简洁),最佳分解策略的选择缺乏自动化指导
- 仅在SDXL和OmniGen上验证,更大模型(如FLUX)的效果待验证
- 多概念组合的概念数量上限未明确测试
- 可探索与SVDiff等方法在理论框架上的更深入对比
相关工作与启发¶
- LoRA添加方向但不去除,PaRa去除但不添加,DEFT统一了两者
- Custom Diffusion微调子集参数,DEFT提供更灵活的参数适配空间
- 启发: 高效微调不仅关乎参数数量,更关乎更新的结构(子空间选择)
评分¶
- 新颖性: ⭐⭐⭐⭐ 分解式更新的思路有理论支撑且区别于现有方法
- 实验充分度: ⭐⭐⭐⭐ 跨多个数据集和任务类型验证
- 写作质量: ⭐⭐⭐ 内容丰富但组织可更紧凑
- 价值: ⭐⭐⭐⭐ 为高效微调提供了新的设计空间