RecycleLoRA: Rank-Revealing QR-Based Dual-LoRA Subspace Adaptation for Domain Generalized Semantic Segmentation¶
会议: CVPR 2026
arXiv: 2603.28142
代码: https://github.com/chanseul01/RecycleLoRA.git
领域: 语义分割 / 域泛化 / 参数高效微调
关键词: 域泛化语义分割, LoRA, RRQR分解, 双适配器, 子空间结构
一句话总结¶
提出 RecycleLoRA,利用 Rank-Revealing QR 分解(RRQR)系统性地"回收"Vision Foundation Model预训练权重中的子空间结构,通过对次要方向和主要方向分别初始化主/子双适配器,显著提升 LoRA 的表示多样性和参数利用效率,在合成到真实和真实到真实的域泛化语义分割任务上均达到 SOTA(平均 mIoU 68.95 / 72.10)。
研究背景与动机¶
- 领域现状:域泛化语义分割(DGSS)旨在让模型在未见目标域上保持鲁棒性能。随着 DINOv2、CLIP 等视觉基础模型(VFM)的出现,DGSS 的重点已从数据增强转向如何高效适配 VFM 的丰富多域知识。
- 现有痛点:
- 现有 SVD 方法(如 SoMA)虽然通过关注次要奇异值方向取得了不错效果,但 SVD 优先保持方差,不一定是下游适配最有效的分解方式;
- SoMA 只调整次要方向而完全冻结主要方向,限制了模型处理复杂新任务的能力;
- 许多 LoRA 方法的基向量之间存在表示冗余,导致参数利用效率低下(Effective Rank 远低于目标 Rank)。
- 核心矛盾:如何同时解决"更好地利用 VFM 子空间结构"和"增强 LoRA 表示多样性"这两个问题。
- 本文目标:(1) 找到比 SVD 更适合 VFM 适配的分解策略;(2) 消除 LoRA 基向量间的表示冗余;(3) 充分利用预训练权重中的主要和次要方向。
- 切入角度:RRQR 通过贪心列选主(column pivoting)从原始权重矩阵中直接选择信息量最大的列,天然保证方向独立性和结构多样性。
- 核心 idea:用 RRQR 分解 VFM 权重,将次要方向初始化主适配器、主要方向初始化子适配器,构建无需额外正则化的互补双适配器结构。
方法详解¶
整体框架¶
输入是 VFM(DINOv2-Large)的预训练权重矩阵 \(\mathbf{W}_0 \in \mathbb{R}^{d \times k}\),对每个线性层执行 RRQR 分解得到正交矩阵 \(\mathbf{Q}\) 和排列矩阵 \(\mathbf{P}\)。利用分解结果初始化主适配器(minor directions)和子适配器(major directions),以 Mask2Former 作为分割头。推理时双适配器合并到原始权重中,不引入额外推理延迟。
关键设计¶
-
RRQR 分解初始化策略:
- 功能:为 LoRA 适配器提供结构多样、方向独立的初始化
- 核心思路:对权重矩阵执行 \(\mathbf{W}_0 \mathbf{P} = \mathbf{Q}\mathbf{R}\),RRQR 在每一步选择正交投影后范数最大的列,天然最小化冗余。\(\mathbf{Q}\) 的列提供正交基方向,\(\mathbf{P}\) 记录重要性排序。主适配器 \(\mathbf{B}\) 初始化为 \(\mathbf{Q}\) 的最后 \(r\) 列(次要方向),\(\mathbf{A}\) 采用稀疏初始化将选定列索引置 1。
- 设计动机:与 SVD 找全局方差最大的新正交基不同,RRQR 直接从原始权重列中选择,保留了局部结构信息和维度对应关系。训练后分析证实,稀疏初始化位置的列范数平均比零初始化列高 1.22×(最高 1.63×),表明初始化偏置在训练过程中得到了保持。
-
双适配器互补结构:
- 功能:让主/子适配器学习不同子空间的表示,实现互补而无需额外正则化
- 核心思路:主适配器用 RRQR 的次要方向(rank=32,lr=1e-4),子适配器用主要方向(rank=4,lr=5e-5)。关键发现是初始化方向与最优学习率存在内在关联——主要方向编码 VFM 核心知识需要更保守的更新,次要方向提供更安全的学习空间可以更激进地适配。
- 设计动机:通过 Grassmann 距离分析验证,双适配器在训练后保持接近正交的子空间(相似度远低于 Kaiming 初始化的双适配器),PCA 可视化也显示两者产生互补的特征修改模式——主适配器聚焦前景物体,子适配器覆盖背景区域。
-
Effective Rank 增强:
- 功能:提升 LoRA 有限参数的表示能力
- 核心思路:通过 RRQR 的贪心选择确保基向量间的方向独立性,直接提升 Effective Rank。在 rank=16 时,RecycleLoRA 的 Rank Efficiency 为 0.850 而 SoMA 仅 0.611;rank=32 时分别为 0.770 和 0.650。余弦相似度热力图也显示 RecycleLoRA 的 \(\mathbf{A}\) 行间和 \(\mathbf{B}\) 列间相似度显著低于 SoMA。
- 设计动机:更高的 Effective Rank 意味着每个低秩分量捕获更独立、更独特的特征,直接提升域泛化性能。
损失函数 / 训练策略¶
- 采用标准语义分割损失,冻结 VFM backbone,仅训练双适配器
- 为保持预训练权重的初始输出,构建残差矩阵(原始权重减去适配器初始值),冻结残差矩阵
- 主适配器和子适配器的学习率分别为 1e-4 和 5e-5(学习率乘子 1.0 和 0.5)
实验关键数据¶
主实验¶
合成到真实泛化(GTAV → 真实域)
| 方法 | Backbone | →Citys. | →BDD | →Map. | Avg. |
|---|---|---|---|---|---|
| SoMA (CVPR'25) | DINOv2-L | 71.82 | 61.31 | 71.67 | 68.27 |
| MFuser (CVPR'25) | EVA02-L | 70.19 | 63.13 | 71.28 | 68.20 |
| RecycleLoRA | DINOv2-L | 73.01 | 61.77 | 72.07 | 68.95 |
真实到真实泛化(Cityscapes → BDD/Map.)
| 方法 | →BDD | →Map. | Avg. |
|---|---|---|---|
| SoMA | 67.02 | 76.45 | 71.74 |
| MFuser | 65.81 | 77.93 | 71.87 |
| RecycleLoRA | 66.65 | 77.54 | 72.10 |
消融实验¶
| 配置 | Params | →Citys. | →BDD | →Map. | Avg. |
|---|---|---|---|---|---|
| 仅 Sub Adapter | 1.6M | 70.64 | 60.56 | 71.11 | 67.44 |
| 仅 Main Adapter | 12.6M | 72.92 | 61.22 | 71.75 | 68.63 |
| Main + Sub (完整) | 14.2M | 73.01 | 61.77 | 72.07 | 68.95 |
关键发现¶
- 仅 Main Adapter 就已超越所有现有 SOTA(68.63 vs SoMA 68.27),证明 RRQR 初始化策略本身的强大效果
- Sub Adapter 在额外仅 1.6M 参数下进一步提升 0.32 mIoU,证实双适配器的互补性
- 学习率分析证实了假设:Sub Adapter(主要方向)在低学习率 5e-5 下最优(↑1.81),Main Adapter(次要方向)在标准 1e-4 下最优,降低学习率反而掉点 1.99
- 在 EVA02-L backbone 上同样有效(66.35 avg),证明方法的通用性
亮点与洞察¶
- RRQR 替代 SVD 的洞察非常巧妙:SVD 找方差最大的新基,RRQR 直接从原始列中选择信息最丰富的方向,保留了局部结构信息。这种"回收"思路比"重建"更适合 LoRA 适配场景。
- 初始化方向与学习率的内在关联是一个具有广泛迁移价值的发现——主要方向需要保守更新,次要方向可以激进适配,这一原则可以指导其他 PEFT 方法的超参设计。
- 无需额外正则化就能实现互补学习:仅通过初始化和学习率差异就让双适配器在近正交子空间中工作,避免了显式正交约束的复杂性。
局限与展望¶
- 仅在 DINOv2 和 EVA02 上验证,尚未测试更多 VFM(如 SAM、SigLIP)
- RRQR 分解本身有计算开销,论文未讨论预处理时间
- Sub Adapter 的 rank 选择(4 vs 2)是手动设定的,可以探索自适应 rank 分配
- 未与 VLM 方法(如 MFuser、tqdm)的文本信息结合,可能进一步提升性能
相关工作与启发¶
- vs SoMA: 同样基于矩阵分解初始化 LoRA,但 SoMA 用 SVD 只关注次要方向,RecycleLoRA 用 RRQR 同时利用主/次方向,Effective Rank 高 40%
- vs PiSSA: PiSSA 用 SVD 的主要方向初始化,RecycleLoRA 的子适配器类似但用 RRQR,且结合了次要方向的主适配器
- vs Rein: Rein 用可学习 token 逐层细化特征,RecycleLoRA 通过 LoRA 适配器工作,更参数高效
评分¶
- 新颖性: ⭐⭐⭐⭐ RRQR 替代 SVD 的思路新颖,但双适配器结构是已有思路的扩展
- 实验充分度: ⭐⭐⭐⭐⭐ 合成到真实、真实到真实、多源训练、多 backbone、详细消融一应俱全
- 写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰,分析(Effective Rank、Grassmann距离、PCA可视化)丰富且令人信服
- 价值: ⭐⭐⭐⭐ 对 PEFT 初始化策略的理解有实质性贡献,方法简洁实用