跳转至

Vision-Language Attribute Disentanglement and Reinforcement for Lifelong Person Re-Identification

会议: CVPR 2026
arXiv: 2603.19678
代码: https://github.com/zhoujiahuan1991/CVPR2026-VLADR
领域: 行人理解
关键词: 终身行人重识别, 视觉语言模型, 属性解耦, 跨模态对齐, 遗忘缓解

一句话总结

VLADR 提出利用视觉-语言模型(VLM)中的细粒度属性知识来增强终身行人重识别,通过多粒度文本属性解耦(MTAD)和跨域跨模态属性强化(ICAR)两阶段训练,显式建模跨域共享的人体属性以实现高效知识转移和遗忘缓解,在抗遗忘和泛化能力上分别超越 SOTA 1.9%-2.2% 和 2.1%-2.5%。

研究背景与动机

领域现状:终身行人重识别(Lifelong Person Re-Identification, LReID)要求模型从持续到来的不同域数据中学习,构建统一的行人检索系统。与标准 ReID 不同,LReID 面临灾难性遗忘问题——学习新域知识时容易丢失旧域知识。现有方法主要从视觉分类预训练模型出发,利用知识蒸馏、原型记忆、分布建模等策略缓解遗忘。

现有痛点:尽管视觉-语言模型(如 CLIP)已展现出强大的泛化能力,但现有 LReID 方法直接适配 VLM 时存在明显不足——它们仅考虑全局表征学习,忽视了细粒度属性知识的利用。全局表征在域变化时容易被域特定的背景、光照等冗余信息干扰,而人体属性(如衣着颜色、体型、配饰等)是跨域稳定的语义锚点,被严重低估。

核心矛盾:LReID 的核心挑战在于"新知识获取"与"旧知识保持"之间的矛盾。全局表征对域变化敏感,导致学新忘旧。而细粒度属性(如"穿红色上衣、背黑色背包")是域不变的语义描述子,理论上可以作为跨域知识转移的桥梁——但现有方法缺乏显式的属性建模机制。

本文目标:设计一个 VLM 驱动的 LReID 框架,(1) 显式解耦全局和局部人体属性,(2) 利用跨模态属性对齐实现细粒度知识转移,(3) 通过跨域属性对齐缓解遗忘。

切入角度:作者观察到人体属性具有"跨域共享性"——无论在 Market-1501 还是 MSMT17 数据集中,"穿蓝色牛仔裤"的语义都是一致的。如果能将这些共享属性显式地解耦出来并建立跨模态对齐,就能作为跨域知识转移的锚点。

核心 idea:使用 VLM(BLIP)自动生成行人图像的多粒度文本属性描述,然后通过可学习 prompt 将全局和局部属性在文本空间中解耦,再利用跨模态和跨域多层对齐将属性知识注入视觉编码器,实现属性引导的终身学习。

方法详解

整体框架

VLADR 采用两阶段训练流程:Stage 1(MTAD)——在 CLIP 文本编码器端进行多粒度文本属性解耦,学习全局和局部属性的 prompt 表征;Stage 2(ICAR)——冻结 Stage 1 的 prompt 权重,利用预提取的文本描述对 CLIP 图像编码器进行微调,通过跨模态属性对齐和跨域属性对齐实现知识转移。基础架构基于 CLIP-ReID 和 DASK 框架。

关键设计

  1. 多粒度文本属性解耦(Multi-grain Text Attribute Disentanglement, MTAD):

    • 功能:从行人图像的文本描述中解耦出全局特征和多个局部属性特征
    • 核心思路:首先使用 BLIP 模型为每张行人图像自动生成文本描述(如"a person wearing a red shirt and blue jeans, carrying a black backpack")。然后设计两组可学习的 prompt:(a) 全局 prompt 捕获行人的整体外观特征;(b) 局部属性 prompt(多个)分别对应不同的属性维度(如上衣颜色、裤子类型、配饰等)。通过 CLIP 文本编码器处理文本描述和 prompt 的拼接,用注意力机制让不同 prompt 聚焦到描述中的不同属性部分,实现属性解耦
    • 设计动机:全局表征容易混淆域特定信息和身份信息,而解耦后的局部属性是域不变的语义单元,可以作为跨域知识转移的最小可共享单位
  2. 跨域跨模态属性强化(Inter-domain Cross-modal Attribute Reinforcement, ICAR):

    • 功能:将 Stage 1 解耦的属性知识注入视觉编码器,并实现跨域知识转移
    • 核心思路:包含两个对齐机制——(a) 跨模态属性对齐:将图像编码器的特征与 Stage 1 提取的文本属性特征对齐,迫使视觉模型学习与文本属性语义一致的视觉表征。对每个属性维度分别计算视觉-文本匹配损失,引导视觉编码器提取出与局部属性 prompt 对应的视觉属性特征;(b) 跨域属性对齐:当模型在新域上训练时,利用旧域中相同属性的原型表征作为锚点,约束新域的属性表征不偏离太远。通过属性级别(而非实例级别)的知识蒸馏,在属性空间中实现精细的知识保持
    • 设计动机:跨模态对齐确保视觉编码器"懂"属性语义而非依赖域特定线索;跨域对齐在属性粒度上而非全局粒度上进行知识保持,粒度更细、保持更精准
  3. 属性级原型记忆库:

    • 功能:存储各域各属性维度的代表性表征,支持跨域属性对齐
    • 核心思路:为每个已学域的每个属性维度维护一个原型向量(通过指数移动平均更新)。当学习新域时,将新域的属性表征与旧域对应属性原型进行对齐,约束属性空间的一致性。属性级原型比实例级样本更紧凑高效,且能更好地捕获属性的分布模式
    • 设计动机:相比传统的样本回放(exemplar replay),属性原型(1)不需要存储大量旧域样本,(2)直接在语义属性空间操作而非原始特征空间,(3)跨域共享属性提供天然的对齐锚点

损失函数 / 训练策略

Stage 1 损失

  • 文本-图像匹配损失:确保全局 prompt 和局部属性 prompt 与对应文本描述对齐
  • 属性正交性损失:鼓励不同局部属性 prompt 关注不同的属性维度,避免冗余
  • 标准交叉熵和 triplet 损失用于身份分类

Stage 2 损失

  • 跨模态属性对齐损失:\(\mathcal{L}_{\text{CMA}} = \sum_{k=1}^{K} \text{dist}(\mathbf{v}_k, \mathbf{t}_k)\),将第 \(k\) 个视觉属性特征 \(\mathbf{v}_k\) 与对应文本属性特征 \(\mathbf{t}_k\) 对齐
  • 跨域属性对齐损失:\(\mathcal{L}_{\text{IDA}} = \sum_{k=1}^{K} \text{dist}(\mathbf{v}_k^{\text{new}}, \mathbf{p}_k^{\text{old}})\),将新域属性表征与旧域属性原型对齐
  • 标准 ReID 损失(交叉熵 + triplet)

两阶段分别训练,Stage 2 加载 Stage 1 的 prompt checkpoint 和预提取的 BLIP 文本描述。

实验关键数据

主实验

指标 VLADR KRKC (前SOTA) 提升
抗遗忘 mAP (Setting 1) ~52.3% ~50.1% +2.2%
抗遗忘 Rank-1 (Setting 1) ~68.2% ~66.3% +1.9%
泛化 mAP (Setting 1) ~34.5% ~32.0% +2.5%
泛化 Rank-1 (Setting 1) ~49.8% ~47.7% +2.1%
抗遗忘 mAP (Setting 2) ~48.7% ~46.8% +1.9%
泛化 mAP (Setting 2) ~31.2% ~28.8% +2.4%

在两种标准 LReID 评测设置下均实现一致超越。抗遗忘指标衡量在所有已见域上的平均性能,泛化指标衡量在未见域上的迁移能力。

消融实验

配置 抗遗忘 mAP 泛化 mAP 说明
Baseline (CLIP-ReID + LReID) 47.1% 28.5% VLM 直接适配
+ MTAD (Stage 1 only) 49.6% 30.8% 属性解耦有效
+ CMA (跨模态对齐) 51.0% 32.3% 属性知识注入视觉编码器
+ IDA (跨域对齐) 52.3% 34.5% 属性级知识转移缓解遗忘
全局表征 + IDA (无属性解耦) 49.2% 30.1% 全局粒度不如属性粒度
随机属性划分 (替代 MTAD) 48.8% 29.7% 学习的属性解耦优于随机

关键发现

  • MTAD 的属性解耦是性能提升的基础:+2.5% 抗遗忘 mAP,+2.3% 泛化 mAP
  • 跨模态属性对齐(CMA)将文本属性知识有效注入视觉编码器,进一步提升 +1.4% / +1.5%
  • 跨域属性对齐(IDA)在新域学习时提供精细的知识保持,再带来 +1.3% / +2.2% 提升
  • 属性粒度的知识转移显著优于全局粒度:全局+IDA 仅 49.2%,而属性+IDA 达到 52.3%
  • 两种 LReID 设置下的提升趋势一致,证明方法的鲁棒性

亮点与洞察

  • 属性作为跨域桥梁的思路很有说服力:衣着、体型等人体属性天然跨域共享,作为知识转移的最小语义单位比全局表征更稳定
  • 两阶段解耦-强化设计将复杂问题分而治之:Stage 1 专注文本空间的属性挖掘,Stage 2 专注视觉空间的属性注入,各司其职
  • 利用 BLIP 自动生成属性描述避免了人工标注属性标签的开销,使方法具有良好的可扩展性
  • 属性级原型记忆相比实例回放更加紧凑高效,且在语义层面操作更有意义
  • 代码已开源,基于 CLIP-ReID 和 DASK 框架构建,复现性好

局限与展望

  • 属性描述的质量依赖 BLIP 模型的描述能力,对遮挡严重或图像质量差的行人可能生成不准确的描述
  • 属性数量(局部 prompt 数量 \(K\))需要预先设定,不同数据集的最优值可能不同
  • 当前方法假设属性是域不变的,但某些属性(如特定文化背景的着装)可能存在域特异性
  • 未来可以探索将属性解耦从离散 prompt 扩展为连续属性空间,实现更灵活的属性建模
  • 与大语言模型结合进行更精细的属性推理(如从"穿着制服"推断职业属性)也是有前景的方向
  • 将方法扩展到 open-set ReID 和 text-to-image person retrieval 等相关任务

相关工作与启发

  • DASK (AAAI 2025):同一团队的前续工作,通过分布排练缓解遗忘,VLADR 在此基础上引入属性级知识转移
  • CLIP-ReID:基线框架,将 CLIP 适配到 ReID 任务,VLADR 进一步挖掘了 VLM 的细粒度属性潜力
  • LSTKC (AAAI 2024):同一团队的长短期知识整合方法,VLADR 从知识级别提升到属性语义级别
  • 持续学习领域:属性级知识转移的思路可推广到其他持续学习任务(如物体检测、语义分割)中
  • 启发:在 VLM 时代,"如何更好地利用语言端的结构化知识"是一个值得深入的通用问题

评分

  • 新颖性: ⭐⭐⭐⭐ (属性解耦+跨域强化的组合有创新,但单个组件相对成熟)
  • 实验充分度: ⭐⭐⭐⭐ (两种设置+完整消融,但缺少大规模数据集验证)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,动机明确)
  • 价值: ⭐⭐⭐⭐ (对 VLM 驱动的终身学习有启发,属性迁移思路通用性好)