BIT: Matching-based Bi-directional Interaction Transformation Network for Visible-Infrared Person Re-Identification¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Xuan266/BIT
领域: 行人重识别 / 跨模态检索
关键词: 可见光-红外重识别, 跨模态匹配, 双向交互, 互惠patch挖掘, 查询感知打分
一句话总结¶
针对可见光-红外行人重识别(VI-ReID)中模态鸿沟大、红外样本稀少的问题,BIT 抛弃"把两模态特征对齐到共享空间"的老套路,改用成对匹配(matching-based)范式:先用双向交叉交互模块让一对可见-红外图像互相吸收互补信息,再用查询感知打分模块在 patch 级别挖掘可靠的互惠对应关系算出最终相似度,在 SYSU-MM01 / LLCM / RegDB 三个基准上刷到 SOTA。
研究背景与动机¶
领域现状:VI-ReID 要在可见光和红外两种光谱下检索同一行人,主流做法分两类——图像级方法用生成模型做风格迁移把一种模态"翻译"成另一种;特征级方法在共享嵌入空间里学习模态不变(modality-invariant)表征,把可见光特征和红外特征拉到一起对齐。
现有痛点:这两类方法都依赖固定映射 + 静态对齐。红外强度反映的是可见光谱之外的电磁辐射,受材质、温度分布等因素影响——可见光下外观相似的衣服在红外下可能差异巨大,可见光下颜色迥异的物体在红外下反而几乎一样(论文 Fig.1a)。这种复杂且隐式的跨模态关联,让"一个全局固定映射"很容易过拟合:当两个不同身份的人在红外模态下长得很像时,固定映射会把它俩都投影到同一个可见光特征附近,把视觉相似的负样本也拉近,造成误识别。
核心矛盾:更要命的是 VI-ReID 数据集严重不平衡——红外样本远少于可见光样本(Fig.1c)。特征级方法依赖稠密、均衡的数据才能学出鲁棒的模态不变嵌入,数据一失衡学习能力就大打折扣。
本文目标:找一种不依赖全局对齐、对数据不平衡天然鲁棒的范式,直接捕捉每一对图像的细粒度对应关系。
切入角度:作者观察到,成对匹配(pairwise matching)范式关注的是关系建模而非全局表征学习——它学的是"每一对可见-红外样本特有的自适应变换模式",而不是一个对所有样本一刀切的固定映射。关系建模对训练数据的稀疏/失衡天然更鲁棒。
核心 idea:用自适应的成对匹配代替刚性的特征对齐来解决 VI-ReID。BIT 据作者所述是首个把这种 pairwise matching-driven interaction 引入 VI-ReID 的工作。
方法详解¶
整体框架¶
BIT 是一个 encoder-decoder 架构。编码器是一个共享主干(ViT-B/16)做初步特征提取;解码器由两个核心模块组成——BCI(Bi-directional Cross Interaction,双向交叉交互)负责让一对可见-红外特征在多阶段中互相交换互补信息,QA Scoring(Query Aware Scoring,查询感知打分)负责在 patch 级别挖掘可靠对应、算出这一对图像最终的相似度标量 \(\Psi \in [0,1]\)。
整条流水线是这样转的:先在一个 batch 内把每张可见光图和每张红外图两两配对(batch 内构造全部 \(B^2\) 个 pair),每个 pair 经主干得到 patch 特征;BCI 用交叉注意力让这一对特征双向互相增强、堆叠 \(T=3\) 个 block 迭代精炼;得到精炼后的 \(F'_v, F'_i\) 后送入 QA Scoring,先算双向 patch 相似度矩阵、Top-k 过滤、互惠 patch 挖掘出可靠对应、再用一个轻量 MLP(CASM)把 patch 级相似度聚合成最终匹配分数。训练用两阶段:先单独练主干,再冻结主干只练 BIT。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["可见-红外图像对<br/>(batch 内两两配对)"] --> B["共享主干 ViT-B/16<br/>提取 patch 特征 Fv, Fi"]
B --> C["双向交叉交互 BCI<br/>交叉注意力互增强<br/>堆叠 3× 迭代精炼"]
C -->|"全局交互约束 L_AC<br/>(仅训练)"| C
C --> D["查询感知打分 QA Scoring<br/>Top-k 过滤 + 互惠 patch 挖掘"]
D --> E["置信度感知聚合 CASM<br/>MLP → 相似度分数 Ψ"]
E -->|"成对匹配损失 L_pair"| F["检索排序"]
关键设计¶
1. 双向交叉交互 BCI:让一对特征互相"补课"而非各自对齐
这一块直接针对"固定映射把不同身份的相似负样本拉到一起"的痛点。BCI 不在共享空间里强行对齐,而是让可见光和红外特征双向交换互补信息。先做 batch 内配对:给定可见光 patch 特征 \(F_v \in \mathbb{R}^{B\times N\times C}\) 和红外 \(F_i\),把可见光沿 batch 维重复 \(B\) 次、红外整体重复 \(B\) 次,得到 \(F_v^{(0)}, F_i^{(0)} \in \mathbb{R}^{B^2\times N\times C}\),使每张可见光图都和 batch 里每张红外图配上对。
交互的核心是双向交叉注意力:一个模态当 query、另一个当 key-value,互为补充:
然后用 Transformer 风格的 BCI Block 迭代精炼:两条独立但相互作用的流(可见流、红外流),每条流是残差结构、交替做交叉注意力和前馈。可见流第 \(t\) 阶段更新为 \(\hat{F}_v^{(t)} = F_v^{(t)} + \mathrm{CrossAtt}(\mathrm{LN}(F_v^{(t)}), \mathrm{LN}(F_i^{(t)}))\),再过 \(F_v^{(t+1)} = \hat{F}_v^{(t)} + \mathrm{MLP}(\mathrm{LN}(\hat{F}_v^{(t)}))\),红外流对称。堆叠 \(T=3\) 个 block 渐进精炼,每阶段两模态都吸收对方语义线索、同时保留各自域先验。关键差异在于"双向":消融里单纯加标准交叉注意力反而比 baseline 还差,而双向设计带来显著增益——因为双向能产生对齐更好的中间特征供后续匹配用。
2. 全局交互约束 \(L_{AC}\):用聚合对比损失保证交互是身份一致的
光让特征互相交互还不够,得保证交互后的聚合表征在身份层面是对的。作者引入一个聚合对比损失(Aggregation Contrastive Loss)作为正则项,作用在最后一个 BCI block 输出池化得到的表征 \(f_i\) 上:
其中 \(P_i\) / \(N_i\) 是与样本 \(i\) 同身份 / 不同身份的样本集合,温度 \(\tau\) 固定为 \(1/16\)。它把跨模态正对拉近、把难负样本推开,鼓励 BCI 的跨模态聚合朝着身份判别的方向走,而不是被表面视觉线索或背景噪声带偏。
3. 查询感知打分 QA Scoring:在 patch 级别挖互惠对应,不再一视同仁
传统相似度计算的毛病是"所有 patch 同等对待",但不同 query 因姿态、遮挡、背景杂乱而依赖不同的视觉线索。QA Scoring 让相似度估计变得 query-specific。它分几步走(对应论文 Algorithm 1):
先算双向 patch 相似度矩阵,softmax 沿行归一化:\(S_{vi} = s\!\left(\frac{F'_v F_i'^{\top}}{\sqrt{C}}\right)\),\(S_{iv} = s\!\left(\frac{F'_i F_v'^{\top}}{\sqrt{C}}\right)\)。注意虽然原始点积上 \(S_{iv}\) 是 \(S_{vi}\) 的转置,但行归一化让二者方向上不等价。然后 Top-k 过滤(\(k=3\)):\(R_{v-i}=\mathrm{TopK}(S_{vi}, k)\) 为每个可见 patch 保留 top-k 个红外邻居,反之亦然——因为固定切分下一个 patch 的语义可能对应另一模态的多个 patch。
接着是互惠 patch 挖掘(RPM),这是该模块的灵魂:红外缺色彩信息让单边匹配容易引噪,于是只保留互相选中的 patch 对构成互惠集 \(M = \{(p,q)\mid q\in R_{v-i}[p] \text{ 且 } p\in R_{i-v}[q]\}\)。但严格互惠会让某些可见 patch 一个对都配不上、被排除在打分外,所以再做平滑补全:对没有互惠匹配的 patch \(p\)(\(M_p=\emptyset\)),强行补上它单边相似度最高的红外 patch \(q^*=\arg\max S_{vi}[p]\),得到鲁棒版 \(M'\)。最后算每个可见 patch 的相似度分量:\(\hat{S}[p] = \frac{1}{|M'_p|}\sum_{q\in M'_p} w_{p,q}\cdot S_{vi}[p,q]\),其中权重 \(w_{p,q}=1\)(互惠对)或 \(\alpha=0.2\)(补全对),用惩罚系数 \(\alpha\) 压低补全引入的非互惠匹配的贡献。
4. 置信度感知聚合 CASM:把 patch 分数向量学成一个标量分数
得到 patch 级相似度向量 \(\hat{S}\in\mathbb{R}^N\) 后,要把它压成一个图像级标量。作者不用简单求和/求平均,而是设计了 CASM(Confidence-Aware Scoring Module)——一个轻量 MLP,自适应地按 patch 的信息量加权:\(\Psi = \sigma(\mathrm{CASM}(\hat{S}))\),\(\sigma\) 是 Sigmoid。动机很具体:不是所有互惠匹配都同等重要,有些对应的是显著身体部位或独特配饰,有些则是噪声;学一个软聚合方案能让模型优先用信息量大的匹配、压制误导性匹配。
损失函数 / 训练策略¶
两阶段训练。第一阶段单独练主干,用标准模态不变损失 \(L_{base}\)(身份分类损失 + triplet 损失),先学出可见/红外两模态判别性强的特征嵌入,避免过早被模态特定交互带偏过拟合;此阶段 BIT 不参与。第二阶段冻结主干、只优化 BIT,用 QA Scoring 给出的标量分数 \(\Psi\) 配真值标签 \(y\in\{0,1\}\)(是否同身份)算成对匹配损失 \(L_{pair} = -(y\log\Psi + (1-y)\log(1-\Psi))\),总目标 \(L_{total} = L_{pair} + \lambda L_{AC}\),平衡权重 \(\lambda=0.6\)(网格搜索得到)。
实验关键数据¶
主实验¶
SYSU-MM01(All-Search / Indoor-Search,Single/Multi-Shot),BIT 全面超越 SOTA。下表摘 All-Search Single-Shot(不用 re-ranking)与跨数据集结果:
| 数据集/设置 | 指标 | BIT | 之前最好 | 提升 |
|---|---|---|---|---|
| SYSU All-Search Single | Rank-1 | 80.53 | 79.07 (DiVE) | +1.46 |
| SYSU All-Search Single | mAP | 79.76 | 75.40 (WRIM-Net) | +4.36 |
| SYSU Indoor Single | Rank-1 | 87.42 | 86.20 (WRIM-Net) | +1.22 |
| LLCM Visible→Infrared | Rank-1 | 73.1 | 64.9 (HOS-Net) | +8.2 |
| LLCM Infrared→Visible | Rank-1 | 66.7 | 56.4 (HOS-Net) | +10.3 |
| RegDB V2I | Rank-1 | 96.12 | 95.19 (MUN) | +0.93 |
在 LLCM 上提升最猛(V2I/I2V 的 Rank-1 各涨 8.2 / 10.3 个点),说明匹配范式在更具挑战的场景优势明显。配合 re-ranking 后 SYSU All-Search Single 进一步到 Rank-1 84.42 / mAP 83.64。
消融实验¶
SYSU-MM01 All-Search Single-Shot,以复现的 PMT 为 baseline:
| 配置 | Rank-1 | mAP | 说明 |
|---|---|---|---|
| Base | 69.23 | 66.02 | 仅主干 baseline |
| + BCI | 75.24 | 73.35 | 早期跨模态交互,+6.01 / +7.33 |
| + BCI + \(L_{AC}\) | 76.42 | 74.54 | 聚合对比损失,再 +1.18 / +1.19 |
| + BCI + QA Scoring | 79.53 | 79.02 | QA 打分,相对仅 BCI +4.11 / +5.22(mAP) |
| Full(全开) | 80.53 | 79.76 | 完整模型 |
双向设计的专项消融(Table 5)尤其说明问题:在 baseline 上加标准交叉注意力(如 ALBEF 那种)反而掉点(Rank-1 69.23→68.68),而换成 BCI 的双向设计直接涨到 75.24——证明增益来自"双向互补"而非简单堆注意力。
关键发现¶
- 贡献最大的两个模块是 BCI 和 QA Scoring:BCI 单独 +6.01 Rank-1,QA Scoring 在 BCI 之上再 +4.11 Rank-1 / +5.22 mAP;\(L_{AC}\) 是锦上添花的正则。
- 双向是关键不是注意力本身:标准交叉注意力会让性能比 baseline 还差,反向印证 BCI 的"互相补课"设计才是有效成分。
- 超参不敏感且有最优点:Top-k 在 \(k=3\)、惩罚系数 \(\alpha=0.2\)、权重 \(\lambda=0.6\) 时最佳(Fig.3),曲线整体平缓说明对超参鲁棒。
亮点与洞察¶
- 范式切换最值得借鉴:把 VI-ReID 从"学全局模态不变映射"重构成"学每对样本的自适应匹配",绕开了固定映射在数据失衡下过拟合的死结——这个"关系建模 > 表征学习"的思路可迁移到任何模态不平衡的跨模态检索。
- 互惠 patch 挖掘 + 平滑补全这套组合很巧:先用双向 Top-k 互选保证可靠性、再对落单 patch 用惩罚权重 \(\alpha\) 软补全保证覆盖率,在"只信互惠"和"全用上"之间找了个可调的折中。
- CASM 把"该信哪些 patch"交给一个小 MLP 学:相比手工平均,让模型自己学软聚合权重,是把先验"不是所有匹配同等重要"参数化的干净做法。
局限与展望¶
- 两阶段训练 + 冻结主干:第二阶段冻结主干、只练匹配头,简化了优化但也意味着主干本身没法从匹配信号里再受益,端到端联合训练是否更好论文没探讨。
- batch 内 \(B^2\) 配对的开销:BCI 在 batch 内构造全部 \(B^2\) 个 pair 做交叉注意力,patch 数 \(N\) 一大、batch 一大,交叉注意力的二次复杂度可能成为瓶颈,论文未给出训练/推理耗时与显存的量化对比。⚠️ 数据不平衡鲁棒性的实验细节放在补充材料,正文只给了结论,无法核对具体数字。
- patch 用固定切分:QA Scoring 明确承认固定切分会让一个 patch 语义对应另一模态多个 patch(所以才要 Top-k),若用可变形/语义对齐的 patch 划分或许能进一步减噪。
相关工作与启发¶
- vs 特征级方法(MID / CAJ / PMT 等):它们在共享空间学模态不变表征、用固定映射对齐;BIT 不对齐,直接成对匹配学自适应变换。优势是对数据失衡更鲁棒、不易把相似负样本拉近;代价是要做成对前向、计算结构更重。
- vs 图像级生成方法:生成模型做风格迁移补齐配对数据,但引噪且算力贵;BIT 不生成、直接在特征上做交互匹配,避开了生成噪声。
- vs 单模态匹配式 Re-ID:它们假设特征同质、用简单映射算最终相似度;BIT 多了 BCI 这一步本质性的特征精炼来弥合模态差异,而非假设两模态特征已经同质。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 据作者所述首个把成对匹配范式引入 VI-ReID,双向交互 + 互惠 patch 挖掘是一套自洽的新设计
- 实验充分度: ⭐⭐⭐⭐ 三大基准全面 SOTA、消融拆解到位,但数据失衡鲁棒性和效率分析都塞进了补充材料
- 写作质量: ⭐⭐⭐⭐ 动机(Fig.1 三连)讲得清楚,方法公式完整;个别表述(\(S_{iv}\) 与转置的关系)需要细读
- 价值: ⭐⭐⭐⭐ 范式切换思路对模态不平衡的跨模态检索有普适启发,代码已开源