BIT: Matching-based Bi-directional Interaction Transformation Network for Visible-Infrared Person Re-Identification¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Xuan266/BIT
领域: 行人重识别 / 跨模态检索
关键词: 可见光-红外重识别, 跨模态匹配, 双向交互, 互惠patch挖掘, 查询感知打分

一句话总结¶

针对可见光-红外行人重识别（VI-ReID）中模态鸿沟大、红外样本稀少的问题，BIT 抛弃"把两模态特征对齐到共享空间"的老套路，改用成对匹配（matching-based）范式：先用双向交叉交互模块让一对可见-红外图像互相吸收互补信息，再用查询感知打分模块在 patch 级别挖掘可靠的互惠对应关系算出最终相似度，在 SYSU-MM01 / LLCM / RegDB 三个基准上刷到 SOTA。

研究背景与动机¶

领域现状：VI-ReID 要在可见光和红外两种光谱下检索同一行人，主流做法分两类——图像级方法用生成模型做风格迁移把一种模态"翻译"成另一种；特征级方法在共享嵌入空间里学习模态不变（modality-invariant）表征，把可见光特征和红外特征拉到一起对齐。

现有痛点：这两类方法都依赖固定映射 + 静态对齐。红外强度反映的是可见光谱之外的电磁辐射，受材质、温度分布等因素影响——可见光下外观相似的衣服在红外下可能差异巨大，可见光下颜色迥异的物体在红外下反而几乎一样（论文 Fig.1a）。这种复杂且隐式的跨模态关联，让"一个全局固定映射"很容易过拟合：当两个不同身份的人在红外模态下长得很像时，固定映射会把它俩都投影到同一个可见光特征附近，把视觉相似的负样本也拉近，造成误识别。

核心矛盾：更要命的是 VI-ReID 数据集严重不平衡——红外样本远少于可见光样本（Fig.1c）。特征级方法依赖稠密、均衡的数据才能学出鲁棒的模态不变嵌入，数据一失衡学习能力就大打折扣。

本文目标：找一种不依赖全局对齐、对数据不平衡天然鲁棒的范式，直接捕捉每一对图像的细粒度对应关系。

切入角度：作者观察到，成对匹配（pairwise matching）范式关注的是关系建模而非全局表征学习——它学的是"每一对可见-红外样本特有的自适应变换模式"，而不是一个对所有样本一刀切的固定映射。关系建模对训练数据的稀疏/失衡天然更鲁棒。

核心 idea：用自适应的成对匹配代替刚性的特征对齐来解决 VI-ReID。BIT 据作者所述是首个把这种 pairwise matching-driven interaction 引入 VI-ReID 的工作。

方法详解¶

整体框架¶

BIT 是一个 encoder-decoder 架构。编码器是一个共享主干（ViT-B/16）做初步特征提取；解码器由两个核心模块组成——BCI（Bi-directional Cross Interaction，双向交叉交互）负责让一对可见-红外特征在多阶段中互相交换互补信息，QA Scoring（Query Aware Scoring，查询感知打分）负责在 patch 级别挖掘可靠对应、算出这一对图像最终的相似度标量 \(\Psi \in [0,1]\)。

整条流水线是这样转的：先在一个 batch 内把每张可见光图和每张红外图两两配对（batch 内构造全部 \(B^2\) 个 pair），每个 pair 经主干得到 patch 特征；BCI 用交叉注意力让这一对特征双向互相增强、堆叠 \(T=3\) 个 block 迭代精炼；得到精炼后的 \(F'_v, F'_i\) 后送入 QA Scoring，先算双向 patch 相似度矩阵、Top-k 过滤、互惠 patch 挖掘出可靠对应、再用一个轻量 MLP（CASM）把 patch 级相似度聚合成最终匹配分数。训练用两阶段：先单独练主干，再冻结主干只练 BIT。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["可见-红外图像对<br/>(batch 内两两配对)"] --> B["共享主干 ViT-B/16<br/>提取 patch 特征 Fv, Fi"]
    B --> C["双向交叉交互 BCI<br/>交叉注意力互增强<br/>堆叠 3× 迭代精炼"]
    C -->|"全局交互约束 L_AC<br/>(仅训练)"| C
    C --> D["查询感知打分 QA Scoring<br/>Top-k 过滤 + 互惠 patch 挖掘"]
    D --> E["置信度感知聚合 CASM<br/>MLP → 相似度分数 Ψ"]
    E -->|"成对匹配损失 L_pair"| F["检索排序"]

关键设计¶

1. 双向交叉交互 BCI：让一对特征互相"补课"而非各自对齐

这一块直接针对"固定映射把不同身份的相似负样本拉到一起"的痛点。BCI 不在共享空间里强行对齐，而是让可见光和红外特征双向交换互补信息。先做 batch 内配对：给定可见光 patch 特征 \(F_v \in \mathbb{R}^{B\times N\times C}\) 和红外 \(F_i\)，把可见光沿 batch 维重复 \(B\) 次、红外整体重复 \(B\) 次，得到 \(F_v^{(0)}, F_i^{(0)} \in \mathbb{R}^{B^2\times N\times C}\)，使每张可见光图都和 batch 里每张红外图配上对。

交互的核心是双向交叉注意力：一个模态当 query、另一个当 key-value，互为补充：

\[\tilde{F}_v^{(0)} = \mathrm{CrossAtt}(F_v^{(0)}, F_i^{(0)}), \quad \tilde{F}_i^{(0)} = \mathrm{CrossAtt}(F_i^{(0)}, F_v^{(0)})\]

然后用 Transformer 风格的 BCI Block 迭代精炼：两条独立但相互作用的流（可见流、红外流），每条流是残差结构、交替做交叉注意力和前馈。可见流第 \(t\) 阶段更新为 \(\hat{F}_v^{(t)} = F_v^{(t)} + \mathrm{CrossAtt}(\mathrm{LN}(F_v^{(t)}), \mathrm{LN}(F_i^{(t)}))\)，再过 \(F_v^{(t+1)} = \hat{F}_v^{(t)} + \mathrm{MLP}(\mathrm{LN}(\hat{F}_v^{(t)}))\)，红外流对称。堆叠 \(T=3\) 个 block 渐进精炼，每阶段两模态都吸收对方语义线索、同时保留各自域先验。关键差异在于"双向"：消融里单纯加标准交叉注意力反而比 baseline 还差，而双向设计带来显著增益——因为双向能产生对齐更好的中间特征供后续匹配用。

2. 全局交互约束 \(L_{AC}\)：用聚合对比损失保证交互是身份一致的

光让特征互相交互还不够，得保证交互后的聚合表征在身份层面是对的。作者引入一个聚合对比损失（Aggregation Contrastive Loss）作为正则项，作用在最后一个 BCI block 输出池化得到的表征 \(f_i\) 上：

\[L_{AC} = -\frac{1}{|P_i|}\sum_{p\in P_i}\log\frac{e^{f_i\cdot f_p/\tau}}{e^{f_i\cdot f_p/\tau} + \sum_{j\in N_i}e^{f_i\cdot f_j/\tau}}\]

其中 \(P_i\) / \(N_i\) 是与样本 \(i\) 同身份 / 不同身份的样本集合，温度 \(\tau\) 固定为 \(1/16\)。它把跨模态正对拉近、把难负样本推开，鼓励 BCI 的跨模态聚合朝着身份判别的方向走，而不是被表面视觉线索或背景噪声带偏。

3. 查询感知打分 QA Scoring：在 patch 级别挖互惠对应，不再一视同仁

传统相似度计算的毛病是"所有 patch 同等对待"，但不同 query 因姿态、遮挡、背景杂乱而依赖不同的视觉线索。QA Scoring 让相似度估计变得 query-specific。它分几步走（对应论文 Algorithm 1）：

先算双向 patch 相似度矩阵，softmax 沿行归一化：\(S_{vi} = s\!\left(\frac{F'_v F_i'^{\top}}{\sqrt{C}}\right)\)，\(S_{iv} = s\!\left(\frac{F'_i F_v'^{\top}}{\sqrt{C}}\right)\)。注意虽然原始点积上 \(S_{iv}\) 是 \(S_{vi}\) 的转置，但行归一化让二者方向上不等价。然后 Top-k 过滤（\(k=3\)）：\(R_{v-i}=\mathrm{TopK}(S_{vi}, k)\) 为每个可见 patch 保留 top-k 个红外邻居，反之亦然——因为固定切分下一个 patch 的语义可能对应另一模态的多个 patch。

接着是互惠 patch 挖掘（RPM），这是该模块的灵魂：红外缺色彩信息让单边匹配容易引噪，于是只保留互相选中的 patch 对构成互惠集 \(M = \{(p,q)\mid q\in R_{v-i}[p] \text{ 且 } p\in R_{i-v}[q]\}\)。但严格互惠会让某些可见 patch 一个对都配不上、被排除在打分外，所以再做平滑补全：对没有互惠匹配的 patch \(p\)（\(M_p=\emptyset\)），强行补上它单边相似度最高的红外 patch \(q^*=\arg\max S_{vi}[p]\)，得到鲁棒版 \(M'\)。最后算每个可见 patch 的相似度分量：\(\hat{S}[p] = \frac{1}{|M'_p|}\sum_{q\in M'_p} w_{p,q}\cdot S_{vi}[p,q]\)，其中权重 \(w_{p,q}=1\)（互惠对）或 \(\alpha=0.2\)（补全对），用惩罚系数 \(\alpha\) 压低补全引入的非互惠匹配的贡献。

4. 置信度感知聚合 CASM：把 patch 分数向量学成一个标量分数

得到 patch 级相似度向量 \(\hat{S}\in\mathbb{R}^N\) 后，要把它压成一个图像级标量。作者不用简单求和/求平均，而是设计了 CASM（Confidence-Aware Scoring Module）——一个轻量 MLP，自适应地按 patch 的信息量加权：\(\Psi = \sigma(\mathrm{CASM}(\hat{S}))\)，\(\sigma\) 是 Sigmoid。动机很具体：不是所有互惠匹配都同等重要，有些对应的是显著身体部位或独特配饰，有些则是噪声；学一个软聚合方案能让模型优先用信息量大的匹配、压制误导性匹配。

损失函数 / 训练策略¶

两阶段训练。第一阶段单独练主干，用标准模态不变损失 \(L_{base}\)（身份分类损失 + triplet 损失），先学出可见/红外两模态判别性强的特征嵌入，避免过早被模态特定交互带偏过拟合；此阶段 BIT 不参与。第二阶段冻结主干、只优化 BIT，用 QA Scoring 给出的标量分数 \(\Psi\) 配真值标签 \(y\in\{0,1\}\)（是否同身份）算成对匹配损失 \(L_{pair} = -(y\log\Psi + (1-y)\log(1-\Psi))\)，总目标 \(L_{total} = L_{pair} + \lambda L_{AC}\)，平衡权重 \(\lambda=0.6\)（网格搜索得到）。

实验关键数据¶

主实验¶

SYSU-MM01（All-Search / Indoor-Search，Single/Multi-Shot），BIT 全面超越 SOTA。下表摘 All-Search Single-Shot（不用 re-ranking）与跨数据集结果：

数据集/设置	指标	BIT	之前最好	提升
SYSU All-Search Single	Rank-1	80.53	79.07 (DiVE)	+1.46
SYSU All-Search Single	mAP	79.76	75.40 (WRIM-Net)	+4.36
SYSU Indoor Single	Rank-1	87.42	86.20 (WRIM-Net)	+1.22
LLCM Visible→Infrared	Rank-1	73.1	64.9 (HOS-Net)	+8.2
LLCM Infrared→Visible	Rank-1	66.7	56.4 (HOS-Net)	+10.3
RegDB V2I	Rank-1	96.12	95.19 (MUN)	+0.93

在 LLCM 上提升最猛（V2I/I2V 的 Rank-1 各涨 8.2 / 10.3 个点），说明匹配范式在更具挑战的场景优势明显。配合 re-ranking 后 SYSU All-Search Single 进一步到 Rank-1 84.42 / mAP 83.64。

消融实验¶

SYSU-MM01 All-Search Single-Shot，以复现的 PMT 为 baseline：

配置	Rank-1	mAP	说明
Base	69.23	66.02	仅主干 baseline
+ BCI	75.24	73.35	早期跨模态交互，+6.01 / +7.33
+ BCI + \(L_{AC}\)	76.42	74.54	聚合对比损失，再 +1.18 / +1.19
+ BCI + QA Scoring	79.53	79.02	QA 打分，相对仅 BCI +4.11 / +5.22(mAP)
Full（全开）	80.53	79.76	完整模型

双向设计的专项消融（Table 5）尤其说明问题：在 baseline 上加标准交叉注意力（如 ALBEF 那种）反而掉点（Rank-1 69.23→68.68），而换成 BCI 的双向设计直接涨到 75.24——证明增益来自"双向互补"而非简单堆注意力。

关键发现¶

贡献最大的两个模块是 BCI 和 QA Scoring：BCI 单独 +6.01 Rank-1，QA Scoring 在 BCI 之上再 +4.11 Rank-1 / +5.22 mAP；\(L_{AC}\) 是锦上添花的正则。
双向是关键不是注意力本身：标准交叉注意力会让性能比 baseline 还差，反向印证 BCI 的"互相补课"设计才是有效成分。
超参不敏感且有最优点：Top-k 在 \(k=3\)、惩罚系数 \(\alpha=0.2\)、权重 \(\lambda=0.6\) 时最佳（Fig.3），曲线整体平缓说明对超参鲁棒。

亮点与洞察¶

范式切换最值得借鉴：把 VI-ReID 从"学全局模态不变映射"重构成"学每对样本的自适应匹配"，绕开了固定映射在数据失衡下过拟合的死结——这个"关系建模 > 表征学习"的思路可迁移到任何模态不平衡的跨模态检索。
互惠 patch 挖掘 + 平滑补全这套组合很巧：先用双向 Top-k 互选保证可靠性、再对落单 patch 用惩罚权重 \(\alpha\) 软补全保证覆盖率，在"只信互惠"和"全用上"之间找了个可调的折中。
CASM 把"该信哪些 patch"交给一个小 MLP 学：相比手工平均，让模型自己学软聚合权重，是把先验"不是所有匹配同等重要"参数化的干净做法。

局限与展望¶

两阶段训练 + 冻结主干：第二阶段冻结主干、只练匹配头，简化了优化但也意味着主干本身没法从匹配信号里再受益，端到端联合训练是否更好论文没探讨。
batch 内 \(B^2\) 配对的开销：BCI 在 batch 内构造全部 \(B^2\) 个 pair 做交叉注意力，patch 数 \(N\) 一大、batch 一大，交叉注意力的二次复杂度可能成为瓶颈，论文未给出训练/推理耗时与显存的量化对比。⚠️ 数据不平衡鲁棒性的实验细节放在补充材料，正文只给了结论，无法核对具体数字。
patch 用固定切分：QA Scoring 明确承认固定切分会让一个 patch 语义对应另一模态多个 patch（所以才要 Top-k），若用可变形/语义对齐的 patch 划分或许能进一步减噪。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 据作者所述首个把成对匹配范式引入 VI-ReID，双向交互 + 互惠 patch 挖掘是一套自洽的新设计
实验充分度: ⭐⭐⭐⭐ 三大基准全面 SOTA、消融拆解到位，但数据失衡鲁棒性和效率分析都塞进了补充材料
写作质量: ⭐⭐⭐⭐ 动机（Fig.1 三连）讲得清楚，方法公式完整；个别表述（\(S_{iv}\) 与转置的关系）需要细读
价值: ⭐⭐⭐⭐ 范式切换思路对模态不平衡的跨模态检索有普适启发，代码已开源