MutualVPR: A Mutual Learning Framework for Resolving Supervision Inconsistencies via Adaptive Clustering¶

会议: NeurIPS 2025
arXiv: 2412.09199
代码: 有
领域: 视觉定位 / 图像检索
关键词: Visual Place Recognition, 自适应聚类, 互学习, 监督一致性, DINOv2

一句话总结¶

提出 MutualVPR 互学习框架，通过特征驱动的自适应 K-means 聚类动态分配场景类别标签，解决分类式 VPR 方法中由视角变化和遮挡导致的监督不一致问题。

研究背景与动机¶

视觉位置识别（VPR） 要求从查询图像匹配出已访问位置，是自动驾驶和机器人长期定位的核心组件。

分类式 VPR 方法（如 CosPlace、EigenPlaces）将环境按地理坐标划分为网格，每个网格一个类别标签，使用分类损失训练。这避免了对比学习中昂贵的难样本挖掘。但存在严重的监督不一致问题：

视角变化 a)：同一位置不同朝向拍摄的图像视觉内容差异巨大，但被分配同一标签

视角变化 b)：视觉相似但朝向标签不同的图像被分到不同类

遮挡问题：建筑物、车辆等遮挡导致面向同一参考点的图像内容差异大（EigenPlaces 的假设失效）

CosPlace 依赖人工标注朝向标签划分类别 → 不保证类内视觉一致性

EigenPlaces 用 SVD 分解假设面向同一参考点的图像相似 → 在有遮挡的城市环境中失效

核心洞察：有效的 VPR 监督应反映语义相似性，而非仅依赖空间邻近或固定朝向假设。

方法详解¶

整体框架¶

MutualVPR 包含特征提取和自适应聚类两个交替优化的阶段（图3）：

阶段1：更新后的聚类标签监督特征学习
阶段2：改进后的特征指导重新聚类

两者共同演化（co-evolution），逐步消除监督不一致。

关键设计¶

特征编码器：
- 基于 DINOv2 ViT-B/14 骨干，冻结预训练参数
- 引入 MulConv Adapter：瓶颈结构 + 三个并行卷积分支（不同感受野），提取多尺度特征
- GeM 池化 + 全连接层降维至 512 维描述子
- Adapter 通过可学习缩放因子 \(s\) 控制贡献：\(z_l = \text{MLP}(\text{LN}(z_l')) + s \cdot \text{Adapter}(\text{LN}(z_l')) + z_l'\)
自适应聚类的互学习：
- 初始化：按 UTM 坐标划分粗粒度位置网格 \(x = \{\lfloor east/M \rfloor, \lfloor north/M \rfloor\}\)
- 网格内细分：在每个 UTM 区域内，基于学习到的描述子进行迭代 K-means 聚类
- 类别定义：\(C = \{e_i, n_j, h \mid e_i, n_j \in x, h \in K\}\)，\(K\) 控制视角方向的划分粒度
- 核心：特征编码器和聚类过程迭代互更新，避免早期错误分配的误差累积
- 分类损失采用 LMCL（Large Margin Cosine Loss）
多角度裁剪策略：
- 从全景图按不同起始角度（0° 和 30°）每隔 60° 裁剪，生成训练数据
- 增加语义连续性，相邻裁剪图像自然共享语义内容

训练策略¶

图像尺寸 504×504，描述子维度 512，网格大小 \(M=10\)，聚类数 \(K=3\)
特征提取器学习率 1e-5，分类器学习率 1e-2，Adam 优化器 + 余弦退火
训练 50 个 epoch，每个 epoch 10,000 次迭代
将所有 UTM 类分为8组轮替训练，每个 epoch 随机选择 1/5 进行聚类

实验关键数据¶

主实验——多基准对比（表1）¶

方法	维度	训练集	MSLS-val R@1	Pitts30k R@1	Tokyo24/7 R@1	SF-XL-test R@1
CosPlace	512	SF-XL	84.4	89.6	76.5	64.8
EigenPlaces	512	SF-XL	88.1	92.3	84.8	83.8
MixVPR	4096	GSV-Cities	87.1	91.6	87.0	69.2
SALAD+CM	512+32	MSLS+GSV	90.4	90.9	92.8	78.4
BoQ	512	GSV-Cities	88.4	93.1	91.9	79.6
MutualVPR	512	SF-XL	89.2	90.9	92.4	80.8

遮挡鲁棒性实验——SF-XL-Occlusion（表2）¶

方法	R@1	R@5	R@10	R@20
CosPlace	32.9	43.4	46.1	48.7
EigenPlaces	36.8	51.8	56.6	59.2
MixVPR	30.3	35.5	38.2	44.7
SALAD+CM	40.8	53.7	58.3	61.3
MutualVPR	47.4	65.8	71.1	73.7

MutualVPR 在遮挡场景下 R@1 领先第二名（CricaVPR1/SALAD+CM 40.8%）6.6个百分点。

消融——聚类数 \(K\) 的影响（表4）¶

骨干	K	Tokyo24/7 R@1	SF-XL-test R@1
DINOv2	1（无聚类）	80.6	61.1
DINOv2	3	91.1	77.0
DINOv2	6	86.0	70.9
ResNet50	1	68.3	52.1
ResNet50	6	82.9	74.5

关键发现¶

不使用聚类（\(K=1\)）性能最差，证明视角方向分类的有效性
DINOv2 骨干最优 \(K=3\)，ResNet50 最优 \(K=6\)——最优聚类数取决于骨干和数据
自适应聚类 vs 固定朝向标签：即使不使用多角度裁剪，MutualVPR（DINOv2, 0°）R@1=91.1 vs CosPlace（DINOv2, 0°）R@1=90.2
遮挡场景的大幅领先源于两个机制：自适应监督纠正（迭代纠正初始错误分配）和类内语义紧凑性（语义相似视图在特征空间中更近）

亮点与洞察¶

问题分析深入：通过 t-SNE 可视化清晰展示了三类监督不一致的具体表现
简洁有效：仅用 K-means 聚类和特征学习的交替迭代就解决了分类式 VPR 的核心问题
无需朝向标签：完全依赖视觉语义自组织，比 CosPlace 的人工标签和 EigenPlaces 的 SVD 假设更灵活
仅用 SF-XL 训练，就在多个基准上与用 GSV-Cities（更大更干净）训练的对比学习方法相当

局限与展望¶

聚类数 \(K\) 为固定超参数，未能随数据特征自适应调整
互学习的收敛性缺乏理论保证
仅验证了二维图像（全景裁剪），未尝试 3D 点云等其他模态
最优 \(K\) 对骨干网络敏感，缺乏自动选择策略

评分¶

新颖性: ⭐⭐⭐⭐ — 互学习框架和自适应聚类思路简洁优雅
实验充分度: ⭐⭐⭐⭐ — 多基准验证充分，遮挡实验有说服力，消融完整
写作质量: ⭐⭐⭐⭐ — 问题分析清晰，可视化直观
价值: ⭐⭐⭐⭐ — 有效解决分类式 VPR 的痛点，实用性强