Cross-View Completion Models are Zero-shot Correspondence Estimators¶

会议: CVPR 2025
arXiv: 2412.09072
代码: cvlab-kaist.github.io/ZeroCo
领域: 3D视觉 / 视觉对应
关键词: 跨视图补全, 零样本匹配, 交叉注意力, 代价体, 深度估计

一句话总结¶

揭示跨视图补全（CVC）模型中交叉注意力图（cross-attention map）本质上学到了精确的稠密对应关系，提出ZeroCo在零样本匹配和学习型几何匹配中利用这一发现，显著超越基于编码器/解码器特征的常规用法。

基于CroCo-v2预训练模型，直接利用其解码器中交叉注意力层的注意力图作为代价体，无需任何训练即可实现零样本稠密对应估计。进一步提出轻量级学习模块（代价聚合+上采样）构建学习型匹配和深度估计模型。

交叉注意力图作为代价体（ZeroCo零样本）:
- 功能：将CVC模型的交叉注意力图直接用于零样本对应估计
- 核心思路：从原始和交换输入对分别提取softmax前的交叉注意力图 \(C^l(i,j) = D_t^{l,Q}(i) \cdot D_s^{l,K}(j)\)，跨层平均后融合 \(C' = \frac{1}{L}\sum_l C^l + (\frac{1}{L}\sum_l C^l_{\text{swap}})^T\) 以强制互质性（reciprocity），最终通过soft-argmax得到flow
- 设计动机：CVC的交叉注意力本质上在学习"如何从源视图warp特征到目标视图"，等价于学习对应关系
Register Token修正:
- 功能：消除注意力图中由register token引起的伪影
- 核心思路：将register token对应的注意力值替换为最小注意力值
- 设计动机：Transformer中的register token导致快捷学习（shortcut learning），产生注意力集中在register而非正确位置的伪影
学习型扩展（ZeroCo-flow / ZeroCo-depth）:
- 功能：在冻结的交叉注意力图上添加轻量级头实现细粒度匹配和深度估计
- 核心思路：ZeroCo-flow在交叉注意力图上应用代价聚合 \(\mathcal{T}_c\) 和沿目标轴的上采样 \(\mathcal{U}\) 得到高分辨率flow；ZeroCo-depth将聚合后的注意力图输入DPT head预测深度
- 设计动机：零样本交叉注意力图分辨率粗，添加浅层学习头解决细粒度问题

方法	AEPE ↓ (I)	AEPE ↓ (V)	AEPE ↓ (Avg)
DINOv2 (Correlation)	18.81	36.60	28.08
DIFT_SD (Correlation)	15.89	40.34	29.06
CroCo Encoder (Corr.)	39.69	54.63	47.52
CroCo Decoder (Corr.)	32.38	54.84	44.63
ZeroCo (Cross-attn)	5.07	13.26	9.41