FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention¶

会议: CVPR 2026
arXiv: 2512.01540
代码: 项目页面
领域: 模型压缩
关键词: 三维重建, 高效Transformer, 描述符注意力, 在线推理, 多视图几何

一句话总结¶

通过将VGGT中的全局自注意力替换为基于描述符的交叉注意力，实现了1000张图像推理时间降至VGGT的9.3%，同时保持竞争性重建精度，并可扩展至3000+张图像序列。

VGGT是多视图3D重建的里程碑模型，通过交替的帧内和全局注意力块实现高保真重建。然而，全局注意力需要对所有图像token做自注意力，复杂度为O(S²N²)（S为图像数，N为每帧token数），当处理1000张图像时token总量超过100万，计算瓶颈严重。

作者通过两个关键观察提出解决方案： 1. 经典方法（如SfM）表明稀疏关键点即可推断精确的帧间关联，密集token间注意力可能不必要 2. VGGT的全局注意力图本身就极其稀疏——大多数注意力分数集中在零附近，大量计算花在了无关token对上

输入多视图图像 → DINO编码 → 交替帧注意力 + 描述符注意力（替代全局自注意力） → 重建头输出相机参数和深度图。

空间压缩描述符Token:
- 功能：将每帧的空间token压缩为紧凑的描述符集合
- 核心思路：通过双线性插值将每帧空间分辨率(H,W)降至(H/r, W/r)，r=4时压缩16倍
- 设计动机：插值比池化更好地保留局部空间信息（DINO输出的token对应14×14像素patch，激进聚合会丢失细粒度线索）
描述符注意力机制:
- 功能：用高效的交叉注意力替代二次复杂度的全局自注意力
- 核心思路：全分辨率token作为Query，压缩描述符作为Key/Value做交叉注意力，复杂度从O(K²)降至O(K·K_d) = O(K²/r²)
- 设计动机：保持全局感受野的同时，通过描述符间接聚合全局上下文
块递归推理（Chunk-Recursive Inference）:
- 功能：支持超长序列的在线3D重建
- 核心思路：将长序列分为连续块，缓存并复用前序块的描述符token作为记忆；通过每p帧保留一个描述符的dropping策略控制记忆增长
- 设计动机：描述符的紧凑性使缓存开销仅为StreamVGGT的1/r²，实现可扩展的在线重建

方法	Abs Rel↓	CD↓	APE↓	推理时间(s)	显存(GB)
VGGT	0.048	1.521	6.519	372.8	68.4
FastVGGT	0.034	1.206	5.651	78.2	72.6
FlashVGGT	0.032	1.128	5.237	35.3	60.7

方法	Abs Rel↓	APE↓	时间(s)	显存(GB)
StreamVGGT	0.086	6.543	209.5	70.7
CUT3R	0.375	23.456	34.2	6.2
FlashVGGT	0.047	4.792	12.5	13.1

压缩方法	Abs Rel	Acc↓	说明
池化	0.019	0.560	丢失局部信息
Top-k	0.019	0.569	假设不稳定
双线性插值	0.014	0.436	保留空间细节最优