Reasoning with Pixel-level Precision: QVLM Architecture and SQuID Dataset for Quantitative Geospatial Analytics¶

会议: CVPR 2026
arXiv: 2601.13401
代码: GitHub
领域: 语义分割
关键词: VLM, 定量空间推理, 代码生成, 卫星图像, 语义分割

一句话总结¶

提出 QVLM 架构和 SQuID 数据集，通过代码生成+分割模型的解耦设计，在卫星图像上实现像素级精度的定量空间推理，克服了传统 VLM 因 patch embedding 压缩而丢失空间索引的根本限制。

领域现状: 当前视觉-语言模型（VLM）在场景理解和定性描述方面表现优异，但在定量空间推理（如计数、面积测量、距离计算）上表现很差，卫星图像领域尤为严重。

现有痛点: VLM 通过 vision encoder 将 1024×1024 图像压缩为 64×64 的 token 网格（256 倍压缩），这一过程从架构层面摧毁了定量分析所需的像素级空间索引。研究显示 vision encoder 导致了 40-60% 的 k-近邻散度。

核心矛盾: VLM 能"口若悬河"地描述一片森林，却无法可靠地数出其中的树木——模型的定性理解与定量分析之间存在根本性断裂。

本文目标 在卫星影像中，为气候监测、城市规划、灾害响应等需要精确数量化分析的应用提供可靠解决方案。

切入角度: 架构解耦——让语言模型只负责理解问题和生成代码，视觉分析完全交给分割模型在原始像素上操作。

核心 idea: 通过代码生成将语言理解与视觉分析解耦，使模型在像素分割掩码上直接执行几何运算，从而保持全程空间索引不压缩。

QVLM 是一个三阶段架构：(1) LLM 解析自然语言问题并生成 Python 代码；(2) 代码调用分割模型获取像素级二值掩码；(3) 在掩码上执行几何运算（计数、面积计算、距离测量）得到最终答案。LLM 从不直接处理图像像素，避免了 vision encoder 的信息瓶颈。

SQuID 数据集: 包含 2000 个卫星图像 QA 对，来自 DeepGlobe、EarthVQA 和 Solar Panels 三个数据源，跨三个难度层级（基础量化/空间关系/复杂多条件）。独创性地引入基于人类标注变异性的可接受答案范围（而非单点答案），使用中位数绝对偏差（MAD）从 10 名标注者的 500 条标注中计算。
代码生成 API: 提供三个核心几何函数——segment_image_from_path（提取土地覆盖掩码）、find_shapes_within_distance（缓冲区邻近分析）、calculate_shape_distances（最小距离计算）。通过组合这些原语可处理从简单百分比到复杂多条件的多种查询。
分割模型: 采用 ConvNeXt-UNet 架构（ImageNet 预训练 ConvNeXt encoder + U-Net decoder），支持语义分割和实例分割。另外实现了 DINOv3-Mask2Former 变体以验证模块化。多个模型可通过最大 logit 融合扩展类别覆盖。

分割模型使用交叉熵损失 + Adam 优化器（lr=1e-4）进行监督训练。通过随机仿射裁剪和颜色增强进行数据增强。QVLM 本身为零样本 pass@1 评估，不需要端到端训练。

模型配置	Tier 1	Tier 2	Tier 3	总体准确率
QVLM (GPT-5 + ConvNeXt)	53.52%	54.06%	18.84%	42.00%
QVLM (GPT-oss-120B + ConvNeXt)	43.84%	47.62%	5.88%	32.14%
QVLM (GPT-5 + DINOv3)	40.74%	40.22%	12.20%	30.83%
QVLM (Llama3.1-8B + ConvNeXt)	39.86%	41.88%	5.79%	29.00%
VLM-A (GPT-5 直接编码)	39.30%	34.09%	10.83%	28.10%
VLM-B (QWEN 30B)	39.01%	36.85%	3.71%	26.14%