Benchmarks for Vision-Language Models in Urban Perception Should Be Reliability-Aware and Negotiated¶

会议: ICML2026
arXiv: 2606.00871
代码: 无
领域: 多模态VLM
关键词: VLM评估, 城市感知, 标注者可靠性, 基准协商, 街景图像

一句话总结¶

本文提出 VLM 城市感知评估应具备"可靠性感知"和"可协商"两大属性，通过 100 张蒙特利尔街景图像、12 名社区标注者、30 个维度的基准测试，揭示了模型对齐度与标注者一致性正相关，且在主观评价维度上模型与人类存在系统性分布偏差。

研究背景与动机¶

领域现状：视觉-语言模型（VLM）正被广泛用于生成街景图像的结构化描述，支撑城市审计、地图制作和公众咨询等任务。现有评估基准通常将标注共识视为稳定的"ground truth"，用点估计的准确率来衡量模型性能。

现有痛点：城市感知任务混合了可观测属性（如是否有人行道）和评价性类别（如舒适度、安全感），后者的标注本质上是一个分布而非确定标签。不同标注者之间存在分歧和显式弃权（Not applicable），但传统基准将这些信号压扁为单一标签，掩盖了系统性分歧。

核心矛盾：当基准将主观评价的标注分歧视为"标注噪声"而非有意义的测量结果时，模型评分实际上既反映了模型能力，也反映了标注过程的属性——二者被混为一谈。在城市治理等下游应用中，这种混淆可能误导决策。

本文目标：(1) 在评估中同时报告标注者间可靠性和模型对齐度；(2) 将分歧和弃权作为测量结果而非误差；(3) 将标签空间和评分策略视为可通过社区协商修订的制品。

切入角度：作者观察到，不同维度的标注一致性差异极大——描述可见物理属性的维度一致性高，而涉及主观评价的维度一致性低。如果模型对齐度与人类可靠性共变，那么宏观分数就是在混合不同测量质量的维度。

核心 idea：城市感知 VLM 基准应当"可靠性感知"（报告标注可靠性以限定对齐分数的解释）且"可协商"（标签体系可被利益方修订和版本化）。

方法详解¶

整体框架¶

本文不是提出新模型，而是提出一套评估框架：构建一个社区标注的小规模基准 → 用固定 zero-shot 协议评估 7 个 VLM → 同时计算标注可靠性与模型对齐度 → 分析二者的关系和分布偏差 → 提出基准协商与版本化机制。

关键设计¶

1. 可靠性感知评估协议：报告对齐分数的同时逐维度报告标注者一致性

如果不区分「标注者分歧是因为维度本身就模糊」和「标注者分歧是因为模型识别错了」，那任何一个对齐分数都没法解读。这一设计就是把可靠性数据和对齐分数并列报告，让这两种情况变得可分。具体地，用 Krippendorff's \(\alpha\)（名义距离）做每个维度的可靠性度量，单选维度算准确率、多选维度算 Jaccard 指数；弃权标签（Not applicable / Cannot judge）不当普通类别处理，而是当作「非响应」——共识标签为弃权的样本在算准确率时直接排除，多标签里去掉弃权后双方都成空集的情况记为缺失。这样一来，一个维度若标注者 \(\alpha\) 很低，它上面的模型准确率就不再被读成「模型差」，而是「这个维度的共识标签本身就不稳」。

2. 社区标注基准数据集：让分歧和弃权变得「可观测」

现有大规模基准为了覆盖面牺牲了标注可靠性的可观测性，分歧被压成单一标签后就再也看不见。本文反其道而行，做一个小而精的经验锚点：100 张蒙特利尔街景（50 张真实照片 + 50 张 SDXL 合成图），由 7 个社区组织的 12 名标注者用法语标注 30 个维度，覆盖场景设定、人的存在与活动、建筑形式与美学、主观印象四大类。每张图取 1–3 个独立标注（共 230 份），经确定性法英映射归一化后，单选用多数投票、多选用 \(\geq 50\%\) 选择阈值构建共识。规模虽小，但正因为精心保留了每个标注者的原始判断和弃权行为，那些被大规模基准抹平的结构性问题才得以暴露。

3. 基准协商与版本化机制：把基准当可修订的制品而非固定标准

在城市治理场景里，标签体系的选择会直接渗进政策决策——如果这套标签不能被利益相关方质疑和修订，基准就悄悄变成了一种隐性的权力结构。为此本文定义了 6 项披露要素（标签规范、判断收集、可靠性报告、聚合评分、模型接口、修订记录），让基准的全部假设对外部可审计；任何修订都产出一个新版本的标签空间和评分策略，用版本号追踪变更，不同版本的评估结果并行报告而非互相覆盖。这把「基准是测量仪器」的隐含预设，换成了「基准是承载价值判断、可被社区协商的社会技术制品」。

评估协议¶

采用确定性 zero-shot 评估：temperature=0、top_p=1，prompt 固定枚举 30 个维度及其定义，要求模型输出单行 CSV 格式的结构化回答。评估 7 个 VLM：Claude-Sonnet、OpenAI-o4-mini、GPT-4.1、Gemini-2.5-Pro、Grok-2-Vision、Qwen2.5-VL 和 LLaMA-4-Maverick。

实验关键数据¶

主实验¶

指标	最低值	最高值	说明
宏观对齐分数	0.16	0.31	7 个 VLM 在 30 维度上的宏观平均（单选准确率 + 多选 Jaccard）
可观测维度 vs 评价维度	—	—	所有模型在可观测属性子集上的分数均高于评价子集
照片 vs 合成图	—	—	所有模型在真实照片上的对齐度均高于合成图

维度级分析¶

维度类型	Krippendorff's \(\alpha\) 范围	模型对齐度趋势	关键发现
可观测属性（如人行道有无、植被存在）	较高（\(\alpha > 0.4\)）	模型对齐度高，排名靠前	低对齐 = 模型识别或 prompt 限制
主观评价（如舒适度、整体印象）	较低（\(\alpha < 0.2\)）	模型对齐度低，排名靠后	低对齐可能因为维度本身模糊
Overall Impression 维度	低	分布偏差显著	模型选 Not applicable 比率远高于标注者；选 Accessible 比率远低于标注者

关键发现¶

可靠性-对齐正相关：维度级人类可靠性（\(\alpha\)）与平均模型对齐度呈正相关——标注者越一致的维度，模型表现也越好。这意味着宏观分数实际上混合了不同"测量质量"的维度
弃权行为系统性差异：在 Overall Impression 维度上，多个模型将 Not applicable 用于表达不确定性，而标注者区分了 Cannot judge 和 Not applicable，造成分布偏差。这说明 prompt 语义和人类语义的对应关系不平凡
合成图域偏移：所有模型在合成渲染场景上的对齐度均低于真实照片，支持在使用合成数据时进行分层报告
跨模型结构一致：7 个模型在维度间的难度排序高度一致，说明难度主要由评估体系（维度定义 + 评分策略）决定，而非模型差异

亮点与洞察¶

将基准视为"制品"而非"事实"：这是评估哲学层面的重要转向——基准不是测量仪器，而是一个承载价值判断、可被质疑和修订的社会技术制品。这种视角对所有涉及主观标签的 ML 基准（毒性检测、医学影像、内容审核）都有启示
可靠性报告改变分数含义：当我们知道一个维度的标注者 \(\alpha = 0.1\) 时，该维度上 30% 的模型准确率就不再意味着"模型很差"，而是"这个维度的共识标签本身就不稳定"。这种条件化解读避免了误导性的模型排名
弃权作为一阶信号：将 Not applicable 的使用频率作为独立指标报告，揭示了模型和人类在不确定性处理上的系统性差异，这在传统准确率中完全不可见

局限与展望¶

规模限制：100 张图像、12 名标注者的小规模基准无法支撑统计功效较高的模型排名，作者也声明这是经验锚点而非代表性样本
地理和文化局限：标注来自蒙特利尔特定社区，感知判断可能不具跨文化普遍性
仅限 zero-shot：未涉及微调、多轮交互或多图上下文，限制了对模型潜力的全面评估
法英映射误差：确定性的法语-英语归一化可能在边界案例上低估模型分数
未来方向：可在更大规模、更多城市的基准上验证可靠性-对齐共变关系是否普遍成立；可探索将协商版本化集成到 VLMEvalKit 等评估框架中