Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models¶

会议: ICLR 2026
arXiv: 2504.19373
代码: https://github.com/SaFo-Lab/DoxBench
领域: LLM推理
关键词: 多模态推理模型, 隐私泄露, 地理定位, 基准评测, AI安全

一句话总结¶

本文首次系统研究了多模态大推理模型（MLRMs）从用户生成图像中推断敏感地理位置信息的隐私泄露风险，提出三级隐私风险框架、DoxBench 基准和 Glare 信息论评估指标，发现 MLRMs 在地理推断上超越非专家人类，显著降低了攻击者获取敏感位置信息的门槛。

研究背景与动机¶

随着 OpenAI o3、Gemini 2.5 Pro 等多模态大推理模型的出现，模型已经具备了从视觉输入中推断高层语义信息的能力。这种能力虽然对于导航、增强现实等应用很有价值，但同时也带来了严重的位置相关隐私泄露风险。根据 GDPR 和 CCPA，地理位置数据被归类为个人信息，精确地理位置更被归类为"敏感个人信息"。

现有研究存在三个主要局限：（1）主要关注地理定位性能而非隐私泄露风险本身；（2）数据集多用公共地标等"良性"场景，缺乏隐私敏感场景；（3）使用低分辨率 Google Street View 图像，无法反映真实用户生成内容的质量。本文旨在弥补这一空白，系统研究 MLRMs 在隐私敏感场景下的位置推断能力。

方法详解¶

整体框架¶

本文构建了一个完整的研究框架，包含三级隐私风险定义、DoxBench 基准数据集、新评估指标 Glare、线索分析工具 ClueMiner 以及协作攻击框架 GeoMiner。

关键设计¶

三级隐私风险框架：基于"隐私空间"和"个人影像"两个维度，定义了三个风险等级： - Level 1（低风险）：有个人影像但不在隐私空间，映射到个人瞬时风险 - Level 2（中风险）：在隐私空间但无个人影像，映射到家庭持续风险 - Level 3（高风险）：同时包含隐私空间和个人影像，两类风险叠加

DoxBench 数据集：500 张使用 iPhone 在加州 6 个城市（旧金山、圣何塞、萨克拉门托、洛杉矶、尔湾、圣迭戈）拍摄的高分辨率图像，涵盖自拍、第三人称视角等场景，分为 6 个类别（包括特殊的 Mirror 反射类别），保留完整 EXIF 元数据。

Glare 信息论指标：将 VRR（可验证响应率）、中位误差距离 d₅₀ 和平均误差距离 d̄ 统一为一个比特度量：

Glare = H(R) + VRR · log₂(A₀ / (π · d₅₀ · d̄))

其中 H(R) 是回答行为的熵（Risk Term），第二项衡量回答内容缩小对手搜索区域的程度（Leakage Term）。

ClueMiner 线索分析工具：使用 CoT 提示引导模型输出推理过程中使用的视觉线索，然后自动分类统计线索使用频率，识别模型是否依赖隐私相关视觉线索。

GeoMiner 攻击框架：将地理推断分解为两阶段——Detector 提取视觉线索，Analyzer 基于线索进行推理，模拟人类咨询专家的协作攻击模式。

损失函数 / 训练策略¶

本文是评测类工作，不涉及模型训练。核心技术贡献在于 Glare 指标的信息论推导：从互信息分解出发，通过 Shannon 熵上界、均匀地球先验假设和平坦地球近似，得到了封闭形式的评估指标。

实验关键数据¶

主实验¶

在 DoxBench 上评估了 13 个模型（7 个 MLRMs + 6 个 MLLMs）和 268 个非专家人类：

模型	VRR (%)	AED (km)	MED (km)	CCPA准确率 (%)	Glare (bits)
非专家人类	99.10	140.08	37.22	6.01	1309.73
GPT-5 (Top-1)	78.41	11.26	4.35	17.40	1633.87
OpenAI o3 (Top-1)	80.80	13.56	5.46	14.73	1628.50
Gemini 2.5 Pro (Top-1)	84.53	14.75	4.63	19.73	1701.61
Gemini 2.5 Pro (Top-3)	95.07	9.92	2.98	21.97	1987.16
GPT-5 (Top-3)	74.23	6.69	2.15	22.03	1688.66

关键发现：Top-1 设置下 MLRMs 的 CCPA 准确率平均达 11.61%，Top-3 达 14.95%；MLRMs 的平均 Glare 超过非专家人类基线。

消融实验¶

消融维度	关键结果
风险等级 (L1→L3)	CCPA 准确率和 Glare 从 L1 到 L3 单调下降，Mirror 最难
CoT 线索推理	对已回答样本 CCPA +4.91%，对未回答样本 CCPA +11.17%
工具增强 (o3)	VRR 84.85%→100%，AED 168.71→42.88km，Glare +49.45%
手动模糊线索防御	VRR 降 16.58%，Glare 降 30.6%，但仍有 10.56% CCPA 准确率
对抗噪声防御	对 o3 有效（Glare 从 2648→593），但对 Gemini 无效

关键发现¶

MLRMs 超越人类非专家：GPT-5 的 Top-3 CCPA 准确率达 22.03%，是人类基线的约 3.7 倍
线索驱动推理机制：98% 的样本中模型遵循线索驱动推理模式，最常用的线索是"街道布局"和"前院设计"
工具使用大幅提升攻击：o3 配合搜索工具后，细粒度定位能力显著增强
现有防御不足：Llama Guard4 将所有输入标记为安全；模糊和对抗噪声仅有有限效果
反射面隐私威胁：Mirror 类别揭示了通过反射面间接泄露位置信息的新威胁

亮点与洞察¶

问题定义精准：首次从法律框架（GDPR/CCPA）出发系统定义了图像位置隐私泄露的三级风险，将安全研究与法规合规紧密结合
Glare 指标设计优雅：基于信息论将回答行为和回答内容统一量化，解决了现有指标（单独的中位距离或 VRR）无法全面衡量隐私风险的问题
数据集高质量：用 iPhone 在真实场景中拍摄，包含反射面等创新类别，远超现有低分辨率 Street View 数据集
攻击链完整：从风险定义→数据集→评估→线索分析→攻击框架→防御评估，研究链条完整

局限与展望¶

数据集主要来源于加州，虽然补充了 50 张美国其他州的图片进行泛化验证，但国际场景覆盖不足
防御方案的探索相对初步，仅测试了 Llama Guard4、手动模糊和对抗噪声三种方法
评估仅限于黑盒 API 访问，未探索模型内部机制（如注意力可视化）来理解线索提取过程
Mirror 类别虽然创新，但样本量（46 张）偏少，统计显著性有待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次系统化研究 MLRMs 位置隐私泄露，问题定义新颖
实验充分度: ⭐⭐⭐⭐ — 13 个模型 + 人类基线，多个消融维度，但防御实验略薄
写作质量: ⭐⭐⭐⭐ — 结构清晰，法律框架与技术指标融合好，附录详尽
价值: ⭐⭐⭐⭐⭐ — 对 AI 安全和隐私保护有重要警示意义