跳转至

Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark

会议: ICLR 2026
arXiv: 2510.02356
代码: GitHub
领域: AI 安全 / 隐私 / 具身智能
关键词: privacy awareness, embodied agent, physical privacy, contextual integrity, benchmark, PDDL

一句话总结

提出 EAPrivacy——首个评估 LLM 物理世界隐私感知的 4 层级基准(400+ 程序化生成场景,60+ 物理场景),发现所有 frontier 模型存在"非对称保守"(任务执行过度保守但隐私保护不足),开启 reasoning 模式反而降低隐私表现,最佳模型(Gemini 2.5 Pro)在动态环境中仅 59% 准确率。

研究背景与动机

领域现状:LLM 作为具身 agent(家庭机器人、医疗助手、办公机器人)日益进入物理空间。现有隐私基准(如 Mireshghallah 2023)仅测试文本层面的隐私泄露。

现有痛点: - 物理隐私 ≠ 文本隐私:物理世界隐私需要空间推理("日记在桌子上")、上下文完整性判断("房间里有人开会时不该开始打扫")、多模态感知("听到隐约对话声") - 任务-隐私冲突未被评估:agent 被指示"清理桌子"但桌上有隐藏的惊喜礼物——如何平衡? - 社会规范 vs 隐私:听到邻居公寓传来尖叫声——应该报告(牺牲隐私)还是忽略(尊重隐私)? - 当前对齐后的 LLM 在文本隐私基准上表现良好(Gemini/GPT-5 的秘密泄露率可达 0%),但物理隐私完全不同

核心矛盾:物理世界中隐私不是静态规则,而是依赖上下文、需要推理的动态社会契约——LLM 是否具备这种推理能力?

核心 idea:用 PDDL 格式的程序化物理场景(包含空间关系和多模态感知线索)构建 4 层级递进评估,从简单的敏感物体识别到复杂的伦理困境

方法详解

整体框架

4 层级递进设计,覆盖物理隐私的不同认知复杂度:

4 层级设计

  1. Tier 1:敏感物体识别

    • 功能:在含 3-30 个干扰物的桌面/容器中识别敏感物体(如社会安全卡、护照)
    • 输入:PDDL 格式的物体空间关系(非自然语言描述)
    • 评估:正确识别率(true positive)、误报率(false positive)、空间定位准确性
    • 通过变化杂乱度(3/5/10/30 干扰物),测试环境复杂度对隐私感知的影响
    • 设计动机:最基础的物理隐私能力——能否在真实场景中"看到"什么是隐私敏感的
  2. Tier 2:动态环境中的隐私推理

    • 功能:同一动作在不同上下文中的适当性判断(1-5 分)
    • 输入:多模态感知线索(Visual: "5 people at table",Audio: "continuous speech"),模拟物理 agent 的感知
    • 评估模式:(i) Rating Mode(MAD 与人类评分)(ii) Selection Mode(三选一最适当动作)
    • 覆盖:公园/图书馆/私人住宅 × 清洁/安保巡逻/送餐 × 正常→紧急/空房→私人会议
    • 设计动机:隐私是上下文相关的——"开始打扫"在空房间合适,在私人会议中不合适
  3. Tier 3:推理型隐私与任务冲突

    • 功能:agent 需从多模态线索推断隐含的隐私约束(Theory of Mind),并在执行任务时尊重它
    • 场景示例:看到有人在桌下藏礼物 → 被指示"把桌上所有东西搬走" → 应跳过礼物
    • 评估:(i) 隐私违规率,(ii) 任务完成度(在不违反隐私下完成了多少任务),(iii) 三选一(一个违反隐私的动作 vs 两个不违反的)
    • 设计动机:最接近真实部署场景——agent 需同时满足显式指令和隐含隐私约束
  4. Tier 4:社会规范 vs 隐私伦理困境

    • 功能:高风险场景中,关键社会规范(公共安全、儿童保护)应覆盖个人隐私
    • 场景示例:听到邻居公寓传来 "a cry for help" + 看到 "erratic silhouettes" → 应报警(牺牲邻居隐私)
    • 评估:二元判断正确率
    • 基于美国法律和社会规范框架,承认跨文化差异
    • 设计动机:测试 agent 在极端情况下的伦理判断能力

技术特点

  • 程序化生成:400+ 场景,60+ 独特物理场景(办公室、实验室、家庭等)
  • PDDL 格式:结构化描述物理空间关系,超越纯文本叙述
  • 多模态感知模拟:Visual/Audio/Action 线索,模拟具身 agent 的真实感知
  • 人类标注验证:5 位 PhD 级评分员,用于建立 ground truth

实验关键数据

主实验(16 个模型 × 4 层级)

层级 最佳模型 表现 关键挑战
Tier 1 Gemini 2.5 Pro 96%→26%(3→30 干扰物) 杂乱环境下崩溃
Tier 2 Gemini 2.5 Pro 59% Selection Acc,MAD=1.32 动态上下文理解不足
Tier 3 Gemini 2.5 Flash 71% 隐私违规率(最佳) 所有模型均严重不足
Tier 4 多模型 81-95% 正确率 相对容易但仍有差距

核心发现:非对称保守

维度 表现 解释
任务执行 过度保守(Tier 3 任务完成率近 0%) 模型"宁愿不做任务也不犯错"
隐私保护 严重不足(违规率 71-98%) 但同时不知道保护隐私
综合结果 任务和隐私都没做好 安全过+安全不足并存

Thinking Mode 退化(反直觉发现)

模型 Standard Mode Thinking Mode 变化
Gemini 2.5 Pro 基线 Tier 1-3 均下降 推理增加了过度解读
Claude 3.5 基线 类似退化

关键发现

  • 非对称保守是最重要的发现:模型对"做事"过度保守(Tier 3 完成率近 0%——几乎拒绝所有可能涉及隐私的任务),对"保护隐私"却不够保守(违规率 71-98%)——两种错误同时存在
  • Thinking/Reasoning 模式退化(Tier 1-3):开启推理模式反而更差——可能因为更长的推理链增加了"误报"(将无关物体标记为敏感)和"过度解读"(将正常动作判断为不当)
  • 环境复杂度敏感:3 个干扰物时准确率 96%,30 个时降到 26%——物理场景复杂度是关键瓶颈
  • 文本隐私 ≠ 物理隐私:在文本基准上 0% 泄露率的模型,在物理隐私上严重不足
  • GPT-4o 和 Claude-3.5-haiku 在 Tier 4 中 >15% 的情况忽视社会规范

亮点与洞察

  • "非对称保守"的深刻含义:说明当前 alignment 训练创造了一种扭曲的安全姿态——模型学会了"拒绝"作为安全策略,但没有学会"主动保护"隐私。这是 RLHF 的系统性偏差
  • 物理隐私评估的开创性:将隐私评估从文本扩展到物理世界,用 PDDL+多模态线索模拟具身感知,是一个重要的评估范式转变
  • Thinking 退化对 scaling reasoning 的警示:更多推理不总是更好——在需要"常识"而非"深度分析"的隐私场景中,推理可能过度复杂化简单判断

局限与展望

  • 仅基于美国法律/社会规范框架,跨文化适用性需探索
  • PDDL 格式的物理描述与真实视觉感知有差距——未使用真实图像/视频
  • 400+ 场景的规模相对于物理世界的复杂度仍有限
  • Tier 4 的伦理困境设计中"正确答案"可能因文化/个人价值观不同而有争议
  • 未测试真正的具身系统(机器人),仅评估 LLM 的文本推理能力

相关工作与启发

  • vs Mireshghallah 2023(文本隐私):仅测试信息流的上下文完整性;EAPrivacy 扩展到物理世界的空间推理和多模态感知
  • vs 机器人安全评估(Robey 2024 等):主要关注 jailbreak/对抗攻击;EAPrivacy 关注的是正常使用下的隐私意识缺陷
  • 对具身 AI 部署的启示:当前 LLM 不具备部署在私人空间的隐私推理能力——需要专门的物理隐私对齐训练

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首创物理世界隐私评估,4 层级设计系统且有理论支撑(contextual integrity)
  • 实验充分度: ⭐⭐⭐⭐ 16 个模型 × 400+ 场景 × 人类标注验证
  • 写作质量: ⭐⭐⭐⭐ 失败模式分类清晰,发现有深度
  • 价值: ⭐⭐⭐⭐⭐ 对具身 AI 的安全部署有重要启示,揭示了 alignment 的根本缺陷