Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark¶

会议: ICLR 2026
arXiv: 2510.02356
代码: GitHub
领域: AI 安全 / 隐私 / 具身智能
关键词: privacy awareness, embodied agent, physical privacy, contextual integrity, benchmark, PDDL

一句话总结¶

提出 EAPrivacy——首个评估 LLM 物理世界隐私感知的 4 层级基准（400+ 程序化生成场景，60+ 物理场景），发现所有 frontier 模型存在"非对称保守"（任务执行过度保守但隐私保护不足），开启 reasoning 模式反而降低隐私表现，最佳模型（Gemini 2.5 Pro）在动态环境中仅 59% 准确率。

研究背景与动机¶

领域现状：LLM 作为具身 agent（家庭机器人、医疗助手、办公机器人）日益进入物理空间。现有隐私基准（如 Mireshghallah 2023）仅测试文本层面的隐私泄露。

现有痛点： - 物理隐私 ≠ 文本隐私：物理世界隐私需要空间推理（"日记在桌子上"）、上下文完整性判断（"房间里有人开会时不该开始打扫"）、多模态感知（"听到隐约对话声"） - 任务-隐私冲突未被评估：agent 被指示"清理桌子"但桌上有隐藏的惊喜礼物——如何平衡？ - 社会规范 vs 隐私：听到邻居公寓传来尖叫声——应该报告（牺牲隐私）还是忽略（尊重隐私）？ - 当前对齐后的 LLM 在文本隐私基准上表现良好（Gemini/GPT-5 的秘密泄露率可达 0%），但物理隐私完全不同

核心矛盾：物理世界中隐私不是静态规则，而是依赖上下文、需要推理的动态社会契约——LLM 是否具备这种推理能力？

核心 idea：用 PDDL 格式的程序化物理场景（包含空间关系和多模态感知线索）构建 4 层级递进评估，从简单的敏感物体识别到复杂的伦理困境

方法详解¶

整体框架¶

4 层级递进设计，覆盖物理隐私的不同认知复杂度：

4 层级设计¶

Tier 1：敏感物体识别
- 功能：在含 3-30 个干扰物的桌面/容器中识别敏感物体（如社会安全卡、护照）
- 输入：PDDL 格式的物体空间关系（非自然语言描述）
- 评估：正确识别率（true positive）、误报率（false positive）、空间定位准确性
- 通过变化杂乱度（3/5/10/30 干扰物），测试环境复杂度对隐私感知的影响
- 设计动机：最基础的物理隐私能力——能否在真实场景中"看到"什么是隐私敏感的
Tier 2：动态环境中的隐私推理
- 功能：同一动作在不同上下文中的适当性判断（1-5 分）
- 输入：多模态感知线索（Visual: "5 people at table"，Audio: "continuous speech"），模拟物理 agent 的感知
- 评估模式：(i) Rating Mode（MAD 与人类评分）(ii) Selection Mode（三选一最适当动作）
- 覆盖：公园/图书馆/私人住宅 × 清洁/安保巡逻/送餐 × 正常→紧急/空房→私人会议
- 设计动机：隐私是上下文相关的——"开始打扫"在空房间合适，在私人会议中不合适
Tier 3：推理型隐私与任务冲突
- 功能：agent 需从多模态线索推断隐含的隐私约束（Theory of Mind），并在执行任务时尊重它
- 场景示例：看到有人在桌下藏礼物 → 被指示"把桌上所有东西搬走" → 应跳过礼物
- 评估：(i) 隐私违规率，(ii) 任务完成度（在不违反隐私下完成了多少任务），(iii) 三选一（一个违反隐私的动作 vs 两个不违反的）
- 设计动机：最接近真实部署场景——agent 需同时满足显式指令和隐含隐私约束
Tier 4：社会规范 vs 隐私伦理困境
- 功能：高风险场景中，关键社会规范（公共安全、儿童保护）应覆盖个人隐私
- 场景示例：听到邻居公寓传来 "a cry for help" + 看到 "erratic silhouettes" → 应报警（牺牲邻居隐私）
- 评估：二元判断正确率
- 基于美国法律和社会规范框架，承认跨文化差异
- 设计动机：测试 agent 在极端情况下的伦理判断能力

技术特点¶

程序化生成：400+ 场景，60+ 独特物理场景（办公室、实验室、家庭等）
PDDL 格式：结构化描述物理空间关系，超越纯文本叙述
多模态感知模拟：Visual/Audio/Action 线索，模拟具身 agent 的真实感知
人类标注验证：5 位 PhD 级评分员，用于建立 ground truth

实验关键数据¶

主实验（16 个模型 × 4 层级）¶

层级	最佳模型	表现	关键挑战
Tier 1	Gemini 2.5 Pro	96%→26%（3→30 干扰物）	杂乱环境下崩溃
Tier 2	Gemini 2.5 Pro	59% Selection Acc，MAD=1.32	动态上下文理解不足
Tier 3	Gemini 2.5 Flash	71% 隐私违规率（最佳）	所有模型均严重不足
Tier 4	多模型	81-95% 正确率	相对容易但仍有差距

核心发现：非对称保守¶

维度	表现	解释
任务执行	过度保守（Tier 3 任务完成率近 0%）	模型"宁愿不做任务也不犯错"
隐私保护	严重不足（违规率 71-98%）	但同时不知道保护隐私
综合结果	任务和隐私都没做好	安全过+安全不足并存

Thinking Mode 退化（反直觉发现）¶

模型	Standard Mode	Thinking Mode	变化
Gemini 2.5 Pro	基线	Tier 1-3 均下降	推理增加了过度解读
Claude 3.5	基线	类似退化	—

关键发现¶

非对称保守是最重要的发现：模型对"做事"过度保守（Tier 3 完成率近 0%——几乎拒绝所有可能涉及隐私的任务），对"保护隐私"却不够保守（违规率 71-98%）——两种错误同时存在
Thinking/Reasoning 模式退化（Tier 1-3）：开启推理模式反而更差——可能因为更长的推理链增加了"误报"（将无关物体标记为敏感）和"过度解读"（将正常动作判断为不当）
环境复杂度敏感：3 个干扰物时准确率 96%，30 个时降到 26%——物理场景复杂度是关键瓶颈
文本隐私 ≠ 物理隐私：在文本基准上 0% 泄露率的模型，在物理隐私上严重不足
GPT-4o 和 Claude-3.5-haiku 在 Tier 4 中 >15% 的情况忽视社会规范

亮点与洞察¶

"非对称保守"的深刻含义：说明当前 alignment 训练创造了一种扭曲的安全姿态——模型学会了"拒绝"作为安全策略，但没有学会"主动保护"隐私。这是 RLHF 的系统性偏差
物理隐私评估的开创性：将隐私评估从文本扩展到物理世界，用 PDDL+多模态线索模拟具身感知，是一个重要的评估范式转变
Thinking 退化对 scaling reasoning 的警示：更多推理不总是更好——在需要"常识"而非"深度分析"的隐私场景中，推理可能过度复杂化简单判断

局限与展望¶

仅基于美国法律/社会规范框架，跨文化适用性需探索
PDDL 格式的物理描述与真实视觉感知有差距——未使用真实图像/视频
400+ 场景的规模相对于物理世界的复杂度仍有限
Tier 4 的伦理困境设计中"正确答案"可能因文化/个人价值观不同而有争议
未测试真正的具身系统（机器人），仅评估 LLM 的文本推理能力

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首创物理世界隐私评估，4 层级设计系统且有理论支撑（contextual integrity）
实验充分度: ⭐⭐⭐⭐ 16 个模型 × 400+ 场景 × 人类标注验证
写作质量: ⭐⭐⭐⭐ 失败模式分类清晰，发现有深度
价值: ⭐⭐⭐⭐⭐ 对具身 AI 的安全部署有重要启示，揭示了 alignment 的根本缺陷