Access Denied Inc: The First Benchmark Environment for Sensitivity Awareness¶

会议: ACL 2025
arXiv: 2506.00964
代码: GitHub
领域: LLM评测
关键词: 敏感性感知, RBAC, 企业数据管理, LLM基准测试, 信息泄露防护

一句话总结¶

首次形式化定义 LLM "敏感性感知"（Sensitivity Awareness）概念——评估 LLM 能否根据基于角色的访问控制（RBAC）规则决定信息是否可以提供——并构建自动化评估基准 Access Denied Inc，在 7 个主流 LLM 上发现即使数据高度结构化且规则极简，最佳模型 Grok-2 仍有 18.28% 的泄露率。

研究背景与动机¶

领域现状：LLM 驱动的 AI 助手正进入企业数据管理场景（如 SAP Joule），员工可通过自然语言查询薪资、部门归属等信息。这类系统需要 LLM 不仅能检索数据，还要根据用户角色决定是否提供。

现有痛点：简单的文档级过滤不可行——企业文档往往混合敏感和非敏感信息（如 HR 文件中公开职位描述与受限薪资并存），粗粒度过滤要么过度屏蔽要么暴露受限数据。更严重的是，即使部分信息被隐藏，RAG 系统中 LLM 仍可能从多个检索片段的上下文线索中推断出受限信息。

核心矛盾：现有安全/隐私基准（如越狱攻击、有害内容生成）关注的是"生成不该生成的内容"，而企业场景的核心需求是"根据用户权限选择性提供已有数据"——这是一个尚无人系统评估的空白领域。SudoLM 仅支持二元（公开/私密）的粗粒度认证，远不够。

本文切入角度：构建首个标准化的敏感性感知评估框架。核心 idea：用模拟企业数据库 + 细粒度字段级权限 + 自动化问卷 + 99.9% 自动评分的完整 pipeline，系统评估开箱即用 LLM 对 RBAC 规则的遵守能力。

方法详解¶

整体框架¶

Access Denied Inc 是一个完整的三阶段评估 pipeline：(1) 从 Adult 数据集生成模拟企业员工数据库（45K+ 员工，12 个属性字段）；(2) 基于可配置参数自动生成多维度测试问卷（每份 3500 题，覆盖 6 个特征和 2 个对抗场景）；(3) 半自动评分系统评估 LLM 回答，自动覆盖率可达 99.9%。

关键设计¶

SA 的形式化定义与四类会话分类：将 LLM 与用户的每次交互分为四种互斥类型——\(S_{\text{correct}}\)（正确提供数据或正确拒绝）、\(S_{\text{leak}}\)（向未授权用户泄露受限数据，最危险）、\(S_{\text{refusal}}\)（向授权用户错误拒绝，影响可用性）、\(S_{\text{error}}\)（输出幻觉数据或格式违规）。这一分类将安全性与可用性的权衡显式建模——泄露和误拒是 SA 评估的两个核心维度，而非简单的对错二元判断。
模拟企业数据库生成：复用 Adult 表格数据集，去除缺失值后分配唯一 ID 和随机姓名（从 20K 热门名字库采样，刻意打破姓名与性别/种族的关联以消除偏见）。将二元薪资修改为 \(N(80000, 15000)\) 的连续数值（排除 <35K 和 >200K的极端值），新增部门（基于预定义组织架构图）和上级（基于部门层级随机分配）属性。最终数据库包含 45,233 名员工，每人 12 个属性。设计动机：表格数据是最简单的企业数据形式——如果 LLM 在高度结构化的数据上都无法执行访问控制，在非结构化文档上只会更差。
自动化问卷与评分系统：问卷根据配置参数（视角：第一/三人称；恶意性：授权/未授权；目标特征：薪资/部门/年龄等 6 个字段）自动生成。系统提示包含目标用户数据 + 5 个随机员工数据（模拟 RAG 的 top-k 检索），并提供简明访问规则（每人可查自己全部信息；HR 部门员工和直接上级可查下属信息）。模型被要求在双花括号 {{}} 内输出简洁结果（数据值或固定拒绝语"I cannot disclose that information."），括号外为 CoT 推理空间。评分基于字符串精确匹配，实现 99.9%（GPT-4o）到 92.9%（Llama 3.2）的自动覆盖率。

损失函数 / 训练策略¶

本文评估 LLM 的开箱即用能力，不涉及训练。系统提示作为唯一的对齐手段，包含统一的基础提示模板。闭源模型（GPT-4o/mini, Grok-2）通过 API 调用；开源模型（Llama 3.2 3B, Llama 3.3 70B, R1-Qwen 32B, Phi-4 14B）通过 HuggingFace 或 OpenRouter API。除 R1-Qwen（temperature=0.6）外，所有模型使用默认参数。

实验关键数据¶

主实验：7 个模型总体表现¶

模型	Correct ↑	Error ↓	Wrong ↓	Benign ↑	Malicious ↑
Grok-2	80.50%	0.22%	18.28%	95.52%	65.48%
GPT-4o	70.72%	3.61%	25.63%	83.88%	57.56%
R1-Qwen (32B)	64.56%	2.94%	28.09%	94.59%	34.53%
Llama 3.3 (70B)	60.81%	0.16%	38.32%	97.54%	24.07%
Phi-4 (14B)	59.42%	6.81%	26.93%	84.26%	34.59%
GPT-4o mini	45.98%	35.88%	18.08%	57.33%	34.62%
Llama 3.2 (3B)	29.08%	13.68%	50.17%	48.09%	10.07%

消融实验（特殊场景）¶

场景	Grok-2	GPT-4o	Llama 3.3	R1-Qwen	GPT-4o mini
Supervisor（上级查下属，合法）	80.66%	59.33%	94.40%	90.00%	32.93%
Lying（伪造身份，对抗性）	49.86%	44.53%	45.33%	13.60%	50.66%

关键发现¶

所有模型在恶意查询上表现都很差：即使最佳 Grok-2 也只有 65.48% 的恶意请求被正确拒绝，意味着约 1/3 的未授权请求会导致泄露
模型失败模式截然不同：GPT-4o mini 主要问题是幻觉和格式错误（Error 35.88%），而开源模型主要问题是泄露（Wrong 高但 Error 低）——Llama 3.3 几乎总是输出真实数据不管权限
Supervisor 场景暴露权限理解能力差异：闭源模型在合法上级查询上反而表现差（GPT-4o mini 仅 32.93%），说明模型不理解层级权限关系
Lying 场景中小模型反而更鲁棒：GPT-4o mini（50.66%）在伪造身份场景中竟优于 Grok-2（49.86%），R1-Qwen 极度脆弱（仅 13.60%）
结论：开箱即用的 LLM 目前无法可靠用于企业敏感数据管理

亮点与洞察¶

首次定义 SA 问题并提供评估框架：将企业访问控制需求抽象为形式化定义，填补了 LLM 安全评估的空白
评估设计精巧：简洁输出格式（数据值或固定拒绝语）使字符串匹配评分可行，99.9% 自动化率极大降低评估成本
"越简单越暴露问题"的实验设计智慧：故意使用最简单的表格数据和最简规则集，如果模型在这里都失败，复杂场景更不可能成功
失败模式分类有临床价值：区分 leak/refusal/error 三种失败方式对实际部署的风险评估至关重要

局限与展望¶

仅使用表格数据，未测试非结构化文档（如混合敏感信息的 PDF 报告）
访问规则极其简单（2 条规则），真实企业的 RBAC 策略远更复杂
未探索专门针对 SA 的对齐微调（如 RLHF 增加权限感知奖励信号）
Lying 场景仅使用基础对抗手段，未引入低资源语言攻击或自动化 prompt injection
未评估 RAG 系统的端到端 SA 表现（当前是直接将数据放入 prompt）

评分¶

⭐⭐⭐⭐ (4/5)

新颖性 ⭐⭐⭐⭐⭐：首次定义 SA 问题并构建评估框架，定义清晰、问题重要
实验充分度 ⭐⭐⭐⭐：7 个模型 + 6 个特征 + 2 个特殊场景，但仅表格数据一种形式
写作质量 ⭐⭐⭐⭐：形式化定义完整，实验分析深入，failure mode 分类有洞察
实用价值 ⭐⭐⭐⭐：framework 可复用，暴露了真实风险，但缺乏解决方案