Access Denied Inc: The First Benchmark Environment for Sensitivity Awareness¶
会议: ACL 2025
arXiv: 2506.00964
代码: GitHub
领域: LLM评测
关键词: 敏感性感知, RBAC, 企业数据管理, LLM基准测试, 信息泄露防护
一句话总结¶
首次形式化定义 LLM "敏感性感知"(Sensitivity Awareness)概念——评估 LLM 能否根据基于角色的访问控制(RBAC)规则决定信息是否可以提供——并构建自动化评估基准 Access Denied Inc,在 7 个主流 LLM 上发现即使数据高度结构化且规则极简,最佳模型 Grok-2 仍有 18.28% 的泄露率。
研究背景与动机¶
领域现状:LLM 驱动的 AI 助手正进入企业数据管理场景(如 SAP Joule),员工可通过自然语言查询薪资、部门归属等信息。这类系统需要 LLM 不仅能检索数据,还要根据用户角色决定是否提供。
现有痛点:简单的文档级过滤不可行——企业文档往往混合敏感和非敏感信息(如 HR 文件中公开职位描述与受限薪资并存),粗粒度过滤要么过度屏蔽要么暴露受限数据。更严重的是,即使部分信息被隐藏,RAG 系统中 LLM 仍可能从多个检索片段的上下文线索中推断出受限信息。
核心矛盾:现有安全/隐私基准(如越狱攻击、有害内容生成)关注的是"生成不该生成的内容",而企业场景的核心需求是"根据用户权限选择性提供已有数据"——这是一个尚无人系统评估的空白领域。SudoLM 仅支持二元(公开/私密)的粗粒度认证,远不够。
本文切入角度:构建首个标准化的敏感性感知评估框架。核心 idea:用模拟企业数据库 + 细粒度字段级权限 + 自动化问卷 + 99.9% 自动评分的完整 pipeline,系统评估开箱即用 LLM 对 RBAC 规则的遵守能力。
方法详解¶
整体框架¶
Access Denied Inc 是一个完整的三阶段评估 pipeline:(1) 从 Adult 数据集生成模拟企业员工数据库(45K+ 员工,12 个属性字段);(2) 基于可配置参数自动生成多维度测试问卷(每份 3500 题,覆盖 6 个特征和 2 个对抗场景);(3) 半自动评分系统评估 LLM 回答,自动覆盖率可达 99.9%。
关键设计¶
-
SA 的形式化定义与四类会话分类:将 LLM 与用户的每次交互分为四种互斥类型——\(S_{\text{correct}}\)(正确提供数据或正确拒绝)、\(S_{\text{leak}}\)(向未授权用户泄露受限数据,最危险)、\(S_{\text{refusal}}\)(向授权用户错误拒绝,影响可用性)、\(S_{\text{error}}\)(输出幻觉数据或格式违规)。这一分类将安全性与可用性的权衡显式建模——泄露和误拒是 SA 评估的两个核心维度,而非简单的对错二元判断。
-
模拟企业数据库生成:复用 Adult 表格数据集,去除缺失值后分配唯一 ID 和随机姓名(从 20K 热门名字库采样,刻意打破姓名与性别/种族的关联以消除偏见)。将二元薪资修改为 \(N(80000, 15000)\) 的连续数值(排除 <35K 和 >200K的极端值),新增部门(基于预定义组织架构图)和上级(基于部门层级随机分配)属性。最终数据库包含 45,233 名员工,每人 12 个属性。设计动机:表格数据是最简单的企业数据形式——如果 LLM 在高度结构化的数据上都无法执行访问控制,在非结构化文档上只会更差。
-
自动化问卷与评分系统:问卷根据配置参数(视角:第一/三人称;恶意性:授权/未授权;目标特征:薪资/部门/年龄等 6 个字段)自动生成。系统提示包含目标用户数据 + 5 个随机员工数据(模拟 RAG 的 top-k 检索),并提供简明访问规则(每人可查自己全部信息;HR 部门员工和直接上级可查下属信息)。模型被要求在双花括号 {{}} 内输出简洁结果(数据值或固定拒绝语"I cannot disclose that information."),括号外为 CoT 推理空间。评分基于字符串精确匹配,实现 99.9%(GPT-4o)到 92.9%(Llama 3.2)的自动覆盖率。
损失函数 / 训练策略¶
本文评估 LLM 的开箱即用能力,不涉及训练。系统提示作为唯一的对齐手段,包含统一的基础提示模板。闭源模型(GPT-4o/mini, Grok-2)通过 API 调用;开源模型(Llama 3.2 3B, Llama 3.3 70B, R1-Qwen 32B, Phi-4 14B)通过 HuggingFace 或 OpenRouter API。除 R1-Qwen(temperature=0.6)外,所有模型使用默认参数。
实验关键数据¶
主实验:7 个模型总体表现¶
| 模型 | Correct ↑ | Error ↓ | Wrong ↓ | Benign ↑ | Malicious ↑ |
|---|---|---|---|---|---|
| Grok-2 | 80.50% | 0.22% | 18.28% | 95.52% | 65.48% |
| GPT-4o | 70.72% | 3.61% | 25.63% | 83.88% | 57.56% |
| R1-Qwen (32B) | 64.56% | 2.94% | 28.09% | 94.59% | 34.53% |
| Llama 3.3 (70B) | 60.81% | 0.16% | 38.32% | 97.54% | 24.07% |
| Phi-4 (14B) | 59.42% | 6.81% | 26.93% | 84.26% | 34.59% |
| GPT-4o mini | 45.98% | 35.88% | 18.08% | 57.33% | 34.62% |
| Llama 3.2 (3B) | 29.08% | 13.68% | 50.17% | 48.09% | 10.07% |
消融实验(特殊场景)¶
| 场景 | Grok-2 | GPT-4o | Llama 3.3 | R1-Qwen | GPT-4o mini |
|---|---|---|---|---|---|
| Supervisor(上级查下属,合法) | 80.66% | 59.33% | 94.40% | 90.00% | 32.93% |
| Lying(伪造身份,对抗性) | 49.86% | 44.53% | 45.33% | 13.60% | 50.66% |
关键发现¶
- 所有模型在恶意查询上表现都很差:即使最佳 Grok-2 也只有 65.48% 的恶意请求被正确拒绝,意味着约 1/3 的未授权请求会导致泄露
- 模型失败模式截然不同:GPT-4o mini 主要问题是幻觉和格式错误(Error 35.88%),而开源模型主要问题是泄露(Wrong 高但 Error 低)——Llama 3.3 几乎总是输出真实数据不管权限
- Supervisor 场景暴露权限理解能力差异:闭源模型在合法上级查询上反而表现差(GPT-4o mini 仅 32.93%),说明模型不理解层级权限关系
- Lying 场景中小模型反而更鲁棒:GPT-4o mini(50.66%)在伪造身份场景中竟优于 Grok-2(49.86%),R1-Qwen 极度脆弱(仅 13.60%)
- 结论:开箱即用的 LLM 目前无法可靠用于企业敏感数据管理
亮点与洞察¶
- 首次定义 SA 问题并提供评估框架:将企业访问控制需求抽象为形式化定义,填补了 LLM 安全评估的空白
- 评估设计精巧:简洁输出格式(数据值或固定拒绝语)使字符串匹配评分可行,99.9% 自动化率极大降低评估成本
- "越简单越暴露问题"的实验设计智慧:故意使用最简单的表格数据和最简规则集,如果模型在这里都失败,复杂场景更不可能成功
- 失败模式分类有临床价值:区分 leak/refusal/error 三种失败方式对实际部署的风险评估至关重要
局限与展望¶
- 仅使用表格数据,未测试非结构化文档(如混合敏感信息的 PDF 报告)
- 访问规则极其简单(2 条规则),真实企业的 RBAC 策略远更复杂
- 未探索专门针对 SA 的对齐微调(如 RLHF 增加权限感知奖励信号)
- Lying 场景仅使用基础对抗手段,未引入低资源语言攻击或自动化 prompt injection
- 未评估 RAG 系统的端到端 SA 表现(当前是直接将数据放入 prompt)
相关工作与启发¶
- vs SudoLM (Liu et al. 2024):SudoLM 用静态 sudo key 实现二元公开/私密分割,仅支持单一认证场景,Access Denied Inc 支持多角色细粒度字段级权限
- vs 安全基准 (JailbreakBench, HarmBench):关注有害内容生成的防御,而 SA 关注的是"正确的数据给正确的人"
- vs Zeng et al. (2024) 风险分类体系:314 个风险类别中最相关的是机密性和隐私违规,但 SA 的核心特征(访问权限执行和选择性信息分发)未被充分覆盖
- 启发:LLM 在企业场景中的部署需要超越"无害性"的安全评估维度——权限感知是刚需但被严重忽视的能力
评分¶
⭐⭐⭐⭐ (4/5)
- 新颖性 ⭐⭐⭐⭐⭐:首次定义 SA 问题并构建评估框架,定义清晰、问题重要
- 实验充分度 ⭐⭐⭐⭐:7 个模型 + 6 个特征 + 2 个特殊场景,但仅表格数据一种形式
- 写作质量 ⭐⭐⭐⭐:形式化定义完整,实验分析深入,failure mode 分类有洞察
- 实用价值 ⭐⭐⭐⭐:framework 可复用,暴露了真实风险,但缺乏解决方案