Operationalizing Data Minimization for Privacy-Preserving LLM Prompting¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=rpcnvW33EG
代码: 待确认
领域: LLM 安全 / 隐私保护
关键词: 数据最小化, 隐私保护, Prompt 脱敏, 树搜索, LLM-as-a-Judge

一句话总结¶

本文把隐私领域的"数据最小化"原则形式化为一个最优化问题——在不损失任务效用的前提下找出对每个敏感片段"保留/抽象/删除"的最强脱敏方案，并用一个由隐私比较器引导的"先冻结再搜索"优先队列树搜索算法求出这个最优点（oracle），进而揭示：越强的前沿模型能容忍越激进的脱敏（GPT-5 可删 85.7%，Qwen2.5-0.5B 只能删 19.3%），但模型自己直接预测最小化方案时却普遍偏向"抽象"而过度泄露。

研究背景与动机¶

领域现状：用户在和 LLM 应用交互时会大量透露个人敏感信息（姓名、地点、行程、单位等），很多人相信"说得越细，回答越好"。现有的隐私防护主流做法是检测敏感片段，然后做删除（redact，"New York"→"[GEOLOCATION]"）或抽象（abstract，"New York"→"美国的一座城市"），或者用启发式规则（如 SSN 这种格式即敏感）和 LLM-as-a-Judge 来判断某条信息对任务"重不重要"，再据此脱敏。

现有痛点：这些工作几乎没人正式地、可量化地从"数据最小化"这个隐私设计原则的角度去定义问题。它们要么不考虑效用、要么只想在隐私和效用间"取个平衡"、要么在差分隐私预算下最大化效用——但"在严格保住效用的硬约束下把隐私压到最低"这一类问题（也就是真正的数据最小化）几乎无人系统研究。更关键的是，LLM-as-a-Judge 判断"这条信息重不重要"到底有多准，没人验证过。

核心矛盾：要量化"用户是否过度分享"，必须先知道真正的最小披露下界是多少。而这个下界并不是固定的——它既取决于信息本身和任务，也取决于响应模型 F 的能力：强模型可能脑补出被删掉的上下文，弱模型则必须把信息留着才能答对。没有这个"针对特定模型的下界"，就无法判断任何一次分享是否过量。

本文目标：(1) 把数据最小化形式化成一个带效用约束的优化问题；(2) 设计算法精确求出给定 prompt 与模型 F 下的最优脱敏方案，作为 oracle（金标准）；(3) 用这个 oracle 去衡量主流 LLM 直接预测最小化方案的能力。

切入角度：作者把三种动作 {RETAIN 保留, ABSTRACT 抽象, REDACT 删除} 排成一条隐私强度递增的序（保留 ≺ 抽象 ≺ 删除），于是"找最小披露"就变成在这个有序空间里从最狠的脱敏开始、按隐私递减方向逐步放松、直到刚好通过效用检验的搜索问题。

核心 idea：用"先冻结不可删实体、再用隐私比较器引导优先队列树搜索"代替"让 LLM 一次性拍脑袋判断哪条信息重要"，从而求出任意 prompt+模型的数据最小化 oracle，并暴露出 LLM 在该任务上的能力缺口。

方法详解¶

整体框架¶

方法可以看作一次为数据最小化定制的树搜索。输入是一条用户消息 \(x\) 和一组已检测出的敏感片段 \(D=\{e_1,\dots,e_n\}\)；每个片段可以被赋予一个动作 \(a_i\in\{\text{RETAIN},\text{ABSTRACT},\text{REDACT}\}\)，整体构成动作向量 \(a\)，作用到 \(x\) 上得到变体 \(\tau(x;a)\)。目标是在保证效用的前提下让隐私最大化：

\[\max_{a\in A^n} \mathrm{Priv}\big(\tau(x;a)\big)\quad\text{s.t.}\quad \mathrm{Util}\big(R(F(\tau(x;a)));a\big)\ge\gamma\]

其中 \(F\) 是目标响应模型，\(R\) 是上下文恢复算子（把占位符/抽象短语在模型输出里替换回真实内容再评效用，保证"删了不影响最终给用户的答案"），\(\gamma\) 是可接受的最低效用。这个形式化与具体动作空间、隐私/效用度量、搜索策略都无关。

整体 pipeline 分两阶段串行：Stage 1 冻结不可改实体（剔除一删就垮的片段，缩小搜索分支），Stage 2 隐私比较器优先队列树搜索（从全局最狠脱敏的根节点出发，按隐私递减逐步放松，命中第一个通过效用检验的节点即为最优解）。搜索过程中反复调用两个"裁判"：隐私比较器 \(C\)（判断两个变体谁更保护隐私）当作排序信号，效用谓词 UTIL（pass/fail）当作约束。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["用户消息 x<br/>+ 敏感片段集 D"] --> B["1. 数据最小化<br/>形式化<br/>效用约束下最大化隐私"]
    B --> C["2. Freeze 冻结<br/>探测一删就垮的实体<br/>强制 RETAIN"]
    C --> D["3. 比较器优先队列<br/>树搜索<br/>从最狠脱敏逐步放松"]
    D -->|每步调用| E["4. 隐私比较器 +<br/>效用谓词<br/>排序信号 + pass/fail 约束"]
    E -->|首个 pass| F["最小化 prompt τ(x;a*)<br/>= oracle"]

关键设计¶

1. 数据最小化的形式化与三档有序动作空间：把"隐私下界"变成可搜索的优化问题

以往工作把脱敏当成"检测+替换"或"隐私-效用平衡"，没有一个可计算的"最小披露"定义。本文先给出上面那个带硬效用约束的优化式，再把动作空间具体实例化为 \(A=\{\text{RETAIN},\text{ABSTRACT},\text{REDACT}\}\)，并把它排成一条有序格（ordinal lattice） \(\text{RETAIN}\prec\text{ABSTRACT}\prec\text{REDACT}\)，编码隐私强度递增。这条序的价值在于：它定义了"单步放松"操作（REDACT→ABSTRACT→RETAIN，每次只让一个片段更具体一点），从而把"找最小披露"变成在偏序空间里的有序遍历，而不是在 \(3^n\) 个组合里盲搜。效用谓词 UTIL 是严格的 pass/fail：开放式任务用 GPT-4o 当裁判，按固定 rubric 比对原始输出 \(y\) 与脱敏恢复后输出 \(\tilde y_{rb}\)；有标准答案的任务直接用官方打分器，且单答案 QA 做 \(k{=}5\) 次独立解码、全对才 pass。作者特意做了用户研究证明：哪怕只是稍微放松 \(\gamma\)，用户也能察觉答案质量下降——这支撑了"不许有任何效用退化"的严格谓词。

2. Freeze-then-Search 的第一阶段：先冻结一删就垮的实体，砍掉搜索分支

直接在所有片段上搜索代价高，且很多片段（如行程里的目的地"Munnar"）一旦删掉任务就废了。Stage 1 对每个片段 \(e\in D\) 单独探测：在其余片段都 RETAIN 的情况下，分别试 REDACT\((e)\) 和 ABSTRACT\((e)\)。如果两种脱敏都让效用 fail，就把 \(e\) 标记为 frozen（之后强制 RETAIN，最多只能抽象不能删）。剩下的非冻结片段 \(D'\subseteq D\)（数量 \(n'=|D'|\)）才进入 Stage 2。这一步既保住了效用不变量，又把搜索分支从 \(|D|\) 降到 \(n'\)，是后续树搜索可行的前提。

3. 隐私比较器优先队列树搜索：从最狠脱敏出发、按隐私递减放松、首个通过即最优

这是算法核心。树的根节点对 \(D'\) 里每个片段都施加 Stage 1 允许的最强脱敏（能删就删、否则抽象），代表全局最保护隐私的写法。每个节点编码一个动作向量 \(a\) 和对应的 \(\tau(x;a)\)；它的子节点由恰好放松一个动作一步生成（REDACT→ABSTRACT 或 ABSTRACT→RETAIN）。不同于经典 DFS/BFS，本文用一个以隐私比较器 \(C\) 为比较函数的优先队列来遍历：每次弹出当前队列里"隐私最强"的节点，检验效用，若 fail 就扩展其更具信息的子节点入队。算法返回第一个通过效用谓词的动作向量 \(a\)，它就是该 prompt+模型的最小化解（若全部不过则回退到全 RETAIN）。比较器 \(C:(x,\tau_A,\tau_B)\mapsto\{\tau_A,\tau_B,\text{SAME}\}\) 只做成对判断、不要求传递性或全序，刻意贴合"人的隐私偏好本就可能不传递、依情境而变"这一现实——算法只把它当排序 oracle 用。复杂度上，Stage 2 最多探索 \(3^{n'}\) 个动作组合，若展开 \(T\) 个节点，二叉堆实现最多需 \(O(T\log T)\) 次成对比较（很多被缓存省掉），总时间约 \(c\,T\log T\cdot t_C + T\cdot t_{\text{UTIL}}\)。

4. 蒸馏一个低延迟隐私比较器：让昂贵的"谁更隐私"判断能在搜索里高频调用

树搜索每步都要调比较器，若每次都用 o1/o3 这类推理模型（6–8 秒/次）根本跑不动。作者先在 ShareGPT 的 PII 富集子集上采 150 个 A/B 对、每对至少 5 人标注得到人类金标，再另造 4840 个对、用强零样本裁判（OpenAI o3）打教师标签，对 Qwen2.5-7B-Instruct 做 LoRA 监督微调，蒸出一个延迟优化的比较器。它在人类标注上整体一致率 71%、在高共识（≥0.8）样本上 89%，而延迟仅 0.31 秒/次——相比零样本裁判提速 >20×，且高共识准确率相当。正是这一步把复杂度里的 \(c\,T\log T\cdot t_C\) 项大幅压低，让 Stage 2 搜索在实践中可行。

一个完整示例¶

以"旅行社行程规划"这条 prompt 为例（图 1）：里面含 Munnar、Tekkady、Kerala、Hyderabad、Kochi、25th Jan、28th Jan 等多个敏感片段。根节点把它们全部抽象或删除（隐私最强），效用检验 FAIL——因为目的地 Munnar、Tekkady 一旦删掉，行程就无从安排。算法沿着优先队列逐步放松：先把 Munnar、Tekkady 从"删除"退到"抽象"（变成"南印度的一个著名山区小镇""南印度的一座城市"），其余片段仍尽量删；几步之后命中第一个 PASS 的节点——此时 Munnar/Tekkady 被冻结在抽象层（再删就破坏效用），而 Kochi、日期等仍被删除或留作占位符。这个"既最小披露又刚好够用"的版本就是该模型的 oracle。

损失函数 / 训练策略¶

方法主体是搜索算法、无端到端训练。唯一的训练发生在隐私比较器：用 OpenAI o3 教师标签对 Qwen2.5-7B-Instruct 做 LoRA 监督微调（超参见原文附录 B）。效用裁判 GPT-4o 与各动作的替换映射均为零样本/确定性规则，不训练。

实验关键数据¶

主实验¶

在四个数据集上评测：开放式对话 ShareGPT(176)、WildChat(139)，与有唯一答案的知识密集任务 CaseHOLD(法律 MCQ,110)、MedQA(医学 MCQ,108)。用九个模型作为响应模型 \(F\)，报告最优脱敏方案中 REDACT/ABSTRACT/RETAIN 的占比（删得越多、留得越少越好）。

响应模型	开放式 REDACT↑	开放式 RETAIN↓	闭合式 REDACT↑	闭合式 RETAIN↓
gpt-5	85.7%	5.7%	97.1%	1.1%
gpt-4.1	82.6%	7.6%	98.0%	1.0%
claude-sonnet-4	74.8%	14.0%	97.2%	0.9%
mistral-small-3.1-24b	75.3%	12.2%	96.4%	1.9%
qwen2.5-7b	69.9%	18.1%	91.7%	3.7%
qwen2.5-0.5b	19.3%	69.7%	32.1%	56.2%

核心结论：模型越强、能容忍的脱敏越激进。前沿模型在散点图上聚在 \(x+y\approx1\) 带（删除+抽象几乎占满，几乎不用保留任何 PII）；闭合式任务比开放式还能删得更狠。整体上脱敏是"删除为主"，抽象只占 1–12%——说明多数情况下直接删掉敏感片段就够保住效用了。

对抗审计与"预测 vs oracle"¶

审计 / 对比	关键指标	结果
跨片段恢复 pcorr（ABSTRACT）	攻击者能猜对的比例	5.6%–14.9%（偏高）
跨片段恢复 pcorr（REDACT）	同上	2.7%–7.7%（更低，全 ≤0.077）
按类型恢复 Hit@1（WildChat,NAME）	原文→脱敏后	90.3% → 0.0%
按类型恢复 Hit@1（GEOLOCATION）	原文→脱敏后	89.8% → 2.2%
单次预测 vs gpt-5 oracle	主要类别	Overshare（过度泄露）占主导

关键发现¶

删除比抽象更抗推断：攻击者在被删片段上既更少尝试、也更难猜对（pcorr ≤7.7%），而抽象片段留下更多线索（最高 14.9%）——支持"优先删除"的脱敏策略，尤其对开放式输入。
脱敏确实有效：按类型恢复显示，掩码让 NAME 的 Hit@1 从 90.3% 暴跌到 0.0%，连用 GPT-5 自己攻击自己的最小化 prompt 也无法还原被删信息。
LLM 不会做数据最小化，且偏向抽象：让模型一次性直接预测每个片段的动作时，普遍 Overshare（比 oracle 泄露更多），且系统性偏好 ABSTRACT 而非 REDACT。消融证明这种偏好是模型内生的——去掉 prompt 里"优先用更强脱敏"的指令后行为几乎不变。这暴露的不只是隐私差距，更是能力差距：模型并不清楚自己解任务到底真正需要哪些信息。
模型家族差异：Mistral/Qwen/GPT-4.1 默认"抽象优先"，连 URL/EMAIL/ID 这种结构化标识符也只抽象不删；Claude 在开放式任务上有明显的 RETAIN 尾巴；只有 GPT-5 和 Exaone 两个推理模型会稳定地删除高精度类型。

亮点与洞察¶

把抽象的隐私原则变成可计算的 oracle：GDPR 里的"数据最小化"一直是定性原则，本文第一次给它一个针对具体 prompt+模型的、可搜索求解的最小披露下界，让"用户是否过度分享"第一次有了量化标尺。
隐私强度的有序格 + 单步放松是把组合爆炸问题驯服成有序搜索的关键 trick，可迁移到任何"在硬效用约束下逐步加强某种处理"的场景（如最小化上下文长度、最小化工具调用）。
比较器不要求传递/全序这一点很诚实：人类隐私偏好本就矛盾、依情境，强行假设偏序反而失真；把它当噪声排序 oracle 用，再靠蒸馏压低延迟，是工程上让搜索跑得动的务实选择。
"能力差距"的视角最让人"啊哈"：模型过度分享不是因为不想保护隐私，而是它根本不知道哪些信息对解题是必要的——这把隐私问题重新框定成了一个模型自我认知/可解释性问题。

局限与展望¶

依赖外部裁判的可靠性：效用谓词靠 GPT-4o、比较器靠蒸馏模型，二者只在高共识样本上才足够准（比较器整体仅 71%）；超过一半的人类标注共识 <0.8，说明"哪条更隐私"本身就因人而异，oracle 带有标注主观性。
PII 检测前置且固定：敏感片段 \(D\) 由 GPT-4o 预先检测并聚类，漏检的隐私不在保护范围内；抽象短语也由 GPT-4o 统一生成，质量决定上限。
搜索代价：最坏 \(3^{n'}\) 组合，靠 Freeze 与缓存压低，但片段很多的长 prompt 仍可能昂贵；本文是离线求 oracle，不是实时脱敏。
改进方向（作者主张）：把 oracle 当高质量监督，蒸馏出一个能在端侧单次预测的小模型，配合"小边缘模型本地脱敏、再发给云端大模型"的双模型管理范式，让用户在与远端模型交互前就掌控隐私流。作者甚至呼吁 LLM 提供方把"该模型专属的最小化预测器"作为模型发布包的一部分。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一次把数据最小化形式化为可搜索的 oracle，并提出隐私比较器引导的优先队列树搜索，视角与方法都新。
实验充分度: ⭐⭐⭐⭐ 四数据集九模型、含跨片段/按类型双重对抗审计与预测-oracle 对比，扎实；但靠 LLM 裁判、共识偏低是隐忧。
写作质量: ⭐⭐⭐⭐ 形式化清晰、跑例直观、消融到位，部分实现细节散落附录。
价值: ⭐⭐⭐⭐⭐ 为端侧隐私脱敏提供金标准监督与清晰范式，"能力差距"洞察对后续研究有方向性意义。