ProPer Agents: Proactivity Driven Personalized Agents for Advancing Knowledge Gap Navigation¶
会议: ACL 2026
arXiv: 2601.09926
代码: GitHub
领域: LLM Agent / 个性化助手 / 主动性校准
关键词: 主动式助手, 知识缺口, 维度建模, 个性化 Agent, 校准式 proactivity
一句话总结¶
ProPer 把主动式助手建模为“发现并校准用户未说出的任务维度”的问题,通过 Dimension Generating Agent、post-hoc reranker 和 Response Generating Agent 选择性补足知识缺口,在医疗、代码和购物推荐任务上显著提升回答质量与 win rate。
研究背景与动机¶
领域现状:传统对话助手遵循 ask-and-respond 模式,用户问什么就答什么。主动式助手希望提前发现用户需求,例如补充风险、提示约束、追问缺失信息或给出更完整的建议。
现有痛点:很多主动式系统要么频繁追问,给用户增加负担;要么基于上下文外推,容易在错误时机插入不需要的建议。它们通常只处理用户已经表达出的 known unknowns,而缺少对 unknown unknowns 的显式建模。
核心矛盾:好的主动性不是“说更多”,而是在用户没意识到的关键维度上适度介入。介入不足会让回答遗漏重要风险,介入过多又会显得打扰、跑题或不尊重用户意图。
本文目标:提出一个可控的主动式个性化 Agent 框架,显式建模用户知识缺口,并通过校准机制决定哪些隐含维度值得进入最终回答。
切入角度:作者引入 dimensions 作为中间表示。一个 dimension 是完成任务时应考虑的结构化因素,例如输入规模、风险约束、偏好权衡、疾病严重性、预算或可替代方案。
核心 idea:先让 DGA 学会生成“当前用户可能没有意识到但任务相关”的隐含维度,再用 reranker 控制数量、相关性和多样性,最后让 RGA 在不打断用户意图的前提下补充这些维度。
方法详解¶
整体框架¶
ProPer 的输入是当前用户查询、历史对话和可选 persona。系统先生成一个 baseline response,再用 DGA 提取用户显式维度、系统已覆盖维度和候选隐含维度。接着 reranker 从候选维度中选出预算内的 activated dimensions,最后 RGA 基于原始查询、baseline response、显式维度和 activated dimensions 生成更新后的回答。整个过程把主动性拆成“发现缺口”和“校准介入”两步。
关键设计¶
-
Dimension Generating Agent (DGA):
- 功能:生成当前任务中可能缺失的隐含维度。
- 核心思路:DGA 使用成功交互轨迹中的 dimension-level supervision 微调。训练时它学习用户查询和参考回答中显式出现、且对任务成功有帮助的维度;推理时再根据当前用户状态提出候选 implicit dimensions,并输出置信度。
- 设计动机:普通 LLM 直接扩写回答时很容易凭语言流畅性补内容,DGA 则把“应该补什么”独立成一个结构化预测问题。
-
Post-hoc Calibrated Reranker:
- 功能:从候选维度中挑选真正值得主动介入的少量维度。
- 核心思路:所有维度用 BGE-small 编码,reranker 选择预算为 \(k\) 的集合,目标同时考虑 DGA confidence、与未满足显式需求的对齐,以及候选之间的非冗余性。\(\lambda_1\) 和 \(\lambda_2\) 控制缺口激活和多样性。
- 设计动机:主动性需要节制。没有 reranking,系统可能把所有潜在维度都塞进回答;有预算和多样性约束后,回答更像有针对性的帮助。
-
Response Generating Agent (RGA):
- 功能:在不重写用户意图的情况下,把选中的维度融入最终回答。
- 核心思路:RGA 是 prompt-driven generation module,输入 baseline response、用户查询、显式维度和 activated dimensions。prompt 要求保留 baseline 结构,优先补充简短信息;当隐含维度需要用户特定信息时,最多问一个澄清问题。
- 设计动机:主动式助手常见失败是“过度热心”。RGA 的约束让模型在发现缺口后仍保持语气、范围和介入程度的校准。
损失函数 / 训练策略¶
DGA 的监督来自 dimension annotation:用 GPT-5 从原始交互中抽取 user-explicit 和 system-explicit dimensions,形成结构化 JSON 训练样本。Reranker 不训练大模型,而是用固定目标函数在候选集合上选择子集。RGA 主要依靠领域特定 prompt,在医疗、代码和购物推荐三个域中分别定义主动性边界。
实验关键数据¶
主实验¶
评估覆盖 Medical (MD)、Code-Contests 和 PWAB 三个域。Gpt-5 作为 judge,为回答打 0-5 分并给出 win rate。
| 对比 | MD μScore / Win% | Code μScore / Win% | PWAB μScore / Win% |
|---|---|---|---|
| Llama-8B | 2.19 / 10.52 | 1.26 / 15.51 | 2.34 / 6.83 |
| Llama-8B + ProPer | 3.86 / 89.48 | 2.13 / 84.49 | 4.06 / 93.17 |
| Qwen-8B | 2.93 / 18.73 | 2.24 / 24.76 | 3.12 / 12.50 |
| Qwen-8B + ProPer | 4.03 / 81.27 | 2.84 / 75.24 | 4.29 / 87.50 |
| GPT-4 vs Llama-ProPer | 3.28 / 29.74 | 3.19 / 68.93 | 3.46 / 23.61 |
| Llama-8B + ProPer vs GPT-4 | 3.73 / 70.26 | 2.08 / 31.07 | 4.11 / 76.39 |
| GPT-4 vs Qwen-ProPer | 3.26 / 19.26 | 3.11 / 43.63 | 3.53 / 17.40 |
| Qwen-8B + ProPer vs GPT-4 | 4.03 / 80.74 | 2.97 / 56.37 | 4.24 / 82.60 |
消融实验¶
| \((\lambda_1, \lambda_2)\) | Llama MD | Qwen MD | Llama Code | Qwen Code | Llama PWAB | Qwen PWAB |
|---|---|---|---|---|---|---|
| (8.0, 1.0) | 4.00 | 4.15 | 2.11 | 2.81 | 3.96 | 3.71 |
| (2.0, 0.5) | 3.75 | 4.01 | 2.12 | 2.89 | 4.06 | 3.91 |
| (0.0, 0.2) | 3.70 | 3.91 | 2.08 | 2.79 | 4.17 | 3.80 |
多轮鲁棒性¶
| 域 | 多轮模拟样本数 | ProPer 胜场 | 解释 |
|---|---|---|---|
| Medical | 12 | 11 | 风险、约束和用户需求会逐轮显现,主动维度有用 |
| Code-Contests | 12 | 9 | 任务更明确,baseline 在窄问题上偶尔足够 |
| PWAB | 12 | 12 | 购物偏好和权衡适合用隐含维度补全 |
关键发现¶
- ProPer 平均在约 84% 样本上胜过同 backbone base LLM,说明提升不是来自更大模型,而是来自显式知识缺口建模。
- 医疗和购物推荐提升最大,因为这些任务天然包含风险、偏好、约束和 trade-off;代码竞赛任务目标明确,主动补充空间较小。
- 去掉 DGA 的性能下降比去掉 reranking / RGA 更明显,说明“发现什么缺口”比“如何措辞补充”更基础。
- CoT prompting 能改善 base LLM,但仍不如 ProPer,表明简单让模型自我反思不足以稳定发现用户 unknown unknowns。
- 多轮小样本实验显示 ProPer 的主动性没有明显漂移,至少在短轨迹中能保持适度介入。
亮点与洞察¶
- dimensions 是一个很有用的中间表示。它不像完整计划那么重,也比普通关键词更结构化,适合承载“用户没说但任务需要”的信息。
- 论文把 proactivity 从“是否主动问问题”转成“选择哪些缺口值得补”,这个定义更接近真实助手体验。
- 预算 \(k\) 与 \((\lambda_1,\lambda_2)\) 让主动性变成可控旋钮。不同领域可以采用不同介入强度,而不是一个全局 prompt 解决所有任务。
- 医疗案例中的提升很能说明问题:ProPer 不只是给答案,还会补充风险框架、疫苗背景、实际防护和共病因素,帮助用户建立更完整问题表征。
局限与展望¶
- 主要评估依赖 Gpt-5 judge,可能偏好更详尽或更有结构的回答;还需要用户研究衡量信任、打扰感和长期任务成功。
- implicit dimensions 目前是自由文本,解释性强但不够规范,可能存在冗余、措辞不一致和跨域难以比较的问题。
- \((\lambda_1,\lambda_2)\) 是固定扫参,不是根据用户状态动态学习;真实系统需要根据用户熟练度、风险偏好和会话阶段自适应。
- 多轮实验只有每域 12 个模拟对话,更多轮、更复杂互动和真实用户反馈仍待验证。
- ProPer 不维护持久用户模型,也没有使用多模态或环境状态;个性化主动性仍比较浅。
- 医疗域虽然表现好,但真实临床助手的安全、合规和责任边界远超 benchmark 分数。
相关工作与启发¶
- vs clarification-based agents: 澄清式系统主要处理用户已知但没说清的需求,ProPer 更关注用户尚未意识到的任务维度。
- vs context extrapolation agents: 许多主动式 agent 从环境状态或历史行为外推,ProPer 则显式生成维度并通过 reranker 控制介入。
- vs CoT/self-refine: CoT 让模型反思回答缺陷,但缺少外显的知识缺口表示;ProPer 的 DGA 更像一个可检查的缺口生成器。
评分¶
- 新颖性: ⭐⭐⭐⭐ 用 dimensions 建模 unknown unknowns,并把主动性校准拆成 DGA/reranker/RGA,思路清晰。
- 实验充分度: ⭐⭐⭐⭐ 覆盖三个域、组件消融和多轮鲁棒性,但真人评测和长程交互不足。
- 写作质量: ⭐⭐⭐⭐ 概念定义较完整,方法图和 RQ 组织清楚。
- 价值: ⭐⭐⭐⭐ 对构建不打扰但有帮助的个性化 Agent 很有启发。