跳转至

iAgent: LLM Agent as a Shield between User and Recommender Systems

会议: ACL 2025
arXiv: 2502.14662
代码: https://github.com/agiresearch/iAgent
领域: LLM Agent / 推荐系统
关键词: 用户-Agent-平台范式, 推荐系统, 信息保护层, 动态记忆, 回音室效应

一句话总结

提出用户-Agent-平台三层范式,在用户和推荐系统之间插入 LLM Agent 作为保护层,通过指令解析、知识获取、重排序和动态用户画像实现个性化推荐,在四个数据集上平均提升 16.6%,同时有效缓解回音室效应和低活跃用户的不公平问题。

研究背景与动机

领域现状:推荐系统采用传统的"用户-平台"二元范式,平台的推荐算法直接控制用户看到的内容。大多数模型以商业目标(如点击率、转化率)为优化方向,用户被动接受算法推荐。

现有痛点: - 用户对推荐结果缺乏控制力,无法主动表达真实需求 - 推荐模型在全体用户数据上训练,活跃用户主导了协同学习过程,低活跃用户的偏好被忽视 - 持续推荐同质化内容导致回音室效应(echo chamber),用户接触到的信息越来越窄 - 平台可能通过算法操纵用户行为(如插入广告、推荐高利润商品)

核心矛盾:平台以全局商业指标为优化目标,而用户需要的是基于个人意图的个性化推荐——两者之间存在根本性的利益冲突。现有对话推荐系统(CRS)和 Agent 模拟方法仍然在平台侧优化,无法从根本上保护用户利益。

本文目标:(1) 如何让用户通过自然语言指令主动控制推荐结果?(2) 如何为每个用户独立建模,避免跨用户干扰?(3) 如何同时缓解回音室效应和用户间的不公平性?

切入角度:受"个人秘书"概念启发,让 LLM Agent 充当用户与平台之间的缓冲层——Agent 理解用户意图后,对平台推荐结果进行重排序,而不需要修改平台的算法。这种方式部署成本低,对平台无侵入性。

核心 idea:在用户侧部署独立的 LLM Agent,让 Agent 而非平台来承担个性化推荐的核心逻辑。

方法详解

整体框架

输入是用户的自然语言指令(如"我想找一本关于XX的书")和平台返回的初始推荐列表,输出是基于用户意图重排序后的推荐列表。系统分为两个版本:基础版 iAgent 和带动态记忆的增强版 i2Agent。

关键设计

  1. InstructRec 数据集构建

    • 功能:从 Amazon、Goodreads、Yelp 等现有推荐数据集出发,利用 GPT-4o-mini 基于用户评论和随机人设生成自然语言指令
    • 核心思路:为每条交互记录生成自由文本指令,模拟用户主动表达需求的场景。设计了 Instruction Cleaner 过滤数据泄露——如果 LLM 能从指令中推断出目标物品,则该指令被排除或降权
    • 设计动机:现有推荐数据集没有用户指令,而 CRS 的对话格式过于受限,不能充分表达用户的高阶需求
  2. iAgent 基础架构(Parser + Reranker + Self-Reflection)

    • 功能:解析用户指令→获取内部/外部知识→对平台推荐列表重排序→自反思验证
    • 核心思路:Parser \(M_p\) 接收用户指令 \(X_I\),生成内部知识 \(X_{IK}\)、关键词 \(X_{KW}\),并决定是否调用外部工具获取 \(X_{EK}\)。Reranker \(M_r\) 综合所有知识和用户历史 \(X_{SU}\),对候选列表重排序:\(\mathcal{R}^* \leftarrow M_r(X_{IK} \| X_{EK} \| X_{SU} \| X_{Item} \| P_{tr})\)
    • 设计动机:用户指令包含显式需求和隐含偏好,Parser 作为领域专家提取深层意图;Self-Reflection 通过比较重排前后列表的一致性来防止 LLM 幻觉(实验表明可将幻觉率降低 20 倍以上)
  3. i2Agent 动态记忆机制(Profile Generator + Dynamic Extractor)

    • 功能:基于用户历史反馈构建并持续更新用户画像,根据当前指令动态提取相关兴趣
    • 核心思路:Profile Generator 模拟神经网络训练——输入正负样本对,让模型推荐并与真实交互对比,然后用反馈更新画像 \(\mathcal{F}^T\)。Dynamic Extractor 类似注意力机制,根据当前指令从静态历史 \(X_{SU}\) 和动态画像 \(\mathcal{F}^T\) 中提取相关的兴趣变化 \(X_{DU}\)
    • 设计动机:iAgent 的用户历史是静态的,无法捕捉兴趣随时间的演变。i2Agent 的关键创新在于每个用户的记忆独立维护,不受其他用户行为影响——这从根本上避免了协同学习中活跃用户主导的问题

训练策略

  • 整个系统基于 LLM 的 in-context learning,不需要额外训练推荐模型
  • Profile Generator 通过迭代式反馈(类似在线学习)逐步优化用户画像
  • 评估时从推荐平台获取初始排序(随机采样 9 个负样本 + 1 个正样本组成候选列表),Agent 在此基础上重排序

实验关键数据

主实验

数据集 指标 EasyRec (SOTA) iAgent i2Agent 提升
Amazon Book HR@1 30.70% 31.89% 35.11% +14.4%
Amazon MovieTV HR@1 34.96% 38.19% 46.43% +32.8%
Goodreads HR@1 13.94% 23.56% 30.97% +122%
Yelp HR@1 32.41% 37.40% 39.22% +21.0%
平均 全指标 - - - +16.6%

回音室效应缓解(Echo Chamber)

数据集 指标 EasyRec i2Agent 提升
Amazon Book FR@1 (广告过滤) 68.41% 77.15% +8.7%
Amazon Book P-HR@3 (多样性) 59.28% 64.70% +5.4%
Yelp FR@1 76.45% 87.69% +11.2%
Yelp P-HR@3 61.05% 64.48% +3.4%

消融与分析

分析维度 关键发现
活跃 vs 低活跃用户 低活跃用户 HR@1 从 32.93%→37.92%(+5%),缩小差距
Self-Reflection 幻觉率降低 20 倍以上,i2Agent 因长文本导致幻觉率最高但仍可控
重排序比例 Top@1/3/5 位置几乎每次都发生重排,说明 Agent 一直在积极个性化

关键发现

  • 动态记忆对低活跃用户帮助最大:独立的用户画像不受活跃用户行为干扰,有效缩小活跃/低活跃用户间的性能差距
  • 回音室效应显著缓解:通过用户意图引导重排序,i2Agent 能有效识别并降权跨域广告项,多样性指标全面提升
  • 指令感知知识获取是关键:Parser 提取的领域知识帮助 Reranker 理解用户的高阶偏好

亮点与洞察

  • "用户侧 Agent"范式的实用性:不修改平台算法,在用户端插入保护层——类似现实世界中雇佣个人购物顾问。部署简单、对平台无侵入、可立即使用
  • 动态记忆 = 个体化在线学习:Profile Generator 的迭代更新机制本质上是用 LLM 模拟在线学习过程,每个用户有独立的学习轨迹
  • Self-Reflection 的必要性:LLM 做重排序时容易产生幻觉(如输出候选列表中不存在的物品),自反思机制通过简单的集合一致性检查有效解决了这个问题

局限与展望

  • 仅在推荐场景验证:用户侧 Agent 范式能否推广到搜索引擎、社交媒体信息流等其他用户-平台交互场景未知
  • LLM 推理成本高:每次推荐都需要多次 LLM 调用(Parser + Reranker + Self-Reflection + Profile Generator + Dynamic Extractor),时延和费用可能限制大规模部署
  • 指令数据的真实性:InstructRec 中的指令是由 GPT-4o-mini 基于评论生成的,可能未完全反映真实用户的表达方式
  • 仅测试英语:其他语言指令的效果未知

相关工作与启发

  • vs 对话推荐系统(CRS):CRS 的对话格式受限,且仍在平台侧优化;iAgent 允许用户用自由文本完整表达需求
  • vs AgentCF:AgentCF 用 Agent 模拟用户行为来优化平台推荐模型,仍是平台视角;iAgent 在用户侧独立运行
  • vs EasyRec:EasyRec 通过预训练对齐协同过滤信号,但仍受全局优化的局限;iAgent 的个体化设计从根本上避免了这个问题

评分

  • 新颖性: ⭐⭐⭐⭐ 用户侧 Agent + 动态记忆范式新颖,但核心技术(LLM 重排序)相对直接
  • 实验充分度: ⭐⭐⭐⭐ 四个数据集 + 回音室/多样性/活跃度分组分析 + 消融实验
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,三层范式描述直观
  • 价值: ⭐⭐⭐⭐ 对推荐系统公平性和用户保护有直接应用价值