跳转至

WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback

会议: ACL2026
arXiv: 2408.15549
代码: 无公开训练代码;数据集: https://huggingface.co/datasets/microsoft/WildFeedback
领域: LLM对齐 / 用户反馈 / 偏好学习
关键词: 原位用户反馈, 偏好数据构造, SAT/DSAT, DPO, checklist评估

一句话总结

WildFeedback 从真实用户与 ChatGPT 的多轮对话中自动识别满意/不满意反馈,把自然发生的用户偏好转成偏好训练样本和逐例 checklist 评估标准,使小型开源指令模型在通用 benchmark 与真实用户偏好测试上都比 UltraFeedback 训练更贴近用户需求。

研究背景与动机

领域现状:LLM 对齐通常依赖两类数据:人工标注的偏好数据,或由 GPT-4 等强模型生成/裁判的合成偏好数据。前者成本高、主观性强、规模受限;后者便宜可扩展,但容易把强模型自身偏好和偏差循环灌入待训练模型。

现有痛点:真实用户在产品中经常会自然表达反馈,例如“谢谢,这正是我要的”“不对,请重写”“你忽略了我的要求”。这些信号比离线标注更接近实际使用场景,但它们并不是结构化的 thumbs-up/down,且常散落在多轮上下文里。直接把触发反馈的回答拿来训练也不够,因为负反馈只说明旧回答不好,还需要构造一个符合该用户偏好的更好回答。

核心矛盾:对齐需要真实用户偏好,但真实用户偏好天然嘈杂、隐式、上下文相关;如果只依赖静态标注集,规模和真实性不足,如果只依赖模型自评,又会弱化人类偏好的多样性。

本文目标:作者希望解决三个子问题:第一,从真实多轮会话中检测哪些用户话语包含满意或不满意信号;第二,把这些信号转成可用于 SFT/DPO 的 preferred-dispreferred 响应对;第三,构造一个评价方式,让自动评测不只是问 GPT-4 “哪个回答更好”,而是按真实用户在该样本里表达过的偏好来评判。

切入角度:论文的关键观察是,用户反馈虽然没有显式标注,但在会话中常以可解释的语言模式出现。只要先把这些模式归纳成 SAT/DSAT rubric,再让 GPT-4 按 rubric 检测并总结偏好,就能把“野生反馈”转成结构化偏好数据。

核心 idea:用真实多轮会话中的原位用户反馈替代离线人工/模型偏好标注,并用样本级用户偏好 checklist 同时指导偏好样本构造和模型评测。

方法详解

WildFeedback 不是提出一个新的对齐损失,而是提出一条从真实用户交互到偏好训练、再到偏好评测的数据流水线。输入是一批多轮 user-LLM conversation,输出是包含 prompt、用户偏好描述、preferred response、dispreferred response 的偏好数据集,以及一个用用户偏好 checklist 评估模型的 held-out benchmark。

整体框架

整体流程分为四步。第一步,在 WildChat 的 148,715 个多轮 ChatGPT 会话中逐轮识别用户满意信号 SAT 和不满意信号 DSAT。第二步,对包含反馈的会话抽取触发反馈之前的完整对话历史作为 prompt,并把用户后续反馈总结成自然语言偏好。第三步,基于这些偏好构造响应对:DSAT 触发的原始回答可作为 dispreferred response,preferred response 由 GPT-4 或当前 policy model 在用户偏好提示下生成。第四步,使用生成的 WildFeedback 数据对 Phi-3、LLaMA-3、Qwen-2 等指令模型做一轮 SFT 加一轮 DPO,并在通用 benchmark 和用户偏好 checklist benchmark 上评估。

论文还把评测本身纳入框架。传统 AlpacaEval/MT-Bench 让 GPT-4 按通用质量判断,但这里每个样本都有从真实反馈中总结出的偏好,例如“更简洁”“需要事实修正”“不要忽略格式要求”。因此,评测时把这些偏好作为 checklist 交给 GPT-4,让它做 pairwise 比较,减少 judge 与真实用户偏好不一致的问题。

关键设计

  1. SAT/DSAT 反馈信号识别:

    • 功能:从自然多轮对话中识别用户是否在表达满意或不满意,并定位具体的反馈 utterance。
    • 核心思路:方法继承并改造 SPUR 的用户满意度估计思想,使用 9 类 SAT rubric 和 9 类 DSAT rubric。SAT 包括感谢、学习、遵从、表扬、个人细节、幽默、确认、正向结束、逐渐接近目标;DSAT 包括负面反馈、要求修改、事实错误、不现实预期、无继续互动、被忽略、质量低、细节不足、风格问题。GPT-4o 按这些 rubric 在 utterance 级别分类。
    • 设计动机:真实用户反馈不一定是显式按钮,而常在下一轮语言中体现。把反馈先归入可解释 rubric,可以避免直接用模糊情绪词做训练信号,也便于后续分析用户到底为什么满意或不满意。
  2. 从反馈构造半合成偏好对:

    • 功能:把原始会话转成 DPO 可用的 (prompt, preferred, dispreferred) 偏好样本。
    • 核心思路:对出现 SAT/DSAT 的会话,系统先让 GPT-4 总结用户偏好;再截取触发反馈之前的完整对话历史作为 prompt。对于 GPT-4 expert 版本,DSAT 触发的原始回答直接作为 dispreferred response,GPT-4 在用户偏好和安全提示下生成 preferred response。对于 on-policy 版本,Phi-3、Qwen-2、LLaMA-3 自己分别生成 preferred/dispreferred,其中 preferred 受到用户偏好系统提示引导。
    • 设计动机:这一步把“用户说不满意”从弱监督信号变成可训练的偏好对。相比 UltraFeedback 这类由 GPT-4 统一打分的数据,WildFeedback 的 prompt 和偏好都来自真实人机交互,且保留多轮上下文。
  3. Checklist-guided 评估与过滤:

    • 功能:用样本级用户偏好约束评测和数据过滤,避免自动 judge 只按自己的通用偏好打分。
    • 核心思路:评测时不只让 GPT-4 比较两个回答,而是把该样本总结出的用户偏好作为 checklist,要求 judge 按 checklist 做 pairwise 判断。构造 on-policy 数据时,若生成的 preferred response 在 checklist 评估下不能胜过 dispreferred response,则过滤掉该样本;GPT-4 expert 版本因更稳定而整体保留。
    • 设计动机:LLM-as-a-judge 容易偏爱长回答或自身风格,与真实用户偏好不一致。加入 checklist 后,评测标准从“泛化的好回答”变成“这个用户在这个任务里想要什么”。

损失函数 / 训练策略

训练并没有改写 DPO 目标,而是把 WildFeedback 数据放入常规对齐流程:每个基础模型先在 preferred responses 上做 1 epoch SFT,再在完整偏好对上做 1 epoch DPO。实验覆盖三类开源指令模型 Phi-3-mini-4k-instruct、Meta-Llama-3-8B-Instruct、Qwen2-7B-Instruct,并比较五种设置:原始指令模型、WF GPT-4、WF On-policy、UF GPT-4、UF On-policy。

测试集构造也做了防过拟合处理。作者用 FAISS 对用户 prompt 和总结偏好聚类成 70 组,每组取 10 个偏好最接近组内中心的样本,再去重和过滤无意义任务,得到 540 个 held-out 样本。这样评测不是追逐少数怪异个人偏好,而更接近“多数用户在相似任务中的主流偏好”。

实验关键数据

主实验

WildFeedback 首先证明它确实能从真实会话中挖出规模可用的反馈数据。WildChat 共 148,715 个多轮会话,其中约 12.8% 含反馈信号;最终构造出 20,281 个 GPT-4 版本偏好样本,以及多个 on-policy 版本。

数据/指标 SAT DSAT 总量
含反馈会话数 5,447 13,582 148,715
含反馈 utterance 数 8,186 27,711 628,467
GPT-4 与人工一致性 κ=0.69 κ=0.50 接近人工水平

与现有偏好数据相比,WildFeedback 的特点是多轮、来自真实原位用户反馈,且 prompt 更长,更接近实际产品会话。

数据集 样本数 Prompt长度 Response长度 多轮? 反馈来源
WebGPT 38,925 51 188 人工标注
Anthropic HH 118,263 186 95 人工标注
OASST1 35,905 168 221 人工撰写
UltraFeedback 61,135 159 256 GPT-4
WildFeedback GPT-4 20,281 929 440 原位用户反馈
WildFeedback Qwen-2 11,509 1,057 541 原位用户反馈
WildFeedback Phi-3 9,194 931 344 原位用户反馈
WildFeedback LLaMA-3 10,659 982 376 原位用户反馈

在通用 benchmark 上,用 WildFeedback 训练通常优于原模型和 UltraFeedback 对照。最直观的是 Phi-3 和 LLaMA-3:WF GPT-4 同时提升 AlpacaEval 2、Arena-Hard 和 MT-Bench。

模型/训练数据 AlpacaEval2 LC AlpacaEval2 WR Arena-Hard WR MT-Bench
Phi-3 原模型 24.3 17.4 15.4 7.32
Phi-3 + WF On-policy 29.0 27.1 30.1 7.42
Phi-3 + UF On-policy 27.2 25.9 28.7 7.40
Phi-3 + WF GPT-4 34.9 36.6 32.4 7.75
Phi-3 + UF GPT-4 32.5 38.4 30.5 7.68
LLaMA-3 原模型 22.9 22.6 20.6 7.10
LLaMA-3 + WF GPT-4 34.2 42.8 32.9 7.57
LLaMA-3 + UF GPT-4 32.2 43.2 32.6 7.49
Qwen-2 原模型 28.7 26.0 24.9 7.55
Qwen-2 + WF On-policy 42.6 34.4 36.1 8.02
Qwen-2 + UF On-policy 38.3 34.2 29.2 7.72

消融实验

论文没有做传统模块删除式消融,而是通过数据构造版本、评测 checklist、UltraFeedback 对照和反馈类型分析来验证各组件作用。

配置/分析项 关键指标 说明
无 checklist 的偏好对验证 GPT-4 不总是偏向符合用户偏好的回答 说明普通 GPT-4 judge 会受通用偏好影响,不能稳定识别原位用户偏好
加入 checklist 后 GPT-4 expert preferred responses 超过 70% 对齐用户偏好 checklist 能把 judge 的注意力拉回样本级用户需求
小模型 on-policy preferred responses 约 50% 对齐用户偏好 小模型可控性弱,需要 checklist 过滤不合格偏好对
WildFeedback held-out test LLaMA-3 + WF GPT-4 对 UF GPT-4 胜率 45.5%,加 checklist 后 50.8% 在真实用户偏好测试上,WF 训练比 UF 更贴近原位反馈
反馈类型分布 DSAT 主要集中在修改需求和事实错误;SAT 更分散 WildFeedback 不只给分数,还能诊断用户不满的具体来源

关键发现

  • WildFeedback 的收益不只是“更多训练数据”,而是训练数据与实际使用场景更匹配。它的 prompt 来自多轮会话,用户偏好来自自然反馈,因此对真实用户偏好 benchmark 的提升比 UltraFeedback 更有解释力。
  • Checklist 是整篇论文里最关键的评估设计。没有 checklist 时,GPT-4 judge 可能按自己的通用审美选择回答;有 checklist 后,它更能区分哪个回答满足了真实用户在该会话中表达的偏好。
  • DSAT 明显多于 SAT,说明真实产品数据天然有选择偏差:用户更可能在不满意时继续纠正模型。这既让数据更关注失败案例,也意味着训练分布可能过度代表负反馈场景。

亮点与洞察

  • 最大亮点是把“用户反馈”从产品日志里的噪声提升为可训练的偏好数据。很多对齐工作假设偏好必须由标注员或强模型显式打分,WildFeedback 展示了自然对话里的下一轮用户反应本身就是一种监督信号。
  • checklist-guided evaluation 很适合迁移到个性化 agent、推荐对话和客服系统。只要能从用户行为或文本反馈中总结“这个用户想要什么”,评测就可以从通用质量分变成样本级目标达成度。
  • 论文对反馈类型的分析很有价值:不满意往往来自事实错误和要求修改,满意则更分散。这提示实际系统优化时应优先处理可修复的硬错误,而不是只追求更讨喜的语气。
  • 这篇工作的“半合成”策略很务实:用户给出真实偏好,强模型负责补全 preferred response。它没有幻想完全不靠模型生成,而是把模型生成限制在用户偏好约束下。

局限与展望

  • 原位反馈可能是恶意、危险或不合理的。作者加入安全提示和 OpenAI moderation 过滤,但这只是初级防线;未来需要更系统地区分“真实偏好”和“不应学习的偏好”。
  • 数据存在选择偏差。用户更常在不满意时留下反馈,因此 WildFeedback 可能过度代表纠错、重写、抱怨等场景,低估沉默但满意的用户。
  • 评测仍依赖 GPT-4o 作为 judge,只是通过 checklist 降低偏差,并未消除 LLM-as-a-judge 的系统性问题。尤其当 checklist 本身由 GPT-4 总结时,仍可能引入模型解释偏差。
  • on-policy 小模型对用户偏好可控性较弱,约半数 preferred responses 未必真正对齐偏好。后续可以考虑用 rejection sampling、偏好校验器或多模型交叉审核提高数据质量。
  • 论文主要在通用聊天数据上验证,尚未证明在专业领域、长周期个性化、推荐系统交互中是否同样可靠。

相关工作与启发

  • vs UltraFeedback: UltraFeedback 用 GPT-4 给离线 prompt-response 打分,优点是规模大、易复现;WildFeedback 从真实多轮会话中挖掘用户反馈,规模小一些但更贴近真实用户需求,尤其适合研究产品内对齐。
  • vs Anthropic HH / WebGPT: 这些数据依赖人工标注偏好,质量较可控但成本高且标注者偏好不一定代表最终用户;WildFeedback 直接利用实际用户在任务中的反馈,减少“标注者-用户”偏好错位。
  • vs OASST1: OASST1 是多轮对话,但很多 prompt 和 response 由人工撰写;WildFeedback 的多轮上下文来自真实人机交互,更能捕捉模型失败后用户如何追问、纠正和补充需求。
  • 启发: 对齐数据可以从“标注任务”转向“交互日志挖掘”。对教育、医疗问答、推荐和 agent 工具链来说,后续很值得研究如何把点击、停留、重试、撤销、改写等行为转成偏好信号。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从原位用户反馈自动构造偏好数据和 checklist 评测,问题切入非常贴近真实产品对齐。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多模型、多 benchmark、UltraFeedback 对照和人工一致性验证,但用户层面长期效果还未评估。
  • 写作质量: ⭐⭐⭐⭐ 方法链条清楚,图表和数据诊断有说服力,少量细节如过滤规则和安全策略还可以更展开。
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 对齐、对话推荐、用户模拟和交互式评测都有直接启发,尤其适合作为真实反馈学习的基础框架。