跳转至

Multi-Faceted Self-Consistent Preference Alignment for Query Rewriting in Conversational Search

会议: ACL 2026 Findings
arXiv: 2604.06771
代码: 无
领域: 信息检索
关键词: 对话式查询改写, 偏好对齐, 自一致性打分, 多维度DPO, 对话式搜索

一句话总结

本文提出 MSPA-CQR,通过从改写、检索、回复三个维度构建自一致性偏好数据,并使用前缀引导的多维度 DPO 优化来训练查询改写模型,在分布内外场景均显著超越现有方法。

研究背景与动机

领域现状:对话式问答(CQA)中,用户查询往往存在歧义(如指代不清、省略关键词),需要对话式查询改写(CQR)将模糊查询转为完整、自包含的查询,以辅助下游检索。早期方法依赖人工标注的改写作为训练目标,但人工标注成本高昂且往往只优化可读性,并不直接有助于检索。

现有痛点:近期研究开始引入检索信号作为反馈,但仍存在两个问题:(1) 只考虑了检索维度的偏好,忽略了改写质量和回复质量的反馈;(2) 偏好数据的构建依赖人工标注的 gold passages,无法推广到无标注数据。

核心矛盾:一个好的改写查询应当同时满足三方面需求——改写本身要自包含完整、检索时要包含关键信息避免冗余、对应回复要合理准确。这三个维度的偏好存在差异(Kendall-Tau 相关性仅 0.36-0.58),单一维度的对齐无法兼顾。

本文目标:(1) 构建不依赖人工标注的多维度偏好数据;(2) 设计能同时从改写、检索、回复三个维度学习偏好的优化方法。

切入角度:受自一致性(Self-Consistency)策略启发,如果多个改写结果在语义上高度一致,说明这些改写更可靠。作者据此设计了三种不同的自一致性打分方法来衡量改写质量。

核心 idea:用 LLM 采样多个候选改写,分别从改写语义一致性、检索结果交集、回复语义一致性三个角度打分排序,构建多维度偏好对,再通过前缀引导的 MDPO 让模型学会在不同偏好下生成最优改写。

方法详解

整体框架

MSPA-CQR 要解决的是:好的对话式改写应当同时满足自包含、检索友好、回复导向三方面需求,但这三个维度的偏好排序差异很大(Kendall-Tau 仅 0.36-0.58),单一维度对齐无法兼顾;而以往引入检索信号的方法又依赖人工标注的 gold passages,难以推广。它的整体流程分两阶段:先用 LLM 对每个对话采样 \(K\) 个候选改写,分别从改写、检索、回复三个维度做自一致性打分,挑出 chosen/rejected 偏好对;再用前缀引导的多维度 DPO 训练改写模型,让它在不同偏好标签下都能生成对应的最优改写。推理时为同一对话生成三种偏好导向的改写并拼接,一起送入检索系统。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["对话上下文 + LLM 采样 K 个候选改写"] --> S
    subgraph S["三维度自一致性打分"]
        direction TB
        B1["改写分数 RW<br/>NLI 语义相似 + 长度惩罚"]
        B2["检索分数 RT<br/>检索结果 passage 交集"]
        B3["回复分数 RP<br/>对应回复语义相似"]
    end
    S --> C["每维度取最高/最低<br/>构成 chosen/rejected 偏好对"]
    C --> D["前缀引导的多维度 DPO<br/>前缀标签区分三种偏好"]
    D --> E["多查询融合推理<br/>三种偏好改写拼接送入检索"]

关键设计

1. 三维度自一致性打分:用采样一致性替代人工标注

要构建偏好数据却又不依赖 gold passages,作者借自一致性思想——多个改写若高度一致,说明它们更可靠。对 \(K\) 个候选改写 \(\{rq_i\}\),改写分数 \(RW_i\) 用 NLI 模型算它与其余改写的语义相似度均值并加上长度惩罚,衡量自包含性;检索分数 \(RT_i\) 计算各改写检索结果之间 passage 交集大小的均值,衡量是否抓住关键信息;回复分数 \(RP_i\) 用 NLI 算对应回复之间的语义相似度均值,衡量答案导向性。每个维度取分数最高与最低的改写分别作为 chosen 和 rejected。三种打分各自从不同角度刻画质量,且全程无需任何人工标注,因此能套用到任意无标注对话数据上。

2. 前缀引导的多维度 DPO:让一个模型区分三种偏好

三个维度的排序差异显著(最低 Kendall-Tau 仅 0.36),把它们混在一起训练只会互相干扰,但分别训三个模型又太重。MSPA-CQR 的折中是定义前缀标签集 \(V = \{[\text{REWRITE}], [\text{RETRIEVAL}], [\text{RESPONSE}]\}\),在每条偏好数据输入前拼上对应标签,训练目标沿用标准 DPO 形式 \(\mathcal{L}_{MDPO} = -\mathbb{E}[\log \sigma(\hat{r}_\theta(pr,x,rq^+) - \hat{r}_\theta(pr,x,rq^-))]\),只是靠前缀 \(pr\) 让模型把不同维度的偏好区分开。这样单个模型就能同时适应三种偏好,前缀控制轻量却足以避免维度间的冲突。

3. 多查询融合推理:拼接三种偏好改写覆盖更全的检索需求

不同偏好的改写各有侧重——自包含偏好补全指代、检索偏好凸显关键词、回复偏好贴近答案,单用一种都会漏掉部分线索。推理时 MSPA-CQR 分别用三个偏好前缀生成三个改写查询,再拼接成一个长查询送进检索系统,效果类似查询扩展,简洁地把三方面需求一次性覆盖。

实验关键数据

主实验

数据集 检索器 指标 MSPA-CQR RETPO (之前SOTA) 提升
TopiOCQA BM25 MRR 30.6 28.3 +2.3
TopiOCQA BM25 R@100 75.2 73.1 +2.1
QReCC BM25 MRR 57.4 50.0 +7.4
QReCC BM25 R@100 95.2 89.5 +5.7
TopiOCQA ANCE MRR 41.4 30.0 +11.4
QReCC ANCE R@10 72.3 66.7 +5.6

消融实验

配置 TopiOCQA MRR QReCC MRR 说明
Full MSPA-CQR 30.6 57.4 完整模型
w/o Retrieval Pref 下降 下降 去掉检索偏好后下降
w/o Response Pref 下降 下降 去掉回复偏好后下降
w/o Rewrite Pref 下降 下降 去掉改写偏好后下降
Single Pref (仅检索) ~28.3 ~50.0 退化为类 RETPO

关键发现

  • 三个偏好维度之间差异显著:TopiOCQA 上改写与检索的 Kendall-Tau 仅 0.36,说明单一偏好无法代替多维度对齐
  • 在 OOD 场景下(跨数据集迁移),MSPA-CQR 同样表现稳健,证明多维度对齐提升了泛化能力
  • 密集检索(ANCE)场景下提升更为显著(MRR 提升 11.4),表明多维度改写对语义匹配的帮助更大

亮点与洞察

  • 自一致性打分替代人工标注:巧妙利用多次采样的一致性来衡量改写质量,完全避免了对 gold passages 的依赖,使方法可以应用于任何无标注对话数据
  • 前缀控制多偏好学习:用简单的前缀标签让单一模型学会区分三种偏好,这比训练三个独立模型高效得多,且推理时可灵活组合
  • 三查询融合检索:推理时生成三个偏好导向的改写并拼接,类似查询扩展的效果,简洁有效

局限与展望

  • 推理时需要生成三个改写查询并拼接,增加了查询长度和检索延迟
  • 仅在英文数据集(TopiOCQA、QReCC)上验证,多语言场景未探索
  • LLM 采样多个候选改写的成本较高,偏好数据构建阶段的计算开销不可忽略
  • 可探索三个偏好维度的动态加权而非简单拼接

相关工作与启发

  • vs RETPO: RETPO 仅使用检索偏好做 DPO 对齐,且依赖人工标注 gold passages。MSPA-CQR 扩展到三个维度,且用自一致性替代人工标注
  • vs IterCQR: IterCQR 用检索信号做强化学习,但信号单一。MSPA-CQR 的多维度信号提供更丰富的训练信号
  • vs AdaCQR: AdaCQR 基于 T5 做适应性改写,MSPA-CQR 用 LLaMA-2-7B 且通过偏好对齐获得更强的泛化能力

评分

  • 新颖性: ⭐⭐⭐⭐ 三维度自一致性偏好对齐的思路新颖,但核心技术(DPO+前缀控制)相对成熟
  • 实验充分度: ⭐⭐⭐⭐ 两个主流数据集、稀疏/密集检索、OOD 评估均覆盖,但消融实验细节可以更完整
  • 写作质量: ⭐⭐⭐⭐ 动机推导清晰,方法描述完整
  • 价值: ⭐⭐⭐⭐ 对 CQR 领域有实际推进,自一致性打分的思路可迁移到其他偏好对齐场景