Multi-Faceted Self-Consistent Preference Alignment for Query Rewriting in Conversational Search¶

会议: ACL 2026 Findings arXiv: 2604.06771 代码: 无领域: 信息检索 关键词: 对话式查询改写, 偏好对齐, 自一致性打分, 多维度DPO, 对话式搜索

一句话总结¶

本文提出 MSPA-CQR，通过从改写、检索、回复三个维度构建自一致性偏好数据，并使用前缀引导的多维度 DPO 优化来训练查询改写模型，在分布内外场景均显著超越现有方法。

研究背景与动机¶

领域现状：对话式问答（CQA）中，用户查询往往存在歧义（如指代不清、省略关键词），需要对话式查询改写（CQR）将模糊查询转为完整、自包含的查询，以辅助下游检索。早期方法依赖人工标注的改写作为训练目标，但人工标注成本高昂且往往只优化可读性，并不直接有助于检索。

现有痛点：近期研究开始引入检索信号作为反馈，但仍存在两个问题：(1) 只考虑了检索维度的偏好，忽略了改写质量和回复质量的反馈；(2) 偏好数据的构建依赖人工标注的 gold passages，无法推广到无标注数据。

核心矛盾：一个好的改写查询应当同时满足三方面需求——改写本身要自包含完整、检索时要包含关键信息避免冗余、对应回复要合理准确。这三个维度的偏好存在差异（Kendall-Tau 相关性仅 0.36-0.58），单一维度的对齐无法兼顾。

本文目标：(1) 构建不依赖人工标注的多维度偏好数据；(2) 设计能同时从改写、检索、回复三个维度学习偏好的优化方法。

切入角度：受自一致性（Self-Consistency）策略启发，如果多个改写结果在语义上高度一致，说明这些改写更可靠。作者据此设计了三种不同的自一致性打分方法来衡量改写质量。

核心 idea：用 LLM 采样多个候选改写，分别从改写语义一致性、检索结果交集、回复语义一致性三个角度打分排序，构建多维度偏好对，再通过前缀引导的 MDPO 让模型学会在不同偏好下生成最优改写。

方法详解¶

整体框架¶

MSPA-CQR 包含两个阶段：(1) 多维度偏好数据构建——用 LLM 采样 K 个候选改写查询，分别从改写/检索/回复三个维度进行自一致性打分，选出 chosen/rejected 对；(2) 前缀引导的多维度偏好优化——在 DPO 训练时为每条数据添加偏好类型前缀（如 [REWRITE]、[RETRIEVAL]、[RESPONSE]），让模型学会区分并适应不同维度的偏好。推理时将三个偏好标签分别生成三个查询并拼接用于检索。

关键设计¶

三维度自一致性打分:
- 功能：为每个候选改写查询打分，衡量其在各维度的质量
- 核心思路：对于 K 个候选改写 \(\{rq_i\}\)，改写分数 \(RW_i\) 用 NLI 模型计算与其他改写的语义相似度均值加长度惩罚项；检索分数 \(RT_i\) 计算不同改写检索结果的 passage 交集大小均值；回复分数 \(RP_i\) 用 NLI 计算对应回复之间的语义相似度均值。分数最高和最低的分别作为 chosen 和 rejected 样本
- 设计动机：自一致性打分避免了对人工标注 gold passages 的依赖，且三种打分方式分别从不同角度捕捉查询质量——改写关注自包含性、检索关注关键信息、回复关注答案导向性
前缀引导的多维度 DPO (MDPO):
- 功能：让模型同时学习三个维度的偏好信息
- 核心思路：定义前缀标签集 \(V = \{[REWRITE], [RETRIEVAL], [RESPONSE]\}\)，在每条偏好数据的输入前拼接对应的偏好标签。训练目标与标准 DPO 类似，但通过前缀让模型区分不同偏好维度：\(\mathcal{L}_{MDPO} = -\mathbb{E}[\log \sigma(\hat{r}_\theta(pr,x,rq^+) - \hat{r}_\theta(pr,x,rq^-))]\)
- 设计动机：三个偏好维度的排序差异显著（Kendall-Tau 最低 0.36），说明不能混合训练。前缀控制是一种轻量但有效的方式，使单个模型能适应多种偏好
多查询融合推理:
- 功能：推理时综合三个偏好的改写结果进行检索
- 核心思路：分别用三个偏好前缀生成三个改写查询，然后拼接为一个长查询送入检索系统
- 设计动机：不同偏好的改写侧重不同信息（自包含性 vs 检索关键词 vs 回复导向），拼接后能覆盖更全面的检索需求

实验关键数据¶

主实验¶

数据集	检索器	指标	MSPA-CQR	RETPO (之前SOTA)	提升
TopiOCQA	BM25	MRR	30.6	28.3	+2.3
TopiOCQA	BM25	R@100	75.2	73.1	+2.1
QReCC	BM25	MRR	57.4	50.0	+7.4
QReCC	BM25	R@100	95.2	89.5	+5.7
TopiOCQA	ANCE	MRR	41.4	30.0	+11.4
QReCC	ANCE	R@10	72.3	66.7	+5.6

消融实验¶

配置	TopiOCQA MRR	QReCC MRR	说明
Full MSPA-CQR	30.6	57.4	完整模型
w/o Retrieval Pref	下降	下降	去掉检索偏好后下降
w/o Response Pref	下降	下降	去掉回复偏好后下降
w/o Rewrite Pref	下降	下降	去掉改写偏好后下降
Single Pref (仅检索)	~28.3	~50.0	退化为类 RETPO

关键发现¶

三个偏好维度之间差异显著：TopiOCQA 上改写与检索的 Kendall-Tau 仅 0.36，说明单一偏好无法代替多维度对齐
在 OOD 场景下（跨数据集迁移），MSPA-CQR 同样表现稳健，证明多维度对齐提升了泛化能力
密集检索（ANCE）场景下提升更为显著（MRR 提升 11.4），表明多维度改写对语义匹配的帮助更大

亮点与洞察¶

自一致性打分替代人工标注：巧妙利用多次采样的一致性来衡量改写质量，完全避免了对 gold passages 的依赖，使方法可以应用于任何无标注对话数据
前缀控制多偏好学习：用简单的前缀标签让单一模型学会区分三种偏好，这比训练三个独立模型高效得多，且推理时可灵活组合
三查询融合检索：推理时生成三个偏好导向的改写并拼接，类似查询扩展的效果，简洁有效

局限与展望¶

推理时需要生成三个改写查询并拼接，增加了查询长度和检索延迟
仅在英文数据集（TopiOCQA、QReCC）上验证，多语言场景未探索
LLM 采样多个候选改写的成本较高，偏好数据构建阶段的计算开销不可忽略
可探索三个偏好维度的动态加权而非简单拼接

评分¶

新颖性: ⭐⭐⭐⭐ 三维度自一致性偏好对齐的思路新颖，但核心技术（DPO+前缀控制）相对成熟
实验充分度: ⭐⭐⭐⭐ 两个主流数据集、稀疏/密集检索、OOD 评估均覆盖，但消融实验细节可以更完整
写作质量: ⭐⭐⭐⭐ 动机推导清晰，方法描述完整
价值: ⭐⭐⭐⭐ 对 CQR 领域有实际推进，自一致性打分的思路可迁移到其他偏好对齐场景