LLMSR@XLLM25: Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation¶

会议: ACL 2025 (XLLM Workshop)
arXiv: 2504.16408
代码: GitHub
领域: 模型压缩 / LLM推理
关键词: 结构化推理, 多智能体框架, 知识蒸馏, 低资源学习, 质量引导过滤

一句话总结¶

本文提出 Less is More 框架，在仅有 24 个标注样本的极端低资源条件下，通过逆向提示归纳、GPT-4o 增强的检索式推理合成和双阶段奖励引导过滤三个阶段，蒸馏出高质量的结构化推理数据来微调 LLaMA3-8B 多智能体系统，在 XLLM@ACL2025 共享任务中获得第三名。

研究背景与动机¶

领域现状：结构化推理任务——例如将问题分解为逻辑约束、验证推理链的每一步——要求 LLM 生成可解释的、逐步的推理过程。XLLM@ACL2025 共享任务-III 正瞄准这一挑战，要求参赛者仅从 24 个标注样本中学习，涵盖四个子任务：问题解析（QP）、CoT 解析（CP）、CoT 陈述（CS）和验证（CV）。

现有痛点：(1) 标注数据极度稀缺，无法直接微调高容量模型；(2) 需要在多个推理模块之间保持步骤级一致性和逻辑连贯性。已有的 CoT 提示方法通常依赖大规模指令微调或启发式提示，在标注稀缺且需要结构粒度的场景下表现不佳。

核心矛盾：数据质量与数量之间的张力——低资源环境下不可能获得大量高质量标注，但模型需要足够多且足够好的训练信号来学习结构化推理。

本文目标：从最少的种子数据出发，通过可控的数据蒸馏管道生成高质量训练数据，使小模型也能完成结构化推理。

切入角度：作者假设"少而精"的数据比"多而杂"的数据更有效——通过质量引导的过滤，可以从大量合成数据中筛选出真正有用的训练信号。

核心 idea：用逆向思维自动归纳任务提示，通过 GPT-4o 合成大量推理数据，再用双阶段过滤（结构+奖励）确保数据质量，最终数据质量而非数量驱动模型性能的提升。

方法详解¶

整体框架¶

输入为自然语言逻辑推理问题（来自 LogiQA 数据集），输出为结构化的推理过程，包括问题解析、CoT 分解和逐步验证。整个管道分为训练阶段（提示归纳→数据合成→质量过滤→模型微调）和推理阶段（三个专用智能体级联处理）。

关键设计¶

逆向提示归纳（Reverse-Prompt Induction）:
- 功能：从少量种子样本中自动推导出最优的任务特定提示
- 核心思路：受"逆向思维"（RoT）启发，给定种子数据 \(\{(x_i, y_i)\}\)，通过逆向提示指令 \(\mathcal{P}_{\text{reverse}}\) 让 LLM 推断"什么样的指令能产生这些输出"。生成候选提示集 \(\Pi\)，再根据生成分数 \(S_{\text{gen}}\) 和偏好分数 \(S_{\text{pref}}\) 联合选取最优提示 \(\pi_t^* = \arg\max_{\pi}[S_{\text{gen}}(\pi) + S_{\text{pref}}(\pi)]\)
- 设计动机：避免人工设计提示的主观性和低效性，自动化地从种子数据中挖掘最优指令模板
检索增强推理合成（Retrieval-Augmented Reasoning Synthesis）:
- 功能：利用 GPT-4o 为未标注的 LogiQA 数据生成结构化推理标注
- 核心思路：对每个未标注问题 \(x\)，用预训练编码器计算嵌入 \(\mathbf{h}_x\)，从种子集中检索 \(k\) 个语义最近邻作为 few-shot 示范。分别构造 QP 和 UCoT 两个提示，调用 GPT-4o 生成结构化的 JSON 输出，包含 CoT 步骤、文本证据和验证标签
- 设计动机：利用强大的闭源模型（GPT-4o）生成监督信号，检索最相似的示范确保上下文一致性
双阶段奖励过滤（Dual-Stage Reward-Based Filtering）:
- 功能：从合成数据中筛选出高质量样本用于下游微调
- 核心思路：第一阶段为结构过滤，移除格式不合规的输出（如 JSON 解析失败、推理步骤不足两步）。第二阶段使用 LLaMA3-based 奖励模型对每条数据进行打分，分别在 few-shot 和 zero-shot 两种提示下评估：\(s_{\text{avg}} = \frac{1}{2}(s_{\text{few}} + s_{\text{zero}})\)，只保留 \(\mathcal{S}(x) > 0\) 的样本。双提示打分策略兼顾了上下文连贯性和通用质量
- 设计动机：合成数据不可避免包含噪声，需要严格筛选才能保证微调效果

损失函数 / 训练策略¶

三个子任务模型分别从 Meta-Llama-3-8B-Instruct 独立微调，使用 LoRA+（rank=16, \(\alpha=32\), lorap_lr_ratio=16）。通过 ms-swift 框架训练 5 个 epoch，学习率 \(2 \times 10^{-5}\)，batch size 4，梯度累积 4 步，warmup ratio 0.03，使用两张 NVIDIA A100-80G GPU。

实验关键数据¶

主实验¶

过滤策略	Ques._F1	Stmt._F1	Evid._F1	Reason._F1
仅结构过滤	56.87	36.72	10.80	5.20
Zero-shot 奖励过滤	62.76	38.05	12.79	7.15
Few-shot 奖励过滤	65.89	38.26	14.45	7.70
平均奖励过滤	66.71	39.21	14.92	8.98

消融实验（训练数据量）¶

配置	QP数量	CP数量	CV数量	说明
原始 LogiQA	7,376	-	-	未过滤
结构过滤	1,940	1,940	13,818	格式合规
Zero-shot 过滤	1,309	1,309	9,434	质量筛选
Few-shot 过滤	1,377	1,377	9,858	质量筛选
平均过滤	1,346	1,346	9,688	最佳平衡

关键发现¶

平均奖励过滤策略一致性地在所有指标上取得最佳，Reasoning F1 从 5.20 提升到 8.98（+72.7%）
即使 Question F1 不直接参与奖励计算，也从 56.87 提升到 66.71——这说明高质量的中间监督信号能间接提升模型的全局结构理解
数据量从 7,376 减少到 ~1,346 后性能反而更好，直接证明了"Less is More"的核心论点
Few-shot 过滤略优于 Zero-shot 过滤，说明上下文信息有助于更准确的质量评估

亮点与洞察¶

"数据质量驱动"的实证证据：仅用约 18% 的过滤数据就显著超越全量结构过滤数据，这对低资源场景下的 LLM 微调具有重要指导意义
逆向提示归纳是一个优雅的冷启动策略——从目标输出反推提示，避免了人工提示工程的负担。这个技巧可以迁移到任何需要从少量示范中学习的任务
意外的跨模块迁移：奖励信号仅应用于 CoT 模块，但 QP 模块也获得显著提升，暗示了结构化推理子任务之间的内在关联性

局限与展望¶

任务第三名而非第一，说明方法仍有改进空间，尤其在步骤级验证（Reason_F1 仅 8.98）方面
依赖 GPT-4o 进行数据合成，成本不低且存在闭源依赖
仅在 LogiQA 数据集上评估，泛化到其他结构化推理任务（如数学证明、代码调试）有待验证
奖励模型的选择对过滤质量影响很大，但论文未深入探讨不同奖励模型的对比
未来可探索迭代蒸馏（用过滤后的数据训练的模型再次生成合成数据）来进一步提升质量

评分¶

新颖性: ⭐⭐⭐ 各组件（逆向提示、RA-ICL、奖励过滤）均非全新，但组合方式在低资源结构化推理场景下有效
实验充分度: ⭐⭐⭐ 消融充分展示了各过滤策略的效果，但只在单一数据集上评测
写作质量: ⭐⭐⭐⭐ 方法描述清晰，框架图直观，公式表达规范
价值: ⭐⭐⭐ 作为共享任务方案有参考价值，"数据质量>数量"的结论对社区有启发