Strategy-Induct: Task-Level Strategy Induction for Instruction Generation¶
会议: ACL2026 arXiv: 2605.20924 代码: 待确认 领域: llm_reasoning 关键词: 指令归纳, 推理策略, prompt 工程, question-only, 任务级指令, 跨模型泛化
一句话总结¶
Strategy-Induct 提出一种仅需少量输入问题(无需标注答案)即可归纳任务级指令的框架:先为每个问题生成推理策略,再从策略-问题对中归纳出可复用的任务指令,在 BBH-Induct、Evals-Induct 和 Shift Cipher 三个基准上超越现有 SOTA 方法。
研究背景与动机¶
高质量任务指令对 LLM 性能至关重要,但人工设计指令需要领域专业知识且成本高。现有指令归纳(Instruction Induction)方法依赖输入-输出对,而在实际应用中获取标注答案往往困难或昂贵。本文提出在 question-only 设置下,仅从问题本身就能归纳出有效的任务指令,消除对标注答案的依赖。
方法详解¶
整体框架¶
Strategy-Induct 包含三个阶段:(1) Strategy 阶段——为每个输入问题生成推理策略;(2) Induct 阶段——从策略-问题对中归纳任务级指令;(3) Inference 阶段——用归纳出的指令引导 LLM 解决新问题。
关键设计¶
- 策略生成(Strategy Stage):给定 N 个输入问题 \(\mathcal{X} = \{x_1, ..., x_N\}\),用 meta prompt \(P_S\) 和可选的 Short Phrase 描述 \(d\),为每个问题生成推理策略 \(s_i = \text{LLM}(P_S, d, x_i)\),形成策略-问题对集合 \(\mathcal{S}\)。策略替代了传统方法中标注答案的角色,提供结构化推理信号。
- 指令归纳(Induct Stage):将策略-问题对 \(\mathcal{S}\) 与 meta prompt \(P_I\) 和 Short Phrase \(d\) 组合,归纳出可复用的任务级指令 \(P_{\text{Strategy-Induct}} = \text{LLM}(P_I, d, \mathcal{S})\)。
- Short Phrase 机制:采用简短任务描述(如一两个词)帮助传达任务意图,降低用户 prompt 编写门槛,问题自解释时可省略。
损失函数/训练策略¶
无训练过程。整个框架基于 LLM 的 in-context learning 能力,默认使用 N=3 个示例问题,temperature=0 确保确定性输出。
实验关键数据¶
主实验¶
在 18 个模型上评估(BBH-Induct / Evals-Induct / Shift Cipher),与 ZCoT、SCoT、INDUCT 对比:
| 模型 | ZCoT | SCoT | INDUCT | Strategy-Induct |
|---|---|---|---|---|
| Llama 3.1 8B (BBH) | 62.03 | 56.29 | 59.48 | 65.33 |
| Llama 3.1 70B (BBH) | 82.09 | 84.52 | 86.03 | 88.99 |
| GPT-4o (BBH) | 84.12 | 87.83 | 87.94 | 87.65 |
| GPT o3 mini high (BBH) | 88.87 | 89.91 | 89.74 | 91.30 |
| Gemini 2.0 Flash (Shift) | 54.24 | 53.44 | 65.60 | 67.04 |
总体 vs ZCoT:50-3-7 胜平负;vs INDUCT:44-3-13。
消融实验¶
| 模型 | N=1 | N=3 | N=5 |
|---|---|---|---|
| Llama 3.1 8B | 64.35 | 65.33 | 61.74 |
| Llama 3.1 70B | 87.54 | 88.99 | 89.97 |
| Mistral Large 2 | 84.87 | 85.97→ | 84.58 |
N=3 为最优平衡点——N=1 多样性不足,N=5 对小模型可能超出上下文处理能力。
关键发现¶
- 小模型(8B-12B)普遍受益于 Strategy-Induct,相比 INDUCT 取得 10-3-2 胜平负记录。
- 在知识密集型子任务(如 snarks、sports understanding)上改进最大(8-60 个百分点提升)。
- LRM(GPT o3 mini)随推理强度增加,Strategy-Induct 的收益也增加。
- Shift Cipher 上在低频 shift 值(非 ROT-1/3/13)改进最显著,策略显式引导 LLM 处理字母换行效应。
亮点与洞察¶
- 无需标注答案的指令归纳:用 LLM 自生成的推理策略替代昂贵的标注答案,是 instruction induction 的范式突破。
- 跨模型泛化:归纳出的指令可在不同模型间迁移,无需针对特定模型重新优化。
- LLM + LRM 协同:用 LLM 生成指令、LRM 执行推理的组合可进一步提升性能。
局限与展望¶
- N=5 时部分小模型性能反降,说明策略-问题对的规模受限于模型上下文窗口和归纳能力。
- 策略质量依赖于 LLM 本身的推理能力,小模型生成的策略可能质量不高。
- 仅在分类/解码类任务上验证,开放式生成任务的适用性有待探索。
相关工作与启发¶
- INDUCT-LEARN(Chen et al., 2024b):当前 SOTA 指令归纳方法,但需要输入-输出对,本文在 question-only 设置下超越之。
- SCoT(Wang et al., 2024):自动策略推理链,但为 instance-level 方法,无法复用指令。
- APE(Zhou et al., 2022):自动 prompt 工程先驱,需要大量外部资源或初始指令。
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 7 |
| 实用性 | 8 |
| 清晰度 | 8 |
| 实验充分度 | 9 |
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评