Problem-Solving Logic Guided Curriculum In-Context Learning for LLMs Complex Reasoning¶

会议: ACL 2025
arXiv: 2502.15401
代码: https://github.com/maxuetao/CurriculumICL
领域: LLM / In-Context Learning / 复杂推理
关键词: in-context learning, curriculum learning, problem-solving logic, demonstration selection, chain-of-thought

一句话总结¶

提出基于问题求解逻辑（Problem-Solving Logic）的课程式 ICL 策略，通过分析问题的求解步骤结构来选择和排序 demonstration examples，有效提升 LLM 的复杂推理能力。

研究背景与动机¶

研究领域现状： In-Context Learning (ICL) 通过少量示例即可增强 LLM 的推理能力，其关键在于 demonstration examples 的选择和排序。现有方法主要依赖文本相似度、困惑度等简单特征来衡量样本间的关联性。

现有方法的局限性：（1）基于语义相似度的方法（如 KNN）只捕获表面特征，无法反映问题间的内在求解逻辑关联；（2）现有排序策略缺乏合理的难度度量标准；（3）语义相似但求解逻辑不同的示例可能误导模型推理。

核心洞察： LLM 通过 ICL 隐式学习示例中的求解模式。如果选择的示例与查询具有相似的求解逻辑（而非仅仅语义相似），可以更有效地引导模型学习正确的推理路径。同时，按照课程学习的原则（从易到难）排列示例，符合渐进式学习的认知规律。

方法详解¶

整体框架¶

方法分为三步：（1）基于 BREAK 数据集构建指令集并微调语言模型来自动分析问题求解逻辑；（2）根据求解逻辑的子序列匹配选择 demonstration examples；（3）按求解步骤数从少到多排序（课程学习）。

关键设计¶

问题求解逻辑分析（PSL Analysis）： 借鉴 QDMR（Question Decomposition Meaning Representation）将复杂问题分解为子问题，用 13 种预定义操作（如 select → project → group → superlative）表示求解逻辑。基于 BREAK 数据集（60K QA 对）构建指令集，微调 Llama3-8B + LoRA 使其能自动分析任意问题的求解逻辑。
基于逻辑子序列的示例选择： 候选示例的求解逻辑必须是查询求解逻辑的子序列（从第一个操作开始匹配），确保示例的求解步骤与查询的前 n 步完全对齐，避免引入无关的推理模式。
基于步骤数的课程排序： 以求解所需的操作步骤数量作为难度度量。步骤越多，问题越难。将选出的示例按步骤数从少到多排列（easy → hard），构成课程式上下文提示。

实验¶

主实验结果（五个基准数据集上的准确率 %）¶

方法	选择策略	排序策略	SVAMP	AQuA	GSM8k	ComSenQA	StrategyQA	平均
Random	随机	随机	76.5	46.5	73.8	75.8	65.1	67.5
VoteK	KNN	相似度	74.9	44.9	76.7	75.4	69.0	68.2
AutoCoT	K-means	相似度	77.5	47.2	75.3	76.0	71.2	69.4
SA-ICL	KNN	信息熵	78.8	47.6	77.9	78.5	66.8	70.0
AL-ICL	KNN	相似度	80.8	45.7	78.2	77.9	68.1	70.1
Ours	PSL	Curriculum	83.4	50.8	81.1	75.0	71.6	72.4

以上为 Llama3-8B 结果。Llama3-70B 上平均准确率从 82.6% 提升到 84.0%，Qwen2.5-7B 上从 81.1% 提升到 83.3%。

消融实验¶

消融设置	平均准确率	变化
完整方法（PSL 选择 + Curriculum 排序）	72.4	-
随机选择 + Curriculum 排序	~69	下降明显
PSL 选择 + 随机排序	~70	下降
PSL 选择 + 逆序排序（hard→easy）	~69	下降更多

关键发现¶

在 Llama3-8B 上，方法平均提升 2.24%，在所有 5 个数据集中的 4 个上取得最优
在更大模型（Llama3-70B）上依然有效，平均准确率达到 84.04%
PSL 选择和 Curriculum 排序两个组件都是必要的，缺一不可
相似求解逻辑但不同语义的示例反而能增强模型的泛化能力

亮点¶

创新性地将问题求解逻辑（而非语义相似度）作为 ICL 示例选择的核心标准
自然地将课程学习与 ICL 结合：求解步骤数作为难度度量既直观又有效
训练一个轻量级 PSL 分析器即可泛化到任意数据集，实用性强
在性能和效率上均优于现有 ICL 方法

局限性¶

PSL 分析器依赖 BREAK 数据集的 13 种操作，可能无法覆盖所有推理类型
微调 PSL 分析器需要额外的计算成本
在 CommonsenseQA 上表现不如某些 baseline，可能因为常识推理的"逻辑"更隐含
仅在 8B-70B 规模模型上验证，未测试更大或更小的模型
示例选择需要对所有候选示例预计算 PSL，大规模候选集时可能效率受限

评分¶

维度	分数 (1-10)
创新性	7
技术深度	6
实验充分性	8
写作质量	7
实用价值	7
总分	7.0