From Selection to Generation: A Survey of LLM-based Active Learning¶

会议: ACL 2025
arXiv: 2502.11767
代码: 无
领域: LLM / NLP
关键词: 主动学习、大语言模型、数据选择、数据生成、标注策略

一句话总结¶

首篇系统综述 LLM 时代主动学习（Active Learning）的全景图谱，提出以 Querying（选择 + 生成）× Annotation（人工 + LLM + 混合）为两轴的分类体系，完整梳理了 LLM 如何在五步 AL 循环的每个环节中替代或增强传统方法，并拓展到 ICL、SFT、RLHF、知识蒸馏等四大 LLM 学习范式。

研究背景与动机¶

领域现状：主动学习（Active Learning, AL）是一种经典的"少标注高效训练"范式——通过选择最有信息量的数据点进行标注，以最小人力成本最大化模型性能。传统 AL 方法依赖不确定性（Least Confidence、Max-Entropy）和多样性（CoreSet、CDAL）两类指标，从固定的未标注数据池 \(\mathcal{U}\) 中挑选样本，再由人工标注。

现有痛点：传统 AL 有三大根本限制。第一，搜索空间有限——只能从预设的未标注池中选择，无法突破数据集本身的覆盖盲区。第二，标注成本高且单一——只依赖人工标注者，每条标注的边际成本不变。第三，冷启动困难——初始无标注数据时模型 \(f_\theta\) 缺乏足够信息来指导选择策略，导致前几轮采样接近随机。

核心矛盾：LLM 的涌现能力同时具备推理（可评估样本价值）、生成（可创造新数据）、标注（可模拟人工打标）三重角色，但现有 AL 综述仍局限在传统技术框架中，未将 LLM 的多重能力纳入统一视角。

本文目标 (1) 缺少对 LLM 时代 AL 技术的系统分类法；(2) 缺少对 LLM 在 AL 循环各环节中角色的全面梳理；(3) 缺少对 AL 在 LLM 学习范式（ICL/SFT/RLHF/蒸馏）中应用的统一讨论。

切入角度：作者观察到 LLM 在 AL 中不止于"选择"——它可以生成池外的全新实例 \(\mathbf{x}' \notin \mathcal{U}\)，可以低成本替代人工标注，还能解决冷启动。这意味着 AL 的范式正从 Selection 走向 Generation。

核心 idea：以 Querying × Annotation 为两个正交维度，构建涵盖选择/生成/人工/LLM/混合的完整分类体系，首次系统综述 LLM 如何变革主动学习的全流程。

方法详解¶

整体框架¶

本文围绕 LLM-based AL 的五步循环（Initialize → Query → Annotate → Train → Stop）展开，将前人工作映射到 Querying 和 Annotation 两个核心维度上。Querying 维度分为传统选择、LLM 选择、LLM 生成、混合四类；Annotation 维度分为人工标注、LLM 标注、混合标注三类。这两个维度的交叉组合覆盖了所有已知的 LLM-based AL 方法。

关键设计¶

Querying 模块——从固定池选择到开放生成:
- 功能：获取最有信息量的数据实例用于标注和训练
- 核心思路：该模块沿"传统选择 → LLM 选择 → LLM 生成 → 混合"四条路线展开。传统选择用不确定性（Least Confidence、Margin、BALD）和多样性（CoreSet、BADGE）指标从池中选样本。LLM 选择让 LLM 直接评估样本价值——ActiveLLM 无监督评估不确定性和多样性，SelectLLM 用 prompt 排序后 k-NN 聚类提取 few-shot 示例，Ask-LLM 直接评估训练样本质量，ActivePrune 用 LLM 剪枝大规模未标注池。LLM 生成突破池的边界——池内生成用 k-NN + 困惑度策略优化 few-shot 选择（Margatina et al.），池外生成由 APE 框架用 Query-by-Committee + CoT 合成全新 prompt 或由 LLM 同时生成样本与标签再做 rejection sampling（Yang et al.）。混合方法如 NoiseAL 用小 LLM 筛选 + 大 LLM 标注，CAL 用密度聚类 + GPT-4 共同修正偏差。
- 设计动机：传统选择受限于固定池的覆盖范围和冷启动问题；LLM 的推理能力让它可以直接"理解"哪些样本有价值，生成能力则将搜索空间扩展到无穷大
Annotation 模块——从纯人工到人机协作:
- 功能：为获取的数据实例分配高质量标签
- 核心思路：三条路线并行。人工标注仍是金标准——ActivePrune 和 CAL 通过精选样本减少人工量；Active-Prompt 让标注者验证 LLM 答案；Beyond-Labels 收集标签 + 自然语言解释双重信息。LLM 标注大幅降低成本——FreeAL 用小模型蒸馏无需人工监督，LLMaAA 加入 in-context 示例提升标注可靠性，Kholodna et al. 用 GPT-4-Turbo 标注低资源语言大幅降本。混合标注动态路由——Wang et al. 先 LLM 标注 + 验证器评估 + 低质部分人工复审；Rouzegar & Makrehchi 基于置信度阈值决定样本交给 LLM 还是人工。
- 设计动机：纯人工标注成本高且不可扩展，纯 LLM 标注存在偏差（西方文化偏见、自我强化循环、prompt 敏感性），混合策略在成本-质量之间取得平衡
Stopping 与 LLM 学习范式扩展:
- 功能：决定 AL 循环何时终止，并将 AL 技术应用到 LLM 的训练范式中
- 核心思路：停止策略方面，传统 AL 用固定预算 \(k\) 或性能收敛阈值，但 LLM-based AL 的成本结构复杂——同时包含人工标注费用和 LLM API 调用费用（取决于输入/输出 token 数），预算应建模为实值金额而非离散计数。Akins et al. 和 Pullar-Strecker et al. 的混合停止准则结合了 token 级成本分析和性能平台检测。学习范式扩展方面，AL 已渗透到四大 LLM 学习范式：(a) Active ICL——将 few-shot 示例选择建模为 AL 问题，用语义覆盖和歧义驱动采样优化 prompt；(b) Active SFT——用不确定性查询和自训练策略精选微调数据；(c) Active Preference Alignment——在 RLHF 中用针对性偏好查询加速对齐；(d) Active Knowledge Distillation——用不确定性采样选择性蒸馏 LLM 知识到小模型。
- 设计动机：成本模型的根本变化要求重新设计停止条件；AL 从"标注效率工具"升级为"LLM 训练全流程的数据策略"

损失函数 / 训练策略¶

本文为综述论文，不提出新的损失函数。但梳理了 AL 循环中的关键训练策略：目标模型 \(f_\theta\) 在每轮迭代后用新增标注数据更新参数；LLM 生成 + rejection sampling 策略确保只有满足预设准确率阈值的样本进入训练集；Active SFT 中采用自训练（self-training）在低不确定性数据上无需人工标注直接训练。

实验关键数据¶

主实验¶

本文为综述，无统一 benchmark 实验，但汇总了各代表方法在不同任务上的关键结论：

方法	Querying 策略	Annotation 策略	主要任务	核心发现
ActiveLLM	LLM Selection	人工	文本分类	无监督 LLM 选择在 few-shot 和 model mismatch 场景中可匹配传统 AL
SelectLLM	LLM Selection	人工	少样本学习	LLM 排序 + k-NN 聚类优于随机采样和不确定性选择
Ask-LLM	LLM Selection	—	数据质量过滤	LLM 质量评分可有效剔除低质量训练数据
APE	LLM Generation（池外）	人工	实体匹配	Query-by-Committee + CoT 合成新 prompt 提升标注效率
FreeAL	Hybrid	LLM	文本分类/情感分析	完全无人工监督下通过 LLM + 小模型蒸馏实现可用性能
NoiseAL	Hybrid（选择+生成）	LLM	文本分类	小 LLM 筛选 + 大 LLM 标注的两阶段流程有效降本提效
CAL	Hybrid	人工	去偏	密度聚类 + GPT-4 查询可自主识别和修正数据偏差模式

分类体系覆盖分析¶

维度	子类别	代表方法数量	典型方法
Querying - Traditional Selection	不确定性/多样性	6+	BADGE, BALD, CoreSet
Querying - LLM Selection	LLM 评估/排序	4	ActiveLLM, SelectLLM, Ask-LLM, ActivePrune
Querying - LLM Generation	池内/池外生成	5+	APE, EAGLE, Diao et al., Yang et al.
Querying - Hybrid	选择+生成混合	2	NoiseAL, CAL
Annotation - Human	传统人工	5+	Active-Prompt, Beyond-Labels, APL
Annotation - LLM	LLM 标注	3+	FreeAL, LLMaAA, Kholodna et al.
Annotation - Hybrid	人机协作	3+	Wang et al., HybridAL, AutoLabel

关键发现¶

LLM 选择 vs 传统选择：在少样本和冷启动场景中，LLM-based selection 优势明显——ActiveLLM 完全无监督即可匹配传统 AL，原因是 LLM 的语义理解能力弥补了初始模型信息不足的缺陷
池外生成的价值：LLM 生成的池外数据可有效扩展训练集覆盖，特别是在标注数据稀缺时；但 rejection sampling 是保证生成质量的必要环节
传统不确定性采样的失效：Margatina et al. 的实验表明，传统不确定性采样在 LLM few-shot ICL 设置下反而不如 k-NN + 多样性策略，可能因为 ICL 的工作机制与标准监督学习不同
LLM 标注的偏差风险：LLM 标注存在西方文化偏见（Atari et al.）、自我强化循环（LLM 标注 LLM 生成数据时）和 prompt 敏感性三重风险，混合标注是当前最优折衷

亮点与洞察¶

范式质变——从 Selection 到 Generation：传统 AL 的搜索空间被限制在固定数据池 \(\mathcal{U}\) 中，LLM 将其扩展到无限的生成空间 \(\mathbf{x}' \notin \mathcal{U}\)。这不是渐进式改进而是范式级跃迁，意味着 AL 从"在已有数据中选最好的"变成了"创造最需要的数据"
二维分类法的简洁力量：Querying × Annotation 的正交分类将所有方法映射到一个 4×3 的矩阵中，一目了然地揭示了哪些组合已被探索、哪些仍是空白。这种分类法本身就是研究路线图
成本模型的根本重构：传统 AL 假设每条标注成本相同，但 LLM-based AL 的成本是 token 级别的实值函数，这要求停止准则、预算分配、路由策略全部重新设计，是一个被低估的开放问题
四大 LLM 范式的统一 AL 视角：将 ICL 示例选择、SFT 数据选择、RLHF 偏好查询、知识蒸馏样本选择统一在 AL 框架下理解，提供了跨范式的方法迁移视角

局限与展望¶

缺少统一 benchmark：各方法在不同数据集、不同设置下评测，无法直接横向比较——综述未提供统一实验对比，使得方法选择缺乏量化指导
LLM 标注质量的系统评估缺失：综述提到了 LLM 标注的偏差和不一致性，但缺少对标注质量的系统评估框架（如什么时候 LLM 标注可靠、什么时候不可靠的判定标准）
理论基础薄弱：LLM-based AL 的理论保证（如 PAC 学习框架下的样本复杂度界）几乎空白，现有方法多为经验性设计
多模态覆盖不足：绝大部分方法仅针对文本任务，图像、音频、视频等模态的 AL 尚未被充分讨论
Multi-LLM 系统：不同 LLM 在成本和能力上差异巨大（如 GPT-4 vs 小模型），如何像 NoiseAL 那样系统性地组合多个 LLM 来优化成本-性能 trade-off 是重要方向

评分¶

新颖性: ⭐⭐⭐⭐ 首篇 LLM-based AL 系统综述，Querying × Annotation 分类法简洁有力，从 Selection 到 Generation 的范式转移叙事有洞察
实验充分度: ⭐⭐ 综述论文无原创实验，各方法的比较依赖引用文献，缺少统一 benchmark 下的对比
写作质量: ⭐⭐⭐⭐ 结构清晰，分类法直观，表格和图示设计合理；覆盖面广但部分方法描述偏简略
价值: ⭐⭐⭐⭐ 对 LLM-based AL 领域研究者是优秀的入门索引和方法定位工具，分类法可直接指导新方法设计和定位