Model Performance-Guided Evaluation Data Selection for Effective Prompt Optimization¶
会议: ACL 2025
arXiv: 2505.10736
代码: 无
领域: LLM预训练
关键词: 提示优化, 核心集选择, 评估数据选取, 实时模型性能, 语义聚类
一句话总结¶
提出 IPOMP——一种两阶段评估数据选择方法,第一阶段通过语义聚类和边界分析选取多样化样本,第二阶段利用提示优化过程中的实时模型性能迭代替换冗余样本,在 BIG-bench 和 LIAR 上将提示优化效果提升 1.6%-3.1%,稳定性提升 50%+,额外开销不到 1%。
研究背景与动机¶
提示优化(Prompt Optimization)是提升 LLM 任务表现的关键步骤,但自动化提示优化面临一个被忽视的核心问题:评估数据的选择。
现有痛点:
全量评估不现实:在整个训练集上评估每个候选提示成本太高
随机采样不可靠:随机选取的子集很可能不具代表性,导致评估不稳定、优化的提示不够好
现有核心集方法不适用: - 语义聚类对高度相似的任务样本效果差 - 模型性能方法需预先收集评估数据,成本高且迁移差 - 新/私有数据集无历史性能数据可用
这是首个针对提示优化场景提出评估数据选择方法的工作。
方法详解¶
整体框架¶
IPOMP 是嵌入提示优化迭代过程的两阶段方法:
- Stage 1(Diverse Sample Selection):语义聚类 + 边界样本选取
- Stage 2(Real-time Performance-Guided Refinement):每次迭代动态替换冗余样本
关键设计¶
-
Stage 1: 多样化样本选取:
- Sentence-BERT 编码所有训练样本,K-means 聚类(\(k=5\))
- 按比例从每个簇采样 \(\alpha N\) 个样本(语义代表性)
- 在语义空间中找最远距离样本对,取 \((1-\alpha)N\) 个(边界多样性)
- HNSW 加速边界点检测,避免 \(O(dN^2)\) 全量距离计算
- 设计动机:聚类保证代表性,边界样本弥补极端情况的覆盖
-
Stage 2: 实时性能引导迭代精炼:
- 核心观察:约 20% 样本在不同候选提示上的表现高相关(>0.9),即大量冗余
- 每次迭代记录性能矩阵:样本 × (输出标签数 × 候选提示数),使用 logits
- 层级聚类将高相关样本分组,随机选 \(\beta\) 比例冗余样本
- 用语义空间中最不相似的训练样本替换
- 设计动机:利用优化中"免费"的模型反馈,零额外推理开销识别冗余
-
与现有性能引导方法的关键区别:
- Anchor-Point 需额外预热阶段(~200秒 + API 成本)
- Prediction-based 需在其他 LLM 上训练评估器
- IPOMP 直接利用优化过程的副产品,零额外推理成本
关键超参数¶
- 评估集大小 \(N=20\),聚类数 \(K=5\)
- 聚类 vs 边界比例 \(\alpha=0.5\)
- 相关性阈值 \(CT=0.9\),替换率 \(\beta=0.5\)
实验关键数据¶
主实验(Accuracy ± SD,跨三种优化方法的平均)¶
| 方法 | GPT-3.5 BIG-bench | GPT-4o-mini BIG-bench | GPT-3.5 LIAR | GPT-4o-mini LIAR |
|---|---|---|---|---|
| Random | 0.719±0.035 | 0.704±0.041 | 0.742±0.041 | 0.748±0.048 |
| Clustering | 0.725±0.029 | 0.725±0.029 | 0.752±0.036 | 0.788±0.038 |
| Boundary | 0.727±0.040 | 0.723±0.038 | 0.770±0.035 | 0.797±0.047 |
| Anchor-Point | 0.745±0.028 | 0.756±0.027 | 0.801±0.027 | 0.807±0.024 |
| Prediction-based | 0.725±0.038 | 0.705±0.044 | 0.746±0.039 | 0.750±0.043 |
| IPOMP | 0.757±0.012 | 0.778±0.011 | 0.820±0.012 | 0.833±0.012 |
消融实验¶
| 变体 | GPT-3.5 BB Acc | GPT-4o-mini BB Acc |
|---|---|---|
| IPOMP (完整) | 0.757±0.012 | 0.778±0.011 |
| Stage 1 only | 0.733±0.034 | 0.743±0.012 |
| Random + Stage 2 | 0.737±0.021 | 0.738±0.012 |
去掉 Stage 2:Acc 降 2.4%,SD 增 2.83 倍。用随机替换 Stage 1:Acc 降 2%。
时间开销(BIG-bench,GPT-3.5,秒)¶
| 组成 | APO | APE | EVOPROMPT | 平均 |
|---|---|---|---|---|
| Stage 1 | 0.45 | 0.37 | 0.51 | 0.45 |
| Stage 2 | 2.74 | 2.31 | 3.43 | 2.83 |
| Anchor-Point 预热 | 200.36 | 205.32 | 207.85 | 204.51 |
IPOMP 额外开销 < 1%,Anchor-Point 预热增加 ~50% 时间。
关键发现¶
- 所有核心集方法都优于 Random,证明评估数据选择对提示优化很重要
- IPOMP 对比次优 Anchor-Point:Acc +1.6%~3.1%,SD 降低 50%+
- Stage 2 可作为通用插件:为 Random/Boundary/Clustering 带来 2.3%/1.1%/1.5% 提升
- 样本量 20 是最优平衡点
- 一轮精炼即将高相关冗余从 19% 降至 10%
亮点与洞察¶
- 问题定义新颖:首次在提示优化中研究评估数据选择问题
- 实时性能利用的优雅设计:巧妙复用优化过程已有的模型反馈
- 通用性:Stage 2 可即插即用增强任何数据选择方法
- 稳定性提升:SD 降低 50%+ 意味着生产环境中的可靠性大幅提升
局限与展望¶
- 模型覆盖有限:仅 GPT-3.5 和 GPT-4o-mini
- 任务偏向分类:生成任务上效果未知
- Logits 依赖:对无法获取 logits 的 API 适用性受限
- 提示优化技术:仅覆盖 APE、APO、EVOPROMPT
相关工作与启发¶
- 提示优化三大类:非定向(APE/EvoPrompt)、定向(APO)
- 核心集选择从几何方法到性能方法的演进
- 核心启发:提示优化中"评什么"和"怎么优化"同等重要
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次定义并解决提示优化的评估数据选择问题
- 实验充分度: ⭐⭐⭐⭐ — 多数据集、多模型、多优化技术、详细消融
- 写作质量: ⭐⭐⭐⭐ — 问题动机清晰,方法描述系统
- 价值: ⭐⭐⭐⭐ — Stage 2 的通用插件实用价值高