Model Performance-Guided Evaluation Data Selection for Effective Prompt Optimization¶

会议: ACL 2025
arXiv: 2505.10736
代码: 无
领域: LLM预训练
关键词: 提示优化, 核心集选择, 评估数据选取, 实时模型性能, 语义聚类

一句话总结¶

提出 IPOMP——一种两阶段评估数据选择方法，第一阶段通过语义聚类和边界分析选取多样化样本，第二阶段利用提示优化过程中的实时模型性能迭代替换冗余样本，在 BIG-bench 和 LIAR 上将提示优化效果提升 1.6%-3.1%，稳定性提升 50%+，额外开销不到 1%。

研究背景与动机¶

提示优化（Prompt Optimization）是提升 LLM 任务表现的关键步骤，但自动化提示优化面临一个被忽视的核心问题：评估数据的选择。

现有痛点：

全量评估不现实：在整个训练集上评估每个候选提示成本太高

随机采样不可靠：随机选取的子集很可能不具代表性，导致评估不稳定、优化的提示不够好

现有核心集方法不适用： - 语义聚类对高度相似的任务样本效果差 - 模型性能方法需预先收集评估数据，成本高且迁移差 - 新/私有数据集无历史性能数据可用

这是首个针对提示优化场景提出评估数据选择方法的工作。

方法详解¶

整体框架¶

IPOMP 是嵌入提示优化迭代过程的两阶段方法：

Stage 1（Diverse Sample Selection）：语义聚类 + 边界样本选取
Stage 2（Real-time Performance-Guided Refinement）：每次迭代动态替换冗余样本

关键设计¶

Stage 1: 多样化样本选取：
- Sentence-BERT 编码所有训练样本，K-means 聚类（\(k=5\)）
- 按比例从每个簇采样 \(\alpha N\) 个样本（语义代表性）
- 在语义空间中找最远距离样本对，取 \((1-\alpha)N\) 个（边界多样性）
- HNSW 加速边界点检测，避免 \(O(dN^2)\) 全量距离计算
- 设计动机：聚类保证代表性，边界样本弥补极端情况的覆盖
Stage 2: 实时性能引导迭代精炼：
- 核心观察：约 20% 样本在不同候选提示上的表现高相关（>0.9），即大量冗余
- 每次迭代记录性能矩阵：样本 × (输出标签数 × 候选提示数)，使用 logits
- 层级聚类将高相关样本分组，随机选 \(\beta\) 比例冗余样本
- 用语义空间中最不相似的训练样本替换
- 设计动机：利用优化中"免费"的模型反馈，零额外推理开销识别冗余
与现有性能引导方法的关键区别：
- Anchor-Point 需额外预热阶段（~200秒 + API 成本）
- Prediction-based 需在其他 LLM 上训练评估器
- IPOMP 直接利用优化过程的副产品，零额外推理成本

关键超参数¶

评估集大小 \(N=20\)，聚类数 \(K=5\)
聚类 vs 边界比例 \(\alpha=0.5\)
相关性阈值 \(CT=0.9\)，替换率 \(\beta=0.5\)

实验关键数据¶

主实验（Accuracy ± SD，跨三种优化方法的平均）¶

方法	GPT-3.5 BIG-bench	GPT-4o-mini BIG-bench	GPT-3.5 LIAR	GPT-4o-mini LIAR
Random	0.719±0.035	0.704±0.041	0.742±0.041	0.748±0.048
Clustering	0.725±0.029	0.725±0.029	0.752±0.036	0.788±0.038
Boundary	0.727±0.040	0.723±0.038	0.770±0.035	0.797±0.047
Anchor-Point	0.745±0.028	0.756±0.027	0.801±0.027	0.807±0.024
Prediction-based	0.725±0.038	0.705±0.044	0.746±0.039	0.750±0.043
IPOMP	0.757±0.012	0.778±0.011	0.820±0.012	0.833±0.012

消融实验¶

变体	GPT-3.5 BB Acc	GPT-4o-mini BB Acc
IPOMP (完整)	0.757±0.012	0.778±0.011
Stage 1 only	0.733±0.034	0.743±0.012
Random + Stage 2	0.737±0.021	0.738±0.012

去掉 Stage 2：Acc 降 2.4%，SD 增 2.83 倍。用随机替换 Stage 1：Acc 降 2%。

时间开销（BIG-bench，GPT-3.5，秒）¶

组成	APO	APE	EVOPROMPT	平均
Stage 1	0.45	0.37	0.51	0.45
Stage 2	2.74	2.31	3.43	2.83
Anchor-Point 预热	200.36	205.32	207.85	204.51

IPOMP 额外开销 < 1%，Anchor-Point 预热增加 ~50% 时间。

关键发现¶

所有核心集方法都优于 Random，证明评估数据选择对提示优化很重要
IPOMP 对比次优 Anchor-Point：Acc +1.6%~3.1%，SD 降低 50%+
Stage 2 可作为通用插件：为 Random/Boundary/Clustering 带来 2.3%/1.1%/1.5% 提升
样本量 20 是最优平衡点
一轮精炼即将高相关冗余从 19% 降至 10%

亮点与洞察¶

问题定义新颖：首次在提示优化中研究评估数据选择问题
实时性能利用的优雅设计：巧妙复用优化过程已有的模型反馈
通用性：Stage 2 可即插即用增强任何数据选择方法
稳定性提升：SD 降低 50%+ 意味着生产环境中的可靠性大幅提升

局限与展望¶

模型覆盖有限：仅 GPT-3.5 和 GPT-4o-mini
任务偏向分类：生成任务上效果未知
Logits 依赖：对无法获取 logits 的 API 适用性受限
提示优化技术：仅覆盖 APE、APO、EVOPROMPT

评分¶

新颖性: ⭐⭐⭐⭐ — 首次定义并解决提示优化的评估数据选择问题
实验充分度: ⭐⭐⭐⭐ — 多数据集、多模型、多优化技术、详细消融
写作质量: ⭐⭐⭐⭐ — 问题动机清晰，方法描述系统
价值: ⭐⭐⭐⭐ — Stage 2 的通用插件实用价值高