KnowProxy: Adapting Large Language Models by Knowledge-guided Proxy¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=14f18NoEqO
代码: https://github.com/2gukhyeon/KnowProxy
领域: LLM 高效适配 / 代理微调 / 黑盒大模型
关键词: proxy-tuning, knowledge-guided, black-box LLM, adaptive routing, uncertainty
一句话总结¶
KnowProxy 用一个小代理模型「学会消化」冻结大模型生成的文本知识来适配下游任务,从而摆脱了传统代理微调对大模型概率分布的依赖,让黑盒 LLM 也能被高效微调,并用动态路由只在大模型不确定时才调用代理。
研究背景与动机¶
领域现状:直接微调动辄数十亿参数的 LLM 既昂贵又常常不可行,闭源大模型更是无法改动。一条有前景的折中路线是「代理微调」——冻住大模型,只训练一个小模型来调节它的输出,典型代表是 Proxy-tuning(用轻量模型重加权 LLM 的概率分布)和 CombLM(训练独立小模型并把它的预测分布与 LLM 融合)。
现有痛点:这些方法都把概率分布当作通信媒介,由此带来两个硬约束。其一,它们要求能访问 LLM 的完整输出分布、且大小模型共享同一词表,这在只返回文本的黑盒 API(ChatGPT、GPT-5 等)上根本无法满足。其二,近期研究表明 LLM 生成的概率分布本身就不稳定、不可靠,在 QASC、BoolQ 等基准上,基于分布的代理方法甚至打不过大模型自己的 zero-shot 推理。
核心矛盾:代理微调的吸引力在于「不碰大模型参数也能适配」,但它选择的通信通道(概率分布)恰恰是黑盒场景里拿不到、且本身质量存疑的东西——通道的脆弱性反过来限制了整个范式的适用面与稳定性。
本文目标:设计一种不依赖概率分布的代理适配框架,既能用于黑盒 LLM,又能避开分布不稳定带来的性能退化,同时控制住「每次都要跑代理」的额外推理开销。
核心 idea(知识替代分布):把通信媒介从概率分布换成文本知识——先用 prompt 从冻结 LLM 中诱导出解题所需的文本知识与推理,再让小代理模型在「原始 query + 诱导知识」上做标准监督训练,学会把大模型的推理映射到目标任务分布;推理时再用置信度聚合的动态路由,只在大模型不靠谱时才唤醒代理。
方法详解¶
整体框架¶
KnowProxy 把传统代理微调目标 \(\min_\phi -\mathbb{E}_{(x,y)\sim D}[\log \mu_\phi(y\mid x)\pi_\theta(y\mid x)]\)(依赖 LLM 分布 \(\pi_\theta(y\mid x)\))重写为知识引导目标 \(\min_\phi -\mathbb{E}_{(x,y)\sim D}[\log \mu_\phi(y\mid x, k)]\),其中 \(k\sim\pi_\theta(k\mid x)\) 是 LLM 以文本形式吐出的知识。整条流水线分三步:训练前用 prompt 从冻结 LLM 批量诱导每条样本的知识与置信度并过滤,训练时把知识拼进代理输入做监督微调,推理时用聚合置信度决定走 LLM 还是走代理。
flowchart TD
X[输入 query x] --> P[知识诱导 prompt P_k]
P --> LLM[冻结 LLM π_θ]
LLM -->|生成多组 k_i, c_i| K[知识-置信度对集合 K]
K -->|c_i > α 过滤| KF[保留知识 k]
KF --> CAT[拼接 x + k]
CAT --> PROXY[训练小代理 μ_φ]
LLM -.推理阶段.-> CONF["聚合置信度 C_final = C_knowledge · C_prediction"]
CONF -->|C_final ≥ τ| OUT1[直接输出 LLM 预测]
CONF -->|C_final < τ| PROXY
PROXY --> OUT2[代理结合知识精炼答案]
关键设计¶
1. 文本知识诱导与置信度过滤:把分布通道换成可读、可筛的知识通道。 对每条 query \(x\),KnowProxy 用知识诱导 prompt \(P_k\) 让 LLM 输出知识片段及其置信度 \(k, c = \pi_\theta(P_k, x)\),这里的「知识」被宽泛地定义为解题线索——底层原理、推理步骤或相关事实。关键在于它不只取一次输出,而是生成多组知识-置信度对,以覆盖不同推理路径、避免对单次抽取的过度依赖。由于 LLM 生成的知识可能含幻觉或无关内容,框架再做一道置信度过滤 \(k = \{k_i \mid (k_i, c_i)\in K,\ c_i > \alpha\}\),只保留置信度高于阈值 \(\alpha\) 的知识,最终拼成知识增强数据集 \(D_K = \{(x_i, k_i, y_i)\}\)。这一步把「概率分布」这个黑盒里拿不到的量,换成了文本这种任何 API 都返回、且能被显式审查筛选的载体,黑盒适用性与稳定性都来自于此。
2. 知识引导的代理优化:让小模型内化大模型的推理而非模仿其分布。 拿到知识增强数据集后,把 query \(x\) 与过滤后的知识 \(k\) 拼接成增强输入,用一个标准监督目标训练小代理 \(\mu_\phi\)。这一步的设计意图是让代理学会「读懂并复用」LLM 写出的推理,再把它对齐到具体任务的输出分布上,相当于让小模型在大模型的思路之上做任务特化。消融显示这是最关键的一环:去掉 adaptation(只在推理时塞知识、不训练代理消化)会带来最大的性能跌幅(平均 81.0→75.1)。值得注意的是,作者发现训练时若把 LLM 的预测答案也喂进去(w/ LLM answer)反而更差(81.0→77.5),原因是 LLM 的错误预测会沿训练过程传播污染代理——所以 KnowProxy 刻意只用知识、不用大模型的最终答案。
3. 多粒度置信度聚合的动态路由:把「永远调用代理」改成「按需调用」。 代理范式的通病是每条 query 都要额外跑一遍小模型。KnowProxy 在推理阶段引入路由:先复用知识诱导 prompt 顺带让 LLM 给出预测及其置信度 \(C_\text{prediction}\),再把所有生成知识的置信度连乘聚合 \(C_\text{knowledge} = \prod_{k=1}^{K} c_k\),得到最终可靠性 \(C_\text{final} = C_\text{knowledge}\cdot C_\text{prediction}\)。路由判据为 $$ y = \begin{cases} \pi_\theta(y\mid x), & \text{if } C_\text{final}\ge\tau \ \mu_\phi(y\mid x, k\sim\pi_\theta(k\mid x)), & \text{if } C_\text{final}<\tau \end{cases} $$ 即聚合置信度高于阈值 \(\tau\) 时直接采信 LLM、省去代理;低于阈值才唤醒代理结合知识精炼。这里的巧思在于路由信号不止看预测级置信度,而是逐条知识地估计不确定性——低置信知识本身就是「LLM 推理可能在打滑」的早期信号,比单一预测置信度更细粒度。聚合时连过滤掉的知识置信度也一并计入,以反映 LLM 对该 query 的整体理解程度。
实验关键数据¶
主实验表格¶
Llama-3.2-3B 作冻结 LLM、Llama-3.2-1B 作代理,9 个推理基准测试准确率(%):
| 方法 | OBQA | ARCh | PIQA | CSQA | QASC | SIQA | WNGR | StrategyQA | BoolQ | Avg. |
|---|---|---|---|---|---|---|---|---|---|---|
| Fine-tuning LLM(上界) | 82.2 | 76.2 | 87.7 | 79.5 | 82.9 | 80.5 | 87.3 | 71.5 | 86.9 | 81.6 |
| Fine-tuning SLM | 73.2 | 60.9 | 80.3 | 72.0 | 68.0 | 74.9 | 75.4 | 66.5 | 85.4 | 73.0 |
| Chain-of-Thought | 77.6 | 80.0 | 75.6 | 73.1 | 79.0 | 68.6 | 57.8 | 69.0 | 76.7 | 73.1 |
| Proxy-tuning | 77.2 | 69.6 | 80.1 | 70.8 | 69.9 | 72.6 | 65.7 | 64.6 | 76.2 | 71.9 |
| CombLM | 78.6 | 72.6 | 81.1 | 72.5 | 76.9 | 73.7 | 69.3 | 67.2 | 76.8 | 74.3 |
| BBox-Adapter | 76.2 | 68.6 | 73.8 | 73.3 | 73.8 | 72.7 | 53.7 | 69.0 | 70.5 | 70.2 |
| KnowProxy (ours) | 80.2 | 75.2 | 83.4 | 75.0 | 78.1 | 76.3 | 77.8 | 72.9 | 85.1 | 78.2 |
KnowProxy 平均 78.2,全面超越所有代理基线(最优 CombLM 74.3),并在 OBQA/ARCh/StrategyQA/BoolQ 等任务上逼近甚至持平直接微调大模型(StrategyQA 上 72.9 反超微调的 71.5)。
跨 backbone(含黑盒与量化),代理固定 Llama-3.2-1B:
| LLM | Zero-shot Avg. | KnowProxy Avg. | Fine-tuning Avg. |
|---|---|---|---|
| Mistral-7B | 67.0 | 76.6 | 81.0 |
| Llama-2-13B(4-bit 量化) | 57.1 | 73.4 | 79.9 |
| ChatGPT(gpt-3.5-turbo,黑盒) | 76.9 | 80.9 | — |
黑盒 ChatGPT 上 KnowProxy(80.9)超过同为答案选择的 BBox-Adapter(79.4),证明无须分布访问即可适配 API 模型。
消融实验表格¶
ChatGPT backbone 下各组件贡献(准确率 %):
| 变体 | OBQA | PIQA | StrategyQA | SIQA |
|---|---|---|---|---|
| KnowProxy | 85.0 | 87.2 | 74.7 | 77.0 |
| w/o routing | 82.0 | 87.2 | 74.7 | 76.8 |
| w/o filtering | 85.0 | 86.2 | 72.1 | 76.0 |
| w/o adaptation | 80.6 | 85.1 | 59.4 | 75.3 |
| w/ LLM answer | 76.8 | 83.7 | 72.9 | 76.4 |
关键发现¶
- 知识适配是命脉:去掉 adaptation 平均从 81.0 跌到 75.1,是最大降幅;StrategyQA 直接从 74.7 崩到 59.4。
- 路由几乎不损精度:去掉 routing 只从 81.0 微降到 80.2,说明它主要换来效率而非牺牲准确率——简单 query 交给 LLM、难 query 才走代理。
- 不要喂大模型的答案:w/ LLM answer 反而降到 77.5,因为 LLM 的错误预测会向代理传播误差。
- 路由可靠性:随置信度阈值升高,KnowProxy 路由给 LLM 处理的样本准确率单调上升,而单一预测级置信度(Tian et al.)几乎是平线——多粒度知识置信度聚合才提供了有意义的路由信号。
- 代理可换、规模可缩:换成 LaMini-GPT-0.7B、Qwen2.5-0.5B 仍稳定提升 zero-shot,且增益与小模型能力正相关,符合 scaling law 直觉。
亮点与洞察¶
- 媒介之变:本质洞察是把代理微调的「通信协议」从脆弱、私有的概率分布换成稳健、公开的文本知识,一举打通黑盒适配并规避分布不稳定,是对整个代理范式约束的釜底抽薪。
- 逐条知识的置信度比预测级置信度更会路由:把不确定性下沉到知识粒度,让「LLM 推理是否在打滑」这一信号被更早、更细地捕捉,路由因此真的可靠。
- 只学思路、不抄答案:刻意排除 LLM 的最终预测,避免错误传播,体现了对「蒸馏什么」的精细取舍。
局限与展望¶
- 依赖 LLM 的知识质量与自评置信度:若大模型生成的知识系统性偏差或置信度校准糟糕,过滤与路由都会受连累,论文未深入探讨极端不可靠 backbone 的情形。
- 额外的知识诱导开销:每条样本需多次 prompt 生成多组知识,训练前的数据构造与推理时的知识生成都带来调用成本,路由只缓解了代理调用、未消除知识诱导本身的开销。
- 阈值需经验调参:过滤阈值 \(\alpha\) 与路由阈值 \(\tau\) 均为经验设定,跨任务迁移时的鲁棒性与自适应化是自然的下一步。
- 任务范围:实验集中在推理类 QA 基准,生成式与长程任务上的表现仅在附录略有涉及,泛化边界仍待拓展。
相关工作与启发¶
- 代理微调谱系:Proxy-tuning(重加权 LLM 分布)、CombLM(融合小模型分布)是直接对标对象,KnowProxy 用文本知识替代分布是对这一谱系的关键松绑;BBox-Adapter 则代表「答案选择」式的另一条黑盒适配路线。
- LLM 不确定性诱导:承接 Tian et al.、Xiong et al. 等用 prompt 从文本输出估计置信度的工作,但创新在于把不确定性从预测级细化到知识级,用于路由而非仅评估事实性。
- 启发:当某个范式的瓶颈来自它选择的「接口/媒介」而非任务本身时,换一个更通用、更稳健的媒介(如此处的文本 vs 分布)往往比在原媒介上修补更有效——这对黑盒模型蒸馏、API 时代的模型适配都有方法论意义。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 用文本知识替代概率分布作为代理微调媒介、并配多粒度置信度路由,对成熟范式做了清晰而本质的松绑,思路简洁但切中要害。
- 实验充分度: ⭐⭐⭐⭐ — 覆盖 9+ 推理基准、多种开源/黑盒/量化 backbone 与多种小模型,消融与路由可靠性分析到位;生成式与长程任务覆盖偏弱。
- 写作质量: ⭐⭐⭐⭐ — 问题动机、目标重写与方法推导层次分明,图表清晰,公式与文字配合良好。
- 价值: ⭐⭐⭐⭐ — 让闭源黑盒 LLM 也能被低成本适配,且无须访问分布,工程落地价值高,对 API 时代的模型定制很实用。