KnowProxy: Adapting Large Language Models by Knowledge-guided Proxy¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=14f18NoEqO
代码: https://github.com/2gukhyeon/KnowProxy
领域: LLM 高效适配 / 代理微调 / 黑盒大模型
关键词: proxy-tuning, knowledge-guided, black-box LLM, adaptive routing, uncertainty

一句话总结¶

KnowProxy 用一个小代理模型「学会消化」冻结大模型生成的文本知识来适配下游任务，从而摆脱了传统代理微调对大模型概率分布的依赖，让黑盒 LLM 也能被高效微调，并用动态路由只在大模型不确定时才调用代理。

研究背景与动机¶

领域现状：直接微调动辄数十亿参数的 LLM 既昂贵又常常不可行，闭源大模型更是无法改动。一条有前景的折中路线是「代理微调」——冻住大模型，只训练一个小模型来调节它的输出，典型代表是 Proxy-tuning（用轻量模型重加权 LLM 的概率分布）和 CombLM（训练独立小模型并把它的预测分布与 LLM 融合）。

现有痛点：这些方法都把概率分布当作通信媒介，由此带来两个硬约束。其一，它们要求能访问 LLM 的完整输出分布、且大小模型共享同一词表，这在只返回文本的黑盒 API（ChatGPT、GPT-5 等）上根本无法满足。其二，近期研究表明 LLM 生成的概率分布本身就不稳定、不可靠，在 QASC、BoolQ 等基准上，基于分布的代理方法甚至打不过大模型自己的 zero-shot 推理。

核心矛盾：代理微调的吸引力在于「不碰大模型参数也能适配」，但它选择的通信通道（概率分布）恰恰是黑盒场景里拿不到、且本身质量存疑的东西——通道的脆弱性反过来限制了整个范式的适用面与稳定性。

本文目标：设计一种不依赖概率分布的代理适配框架，既能用于黑盒 LLM，又能避开分布不稳定带来的性能退化，同时控制住「每次都要跑代理」的额外推理开销。

核心 idea（知识替代分布）：把通信媒介从概率分布换成文本知识——先用 prompt 从冻结 LLM 中诱导出解题所需的文本知识与推理，再让小代理模型在「原始 query + 诱导知识」上做标准监督训练，学会把大模型的推理映射到目标任务分布；推理时再用置信度聚合的动态路由，只在大模型不靠谱时才唤醒代理。

方法详解¶

整体框架¶

KnowProxy 把传统代理微调目标 $\min_\phi -\mathbb{E}_{(x,y)\sim D}[\log \mu_\phi(y\mid x)\pi_\theta(y\mid x)]$（依赖 LLM 分布 $\pi_\theta(y\mid x)$）重写为知识引导目标 $\min_\phi -\mathbb{E}_{(x,y)\sim D}[\log \mu_\phi(y\mid x, k)]$，其中 $k\sim\pi_\theta(k\mid x)$ 是 LLM 以文本形式吐出的知识。整条流水线分三步：训练前用 prompt 从冻结 LLM 批量诱导每条样本的知识与置信度并过滤，训练时把知识拼进代理输入做监督微调，推理时用聚合置信度决定走 LLM 还是走代理。

flowchart TD
    X[输入 query x] --> P[知识诱导 prompt P_k]
    P --> LLM[冻结 LLM π_θ]
    LLM -->|生成多组 k_i, c_i| K[知识-置信度对集合 K]
    K -->|c_i > α 过滤| KF[保留知识 k]
    KF --> CAT[拼接 x + k]
    CAT --> PROXY[训练小代理 μ_φ]
    LLM -.推理阶段.-> CONF["聚合置信度 C_final = C_knowledge · C_prediction"]
    CONF -->|C_final ≥ τ| OUT1[直接输出 LLM 预测]
    CONF -->|C_final < τ| PROXY
    PROXY --> OUT2[代理结合知识精炼答案]

关键设计¶

1. 文本知识诱导与置信度过滤：把分布通道换成可读、可筛的知识通道。 对每条 query $x$，KnowProxy 用知识诱导 prompt $P_k$ 让 LLM 输出知识片段及其置信度 $k, c = \pi_\theta(P_k, x)$，这里的「知识」被宽泛地定义为解题线索——底层原理、推理步骤或相关事实。关键在于它不只取一次输出，而是生成多组知识-置信度对，以覆盖不同推理路径、避免对单次抽取的过度依赖。由于 LLM 生成的知识可能含幻觉或无关内容，框架再做一道置信度过滤 $k = \{k_i \mid (k_i, c_i)\in K,\ c_i > \alpha\}$，只保留置信度高于阈值 $\alpha$ 的知识，最终拼成知识增强数据集 $D_K = \{(x_i, k_i, y_i)\}$。这一步把「概率分布」这个黑盒里拿不到的量，换成了文本这种任何 API 都返回、且能被显式审查筛选的载体，黑盒适用性与稳定性都来自于此。

2. 知识引导的代理优化：让小模型内化大模型的推理而非模仿其分布。 拿到知识增强数据集后，把 query $x$ 与过滤后的知识 $k$ 拼接成增强输入，用一个标准监督目标训练小代理 $\mu_\phi$。这一步的设计意图是让代理学会「读懂并复用」LLM 写出的推理，再把它对齐到具体任务的输出分布上，相当于让小模型在大模型的思路之上做任务特化。消融显示这是最关键的一环：去掉 adaptation（只在推理时塞知识、不训练代理消化）会带来最大的性能跌幅（平均 81.0→75.1）。值得注意的是，作者发现训练时若把 LLM 的预测答案也喂进去（w/ LLM answer）反而更差（81.0→77.5），原因是 LLM 的错误预测会沿训练过程传播污染代理——所以 KnowProxy 刻意只用知识、不用大模型的最终答案。

3. 多粒度置信度聚合的动态路由：把「永远调用代理」改成「按需调用」。 代理范式的通病是每条 query 都要额外跑一遍小模型。KnowProxy 在推理阶段引入路由：先复用知识诱导 prompt 顺带让 LLM 给出预测及其置信度 $C_\text{prediction}$，再把所有生成知识的置信度连乘聚合 $C_\text{knowledge} = \prod_{k=1}^{K} c_k$，得到最终可靠性 $C_\text{final} = C_\text{knowledge}\cdot C_\text{prediction}$。路由判据为 $$ y = \begin{cases} \pi_\theta(y\mid x), & \text{if } C_\text{final}\ge\tau \ \mu_\phi(y\mid x, k\sim\pi_\theta(k\mid x)), & \text{if } C_\text{final}<\tau \end{cases} $$ 即聚合置信度高于阈值 $\tau$ 时直接采信 LLM、省去代理；低于阈值才唤醒代理结合知识精炼。这里的巧思在于路由信号不止看预测级置信度，而是逐条知识地估计不确定性——低置信知识本身就是「LLM 推理可能在打滑」的早期信号，比单一预测置信度更细粒度。聚合时连过滤掉的知识置信度也一并计入，以反映 LLM 对该 query 的整体理解程度。

实验关键数据¶

主实验表格¶

Llama-3.2-3B 作冻结 LLM、Llama-3.2-1B 作代理，9 个推理基准测试准确率（%）：

方法	OBQA	ARCh	PIQA	CSQA	QASC	SIQA	WNGR	StrategyQA	BoolQ	Avg.
Fine-tuning LLM（上界）	82.2	76.2	87.7	79.5	82.9	80.5	87.3	71.5	86.9	81.6
Fine-tuning SLM	73.2	60.9	80.3	72.0	68.0	74.9	75.4	66.5	85.4	73.0
Chain-of-Thought	77.6	80.0	75.6	73.1	79.0	68.6	57.8	69.0	76.7	73.1
Proxy-tuning	77.2	69.6	80.1	70.8	69.9	72.6	65.7	64.6	76.2	71.9
CombLM	78.6	72.6	81.1	72.5	76.9	73.7	69.3	67.2	76.8	74.3
BBox-Adapter	76.2	68.6	73.8	73.3	73.8	72.7	53.7	69.0	70.5	70.2
KnowProxy (ours)	80.2	75.2	83.4	75.0	78.1	76.3	77.8	72.9	85.1	78.2

KnowProxy 平均 78.2，全面超越所有代理基线（最优 CombLM 74.3），并在 OBQA/ARCh/StrategyQA/BoolQ 等任务上逼近甚至持平直接微调大模型（StrategyQA 上 72.9 反超微调的 71.5）。

跨 backbone（含黑盒与量化），代理固定 Llama-3.2-1B：

LLM	Zero-shot Avg.	KnowProxy Avg.	Fine-tuning Avg.
Mistral-7B	67.0	76.6	81.0
Llama-2-13B（4-bit 量化）	57.1	73.4	79.9
ChatGPT（gpt-3.5-turbo，黑盒）	76.9	80.9	—

黑盒 ChatGPT 上 KnowProxy（80.9）超过同为答案选择的 BBox-Adapter（79.4），证明无须分布访问即可适配 API 模型。

消融实验表格¶

ChatGPT backbone 下各组件贡献（准确率 %）：

变体	OBQA	PIQA	StrategyQA	SIQA
KnowProxy	85.0	87.2	74.7	77.0
w/o routing	82.0	87.2	74.7	76.8
w/o filtering	85.0	86.2	72.1	76.0
w/o adaptation	80.6	85.1	59.4	75.3
w/ LLM answer	76.8	83.7	72.9	76.4

关键发现¶

知识适配是命脉：去掉 adaptation 平均从 81.0 跌到 75.1，是最大降幅；StrategyQA 直接从 74.7 崩到 59.4。
路由几乎不损精度：去掉 routing 只从 81.0 微降到 80.2，说明它主要换来效率而非牺牲准确率——简单 query 交给 LLM、难 query 才走代理。
不要喂大模型的答案：w/ LLM answer 反而降到 77.5，因为 LLM 的错误预测会向代理传播误差。
路由可靠性：随置信度阈值升高，KnowProxy 路由给 LLM 处理的样本准确率单调上升，而单一预测级置信度（Tian et al.）几乎是平线——多粒度知识置信度聚合才提供了有意义的路由信号。
代理可换、规模可缩：换成 LaMini-GPT-0.7B、Qwen2.5-0.5B 仍稳定提升 zero-shot，且增益与小模型能力正相关，符合 scaling law 直觉。

亮点与洞察¶

媒介之变：本质洞察是把代理微调的「通信协议」从脆弱、私有的概率分布换成稳健、公开的文本知识，一举打通黑盒适配并规避分布不稳定，是对整个代理范式约束的釜底抽薪。
逐条知识的置信度比预测级置信度更会路由：把不确定性下沉到知识粒度，让「LLM 推理是否在打滑」这一信号被更早、更细地捕捉，路由因此真的可靠。
只学思路、不抄答案：刻意排除 LLM 的最终预测，避免错误传播，体现了对「蒸馏什么」的精细取舍。

局限与展望¶

依赖 LLM 的知识质量与自评置信度：若大模型生成的知识系统性偏差或置信度校准糟糕，过滤与路由都会受连累，论文未深入探讨极端不可靠 backbone 的情形。
额外的知识诱导开销：每条样本需多次 prompt 生成多组知识，训练前的数据构造与推理时的知识生成都带来调用成本，路由只缓解了代理调用、未消除知识诱导本身的开销。
阈值需经验调参：过滤阈值 $\alpha$ 与路由阈值 $\tau$ 均为经验设定，跨任务迁移时的鲁棒性与自适应化是自然的下一步。
任务范围：实验集中在推理类 QA 基准，生成式与长程任务上的表现仅在附录略有涉及，泛化边界仍待拓展。

评分¶

新颖性: ⭐⭐⭐⭐ — 用文本知识替代概率分布作为代理微调媒介、并配多粒度置信度路由，对成熟范式做了清晰而本质的松绑，思路简洁但切中要害。
实验充分度: ⭐⭐⭐⭐ — 覆盖 9+ 推理基准、多种开源/黑盒/量化 backbone 与多种小模型，消融与路由可靠性分析到位；生成式与长程任务覆盖偏弱。
写作质量: ⭐⭐⭐⭐ — 问题动机、目标重写与方法推导层次分明，图表清晰，公式与文字配合良好。
价值: ⭐⭐⭐⭐ — 让闭源黑盒 LLM 也能被低成本适配，且无须访问分布，工程落地价值高，对 API 时代的模型定制很实用。