Knowledge Exchange with Confidence: Cost-Effective LLM Integration for Reliable and Efficient Visual Question Answering¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=KCj3j5dNSY
代码: 待确认
领域: 多模态 / 视觉问答 (VQA)
关键词: VQA, LLM-VQA 协作, 置信度校准, 不确定性, 多样化集成, 动态委派

一句话总结¶

用一个校准良好的小型 VQA 模型输出可信的置信度，按高/中/低三档把问题分别交给 VQA 直接回答、让 LLM 借候选答案当"顾问"、或全权委派 LLM 当"老师"，在保持甚至提升精度的同时把昂贵的 LLM 调用次数砍掉一大半。

研究背景与动机¶

领域现状：把大语言模型（LLM）接入视觉问答（VQA）能显著提升精度，因为 LLM 在大规模预训练中积累了丰富的通用知识，VQA 准确率普遍高于专用小模型（TS-VQA）。
现有痛点：全靠 LLM 答题面临三个实际困境——(a) 在专业领域知识上 LLM 反而不如领域数据训练的 TS-VQA；(b) 数十亿参数带来高昂算力、延迟和碳排放，第三方 LLM 还有持续费用和隐私风险；(c) 缺乏可靠量化 LLM 回答不确定性的手段，在高风险场景下可信度存疑。
核心矛盾：并非所有视觉问题都需要 LLM 的全部火力——简单问题 TS-VQA 就能高效搞定。更关键的是，作者实证发现 LLM 与 TS-VQA 能力互补：即便 TS-VQA 对最终答案没把握，它给出的候选答案分享给 LLM 后能大幅提升 LLM 精度（Fig. 2a）。但用交叉熵训练的标准 VQA 模型过度自信、校准很差，错误答案也常给出高置信度，置信度根本不能指示对错——这让"按置信度决策"的整个设想失效。
本文目标：构建一个既准、又可靠、又便宜的混合 VQA 系统，让 LLM 只在真正需要时才介入。
核心 idea：先把 TS-VQA 校准成置信度可信，再用这个置信度作为"路由器"——不仅决定何时调用 LLM，还决定何时、如何把 TS-VQA 的专业知识（候选答案）传给 LLM。作者将其命名为 Uni-VQA（不确定性感知的 LLM 集成 VQA）。

方法详解¶

整体框架¶

Uni-VQA 分两阶段。训练阶段：用"多样化集成"（Diverse Ensemble, DE）方法训练一个校准良好的 TS-VQA，使其置信度真实反映正确概率。推理阶段：校准后的 TS-VQA 先给出初始答案和置信度 \(c\)，再用两个阈值 \(l<u\) 把问题路由到三种场景之一——直接采纳、LLM 当顾问、LLM 当老师。

flowchart TD
    Q[图像+问题] --> TS[校准TS-VQA<br/>多样化集成]
    TS --> C{置信度 c}
    C -->|c ≥ u 高| A1[直接采纳VQA答案<br/>不调用LLM]
    C -->|l ≤ c < u 中| A2[LLM当顾问<br/>给K_c个候选答案]
    C -->|c < l 低| A3[LLM当老师<br/>不给候选,全权委派]
    A2 --> LLM[Frozen LLM]
    A3 --> LLM

关键设计¶

1. 多样化集成校准（Diverse Ensemble）：让置信度变得可信。 整个框架的地基是"置信度可信"，否则路由全是错的。作者用分布鲁棒优化（DRO）训练 \(E\) 个互补的 TS-VQA 子模型。每个子模型最小化一个加权损失 \(\mathcal{L}_{\text{DRO}}(\Theta)=\sum_n w_n l(x_n,\Theta)\)，其中带 KL 正则的 DRO 给出闭式 softmax 权重 \(w_n^*(\lambda)=\frac{\exp(l(x_n,\Theta)/\lambda)}{\sum_j \exp(l(x_j,\Theta)/\lambda)}\)。超参 \(\lambda\) 控制权重偏离均匀的程度：\(\lambda\) 小则把注意力压到高损失的难样本上，训出"谨慎、低置信"的模型；\(\lambda\) 大则接近均匀，训出对典型样本"自信"的模型。实验取 \(E=3\) 个小/中/大 \(\lambda\) 的成员，覆盖难度谱。推理时对 logits 取平均 \(f_{\text{DE}}(x)=\frac{1}{E}\sum_e f_e(x)\) 再算 softmax——谨慎模型抑制了自信模型的过度乐观，而难样本专家的低置信又被简单样本专家交叉验证，天然产生校准良好的置信度：错误答案被压到低置信区，正确答案保持高置信。

2. 三档置信度引导的知识交换：让 LLM 的角色随把握度变化。 拿到可信置信度后，框架按两个阈值分三档处理。当 \(c\geq u\)（高置信，多为 TS-VQA 擅长的专业问题），直接采纳 TS-VQA 答案，完全不碰 LLM，省下全部开销；当 \(c<l\)（低置信，多为需要广博通用知识、超出 TS-VQA 专长的问题），把问题全权委派 LLM 且不附候选答案（LLM as Teacher）；当 \(l\leq c<u\)（中等置信，TS-VQA 有部分知识但不确定），把 TS-VQA 动态选出的候选答案塞进 prompt 交给 LLM（LLM as Consultant），让 LLM 把这些专业线索与自身通用知识融合。这套"按需委派"恰好榨取两类模型的互补优势：简单问题廉价解决，难的通用问题交给 LLM，半懂半不懂的问题通过候选答案做知识交换。

3. 动态 Top-K 候选选择：候选数量该随置信度自适应。 作者发现候选答案的有效数量随置信度变化——高置信区给少量候选反而更准，置信度越低越需要更多候选，但在最低置信区给一大堆候选会适得其反（不如不给）。于是对中档问题用学习到的映射决定候选数 \(K(c_i)\approx\lceil M e^{-W\left(\frac{c_i-l}{u-l}\right)}\rceil\)，其中 \(M,W\) 在验证集上学得。这让 prompt 里的候选数随把握度平滑衰减，避免了"一刀切给固定 top-k"的浪费或干扰。

4. 知识蒸馏加速：把集成压回单模型。 三模型集成推理仍有额外开销。作者用 KL 散度把多样化集成的输出分布蒸馏进一个同架构的单模型，理论上可同时保住精度与校准，实测 ECE 与精度损失 <0.4%，但延迟最多降 60%，消除了集成的算力负担。

理论上作者证明了两点：DE 损失是"交叉熵 − 预测熵"的上界（Lemma 4.1，即在降交叉熵的同时抬高预测熵、抑制过度自信），以及 DE 比 ERM 把更多错误样本推入低置信区（Theorem 4.2，\(N^{\text{in},\tau}_{\text{DE}}\geq N^{\text{in},\tau}_{\text{ERM}}\)），从而让委派阈值不必设得过高就能把错样本交给 LLM 纠正。

实验关键数据¶

数据集 VQA-v2 与 COCO-QA；TS-VQA 骨干含 Pythia / CLIP-ViL / ViLBERT / VisualBERT / BEiT-3；LLM 用 Frozen Mistral-7B，VLLM 用 LLaVA-1.5 13B。指标：准确率 ACC↑、校准误差 ECE↓、LLM 委派比例↓、平均延迟↓。

主实验表格（VQA-v2，节选）¶

方法	ACC↑	ECE↓	LLM-Deleg%↓	Latency↓
LLM-only (Mistral-7B)	69.09	0.31	100	0.534
Pythia 标准 VQA	65.67	0.14	–	0.003
Pythia Calibrated (Ours)	66.15	0.06	–	0.009
Pythia Uni-VQA (Ours)	71.00	0.05	78.77	0.426
CLIP-ViL 标准 VQA	69.95	0.18	–	0.023
CLIP-ViL Uni-VQA (Ours)	72.98	0.07	69.86	0.440
VisualBERT 标准 VQA	64.92	0.14	–	0.009
VisualBERT Uni-VQA (Ours)	70.95	0.08	77.87	0.440
BEiT-3 标准 VQA	73.19	0.14	–	0.009
BEiT-3 Uni-VQA (Ours)	74.33	0.07	35.91	0.217

Uni-VQA 在全部骨干上都同时超过单用 LLM 与单用 TS-VQA，且 Calibrated 把 ECE 从 ~0.14–0.18 压到 ~0.02–0.08 而不掉精度。

消融 / 效率表格（匹配同等精度所需委派比例，VQA-v2）¶

骨干	目标 ACC	LLM-VQA	LLM-VectorScale	Uni-VQA
Pythia	70.07	64.38	66.11	50.06 (−14~16%)
CLIP-ViL	71.5	35.5	40.56	24.4 (−11~13%)
ViLBERT	70.25	51.03	60.86	41.06 (−10~20%)
VisualBERT	69.75	64.01	66.79	47.51 (−16~18%)
BEiT-3	73.71	10.16	26.23	6.71 (−1~20%)

匹配 LLM-only 精度时，ViLBERT 仅需 19.4% 委派；用 LLaVA 当 VLLM 时，CLIP-ViL 只需 65.4% 委派即可达到 LLaVA-only 的 78.35%，比基线少 8~15%。

关键发现¶

校准是性能与效率双赢的关键：把错样本推入低置信区后，"动态委派"既能保精度又能少调 LLM；过度自信的 ERM 必须把阈值设很高才能纠错，导致精度或效率二选一。
委派阈值即旋钮：调阈值可在"少调 LLM 省钱"与"多调 LLM 提精度"之间平滑权衡，适配不同资源约束。
TS-VQA 越强、增益越小：BEiT-3 本身已很强，LLM 委派带来的提升自然有限。

亮点与洞察¶

把"校准"从可靠性工具升级为路由控制信号：以往校准/选择性预测多用于"拒答"，本文让校准后的置信度直接驱动"何时调 LLM、给几个候选"，思路新颖且自洽。
三档角色（老师/顾问/直接采纳）划分直观且可解释：高把握自己答、半懂请 LLM 参考候选、不懂全交 LLM，贴合人类协作直觉。
理论 + 实证闭环：用 DRO-KL 闭式权重、Lemma/Theorem 证明 DE 改善校准并最大化错样本委派，再用四骨干的 \(N^{\text{in},\tau}\) 曲线佐证。
与 RAG 正交互补：RAG 控制 LLM"看到什么证据"，Uni-VQA 控制"何时怎么用 LLM"，被路由到 LLM 的低置信问题恰是最该上 RAG 的，可直接套接。

局限与展望¶

依赖良好阈值 \(l,u\) 与 \(M,W\) 的验证集调参，跨数据集/分布漂移下的稳健性未充分验证。
仅在 VQA-v2 / COCO-QA 两个相对常规的基准上评测，对知识密集型（如 OK-VQA）与强分布外场景的效果只在附录讨论。
TS-VQA 已很强时增益有限（BEiT-3 案例），混合框架的价值随基座变强而递减。
候选答案质量直接决定"顾问"模式上限，若 TS-VQA 候选系统性偏差，可能误导 LLM。

评分¶

新颖性: ⭐⭐⭐⭐ — "校准置信度驱动三档 LLM 协作 + 动态候选数"组合明确，把校准从拒答升级为路由控制信号，思路清晰。
实验充分度: ⭐⭐⭐⭐ — 五种 TS-VQA 骨干 × 两数据集 × LLM/VLLM 两种大模型，含理论证明与多角度消融；但基准偏常规、OOD/知识密集场景验证较弱。
写作质量: ⭐⭐⭐⭐ — 动机—观察—方法—理论—实验逻辑顺畅，图表（Fig.1/2/3/4）直观支撑论点。
价值: ⭐⭐⭐⭐ — 在保持/提升精度的同时把 LLM 调用砍半以上，对成本敏感、需可靠性的 VQA 部署有直接实用价值。