BOSCH: Black-Box Binary Optimization for Short-Context Attention-Head Selection in LLMs¶

会议: ACL 2026
arXiv: 2604.05942
代码: 无
领域: LLM效率 / 注意力优化
关键词: 滑动窗口注意力, 注意力头选择, 黑盒优化, 大邻域搜索, KV-Cache

一句话总结¶

提出 BOSCH，一种免训练的注意力头级别 SWA 混合方法，将 SWA 头选择建模为大邻域搜索问题并分解为三阶段优化（层重要性探测→自适应比例分配→分组头选择），在 4 个模型 4 种比例设置下系统性超越层级启发式和 6 种静态头级别方法。

领域现状：后训练混合化通过将部分自注意力替换为滑动窗口注意力（SWA）来减少 KV-Cache 使用和改善延迟。现有混合方案主要在层级别操作（如交替、BME 模式）或基于静态排名的头级别。

现有痛点：层级方案忽略了同一层内不同头分别路由局部和全局依赖的事实——整层切换会移除关键全局信息。静态头级别方法（先排名所有头的局部/全局程度，再按比例转换最局部的头）存在"纠缠问题"：一个头在混合化前估计的局部/全局行为在混合化后可能改变，导致次优选择。

核心矛盾：头级别搜索空间巨大（现代 LLM 有数百到数千个头），直接使用黑盒优化算法不可行——每次评估昂贵且单比特翻转改进概率随维度增长以 ~1/N 速率下降。MADS 等方法在超过约 50 个变量时效率就急剧下降。

本文目标：在实际可行的评估预算内，找到比层级启发式和静态头级别方法都更优的 SWA 头选择方案。

切入角度：将问题建模为大邻域搜索（LNS），将高维搜索空间分解为三个低维子问题。

核心 idea：不直接搜索所有头，而是先探测层的重要性、再分配每层的 SWA 比例、最后在同比例的层组内联合优化头选择——每个子问题的变量数控制在黑盒优化可处理的范围内。

BOSCH 将 SWA 头选择建模为约束二值黑盒优化问题：\(\min_{z \in \{0,1\}^N} \mathcal{L}(\mathcal{M}, z, \mathcal{D})\)，约束 SWA 头比例为目标 \(\rho\)。通过大邻域搜索分解为三个子问题顺序求解。

阶段1：层重要性探测:
- 功能：评估每层对注意力头局部化的敏感度
- 核心思路：从最顶层到最底层迭代，每层用小预算黑盒搜索将 \(\lceil \rho H \rceil\) 个头转换为 SWA，记录最佳得分。每层搜索时上层已经被局部化，形成级联评估。输出为各层的最佳得分向量 \(s_{best} \in \mathbb{R}^L\)
- 设计动机：为后续的自适应比例分配提供数据驱动的层敏感度信息
阶段2：自适应比例分配:
- 功能：根据层敏感度差异化分配每层的 SWA 比例
- 核心思路：计算每层相对原始模型的性能下降 \(\delta\)，转换为权重 \(w_\ell \in [0,1]\)（越小越容易局部化）。将层按权重排序分桶映射到粗粒度局部化比例，通过在相邻桶之间移动层来满足全局预算约束
- 设计动机：不同层对局部化的容忍度差异很大，统一比例会浪费"容易"层的预算或伤害"困难"层
阶段3：多层头选择:
- 功能：在每个比例组内联合优化头的二值决策
- 核心思路：将共享相同比例的层分组，从最容易局部化到最难的顺序处理。每组内联合优化该组所有层的头选择（拼接头索引），每层转换 \(\lceil r_\ell H \rceil\) 个头为 SWA。处理完一组后将结果提交到全局掩码再处理下一组
- 设计动机：每组的变量数被控制在黑盒优化可处理的范围内，同时组内联合优化捕捉层间交互

归一化损失函数 \(\mathcal{L} = -\hat{\mathcal{S}} + \alpha(\rho(z) - \rho)^2\)，用全 SWA 和全注意力模型的性能作为锚点归一化。对 GQA 模型强制同组头做相同决策（否则不节省 KV-Cache）。

方法	ρ=0.25	ρ=0.5	ρ=0.75	ρ=0.875
BOSCH (8B)	98.9	90.3	72.7	42.5
Fisher (最强基线, 8B)	94.2	89.3	63.4	29.0
RAND (层级, 8B)	45.9	15.4	12.8	13.2
BME (层级, 8B)	30.8	12.4	12.2	12.7