ICLR 2026 信息检索/RAG Learned Sparse Retrieval Sparse Autoencoder SPLADE Multilingual Retrieval MMTEB LLM Embedding

Learning Retrieval Models with Sparse Autoencoders¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=TuFjICawSc
代码: 待确认
领域: 信息检索 / 学习型稀疏检索
关键词: Learned Sparse Retrieval, Sparse Autoencoder, SPLADE, Multilingual Retrieval, MMTEB, LLM Embedding

一句话总结¶

用预训练的稀疏自编码器（SAE）替换 SPLADE 的词表投影头，把查询/文档编码成"潜在词表"空间的稀疏向量，得到的 SPLARE 模型在多语言与跨域检索上系统性超越基于词表的稀疏检索，并首次让稀疏检索在 MMTEB 上追平稠密 SOTA。

研究背景与动机¶

领域现状：学习型稀疏检索（LSR）以 SPLADE 为代表，把查询和文档表示成 backbone 词表空间上的稀疏加权词袋，靠倒排索引高效检索，且天然可解释——在英文 benchmark 上长期是 SOTA，泛化性也强于稠密模型。近期工作把 SPLADE 从 BERT 迁到 LLM backbone（如 Lion-SP-8B），进一步抬高了天花板。

现有痛点：这些 LLM 版 SPLADE 仍困在词表里。词表投影带来三重问题——分词冗余（"Indian"和"indian"占两个维度）、维度数被 backbone 词表大小写死无法扩展、最关键的是难以处理多语言/跨语言检索（词表本质偏向 Latin-script 子词，遇到泰米尔语等低资源语言只能退化成英文子词近似）。结果是在强调跨语言、跨域泛化的 MMTEB 上，稀疏检索全面落后于稠密模型，截至成文时 MMTEB 多语言榜上甚至没有一个稀疏模型。

核心矛盾：LSR 的效率与可解释性优势很诱人，但它的表示空间（固定词表）恰恰是泛化的瓶颈——稀疏检索想要的"语义结构化、跨语言一致"的离散维度，词表给不了。

本文目标：找一个比词表更好的稀疏"词汇表"，让 LSR 在保持效率和可解释性的同时，在多语言/跨域上追平甚至超过稠密 SOTA。

核心 idea：用 SAE 的潜在特征当词表。SAE 把 LLM 的稠密激活分解成稀疏的潜在特征，而这些特征已被大量可解释性工作证明具有单语义、语言无关、甚至跨模态的性质——这正是稀疏检索梦寐以求的语义空间。于是只要把 SPLADE 的 LM head 换成一个冻结的预训练 SAE encoder，就能在"潜在词表"上做稀疏检索。

方法详解¶

整体框架¶

SPLARE（SParse LAtent REtrieval）在结构上几乎是 SPLADE 的同构替换：唯一区别是把"取最后一层隐状态 → 经 LM head 投到词表"换成"取中间某层隐状态 → 经冻结 SAE encoder 投到潜在特征空间"，之后沿用 SPLADE 的 term-saturation + max-pooling 把 token 级稀疏向量聚合成序列级稀疏表示，相关度仍是稀疏点积、靠倒排索引算。训练时只用 LoRA 微调 LLM backbone，SAE 全程冻结。

flowchart LR
    A[输入 query/doc tokens] --> B[LLM backbone<br/>LoRA 微调, 双向注意力]
    B --> C[取第 l 层隐状态 h_i]
    C --> D[冻结 SAE encoder<br/>z = f Wenc·h + benc]
    D --> E[SPLADE-pool<br/>log 1+ReLU 后 max-pool]
    E --> F[潜在词表上的稀疏向量 u]
    F --> G[稀疏点积 + 倒排索引检索]
    H[Cross-encoder teacher] -.KL 蒸馏.-> B
    I[FLOPS 稀疏正则 + 推理期 Top-K] -.约束稀疏度.-> E

关键设计¶

1. 潜在词表替代词表投影：用冻结 SAE encoder 取中间层稀疏特征。给定第 \(l\) 层隐状态 \(h_i\)，用 SAE 的 encoder \(z = f(W_{enc} h_i + b_{enc})\) 得到 \(|W|\) 维潜在 logits（\(|W| \gg d\)），完全平行于 SPLADE 用 LM head 投到词表 \(V\)。论文只取 encoder 参数（不需要 decoder，因为目标是抽特征而非重建），且用残差流上训练的 SAE。聚合沿用 SPLADE 公式 \(u_j = \max_{i} \log(1 + \mathrm{ReLU}(w_{ij}))\)。这一步带来三个直接收益：潜在特征语言无关（英文训练即可泛化到 100+ 语言）、维度数解耦于词表（可随 SAE 宽度扩展）、且消除了分词冗余。一个反直觉的发现是最优层在约 2/3 深度（Llama-3.1-8B 取 layer 20 左右、Gemma 取 layer 16 左右）而非最后一层，既因为中间层表示对检索更丰富，又因为只跑前 2/3 层显著降低了推理延迟——这是相对 SPLADE 必须跑完所有层的额外加分。

2. 蒸馏 + FLOPS 正则的训练目标。不同于稠密 embedding 主流的对比学习，SPLARE 沿用 SPLADE 的训练范式：用 cross-encoder teacher 做蒸馏，优化 teacher 与 student 相关度分布的 KL 散度 \(L_{KL} = \sum_i p_i(\log p_i - \log \hat p_i)\)，其中 \(\hat p_i = e^{s(q,d_i)/\tau}/\sum_j e^{s(q,d_j)/\tau}\)。作者论证蒸馏天然回避了对比学习的假负例问题（很多 SOTA 系统其实也在用 cross-encoder 过滤负样本，本质是隐式蒸馏）。稀疏度则靠 FLOPS 正则约束，总损失 \(L = L_{KL} + \lambda_q \ell^q_{\text{FLOPS}} + \lambda_d \ell^d_{\text{FLOPS}}\)。此外用 Masked Next Token Prediction 预训练并开启双向注意力——这对 LSR 尤其重要，因为 pooling 发生在每个位置（不像稠密模型只取 <EOS>）。

3. 推理期 Top-K pooling 解耦稀疏度调参。LSR 的稀疏度随 backbone、SAE suite、数据集剧烈波动，要命中目标稀疏度得反复调 \(\lambda\)，很脆。SPLARE 的做法是训练时用固定保守的 \(\lambda\) 只追求中等稀疏，然后在推理期额外做 Top-K pooling（默认 query 取 40、doc 取 400 维），把稀疏度控制后移成一个无需重训的可调旋钮。Top-K 是严格上界（实际激活维度可能更少）。实验显示纯靠 Top-K 取代正则效果反而更差，所以二者并用。SPLARE 对文档剪枝出奇地鲁棒：只索引 Top-100 维时性能仅掉约 2%，而 SPLADE 掉超过 6%——因为 SPLARE 的潜在空间更紧凑结构化、激活分布更均衡（几乎用满所有维度），而 LLM 版 SPLADE 倾向于过度激活少数维度、本身就难稀疏化。

SPLARE 模型规格¶

基于 Llama-3.1-8B 的 Llama Scope SAE（\(|W|=131k\)）训练主力模型 SPLARE-7B（layer 26），另有轻量的 SPLARE-2B（layer 6）。SAE 宽度与检索效果近似 log-linear 正相关，给出了 SPLADE 固定词表无法提供的扩展机制。

实验关键数据¶

主实验：MTEB 各 split 平均分（Top-K=40/400）¶

模型	English	Multilingual	Code	Medical	Law	ChemTEB
English-only 训练
SPLADE-v3	50.7	38.1	44.5	44.2	40.4	75.6
Lion-SP-8B	48.5	50.0	53.3	54.4	48.5	71.1
SPLADE-Llama (baseline)	52.9	54.3	57.3	61.0	49.0	75.9
SPLARE	52.9	56.3	55.1	62.9	51.2	70.0
多语言训练
SPLADE-Llama	58.9	61.7	64.3	67.6	60.7	77.4
SPLARE	59.3	62.3	63.0	67.7	60.8	78.1

SPLARE 在 Multilingual、Medical、Law 上稳定胜出，仅在高度领域专有的 Code 上略逊（SAE 特征对代码语义不够专精）。

对比 MTEB 顶级模型（多语言训练）¶

模型	English	Multilingual	XTREME-UP
gte-Qwen2-7B-instruct	58.1	60.1	17.4
Qwen-3-Embedding-8B	69.4	70.9	-
gemini-embedding-001	64.4	67.7	64.3
SPLARE	59.3	62.3	58.6
SPLARE - no-pooling	61.4	63.8	61.4
SPLARE - Top-K=(10,100)	50.1	56.0	46.5
SPLARE-2B	55.9	59.1	41.6

SPLARE 在 MMTEB(Multilingual, v2) 检索上进入 top-10、是 top-1 的稀疏模型，且不用私有/合成数据、不做 pre-finetuning。对比 NV-Embed-v2 用 4096 维稠密向量，SPLARE 只需 40/400 个激活特征即可达到高效果。

跨语言细分（Top-K=40/400）¶

模型	indic	sca	deu	fra	kor	XTREME-UP	MIRACL
SPLADE-Llama	91.9	70.4	57.3	65.6	74.8	56.2	69.9
SPLARE	92.3	70.8	57.1	64.8	76.0	58.6	71.7

跨语言任务优势最明显（XTREME-UP +2.4、MIRACL +1.8）。

关键发现¶

最优层在 ~2/3 深度：Llama 取 layer 20、Gemma 取 layer 16，既效果最好又省推理延迟（无需跑完全层）。
SAE 宽度 log-linear 扩展：Gemma Scope 从 16k 到 1M 宽度，检索效果随宽度近似对数线性提升，词表固定的 SPLADE 做不到。
激活分布更均衡：SPLARE 几乎用满 131k 维且分布均衡；SPLADE 只用不到 100k 维且过度集中少数维度。
检索仅 ~5ms/query（MS MARCO 8.8M 文档，Seismic 索引，不含模型推理）。
可解释性更优：跨语言例子里 SPLARE 激活的是"历史/文化背景""军事伤亡"等语言无关概念，SPLADE 则冗余地分别激活"Indian/indian"并退化成英文子词。

亮点与洞察¶

把可解释性工具变成检索基建：SAE 此前主要服务于 mechanistic interpretability，本文第一次论证它"语言无关、单语义"的特征恰好是稀疏检索缺的那块拼图，完成了两条研究线的合流。
极简改造、即插即用：与 SPLADE 只差"投影头"一处，能复用 SPLADE 全套训练实践与倒排索引设施，迁移成本极低，且对不同 backbone（Llama/Gemma）都成立。
稀疏检索首次在 MMTEB 追平稠密：解决了"成文时 MMTEB 多语言榜没有一个稀疏模型"的尴尬，且只需几十个激活维度对几千维稠密向量，效率与可解释性双赢。
推理期 Top-K 把稀疏度变成可调旋钮：训练一次、推理时自由滑动效果-效率权衡曲线，工程上非常实用。

局限与展望¶

Code 检索是短板：通用 SAE 特征对代码语义不够专精，多语言训练下仍唯独 Code split 落后 SPLADE，作者建议用代码语料专训 SAE，留作未来工作。
依赖高质量开源 SAE：方法上限受限于现有 SAE suite（Llama Scope 仅 32k/131k 两档宽度），大宽度 SAE（如 14M）目前多为私有，社区可复现的宽度有限。
SAE 冻结的取舍：冻结保住了可解释性和训练稳定性，但也意味着潜在特征本身不为检索任务优化，是否联合微调 SAE 能进一步提升尚未探索。
初始化敏感：LSR 模型本就难训，从头训练投影头几乎不收敛，必须靠 LM head 或 SAE 提供良好初始化。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 SAE 潜在特征当检索"词表"是一个干净而新颖的视角，首次合流可解释性与稀疏检索两条线，并在 MMTEB 上首次让稀疏追平稠密。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖英文/多语言/跨域/跨语言多 benchmark，层深、SAE 宽度、稀疏度-效率、可解释性等消融完整，并有受控 SPLADE-Llama 同 backbone 对照。
写作质量: ⭐⭐⭐⭐ 动机清晰、与 SPLADE 的对照叙述到位，公式与图表组织得当；细节较多需对 LSR 背景有一定了解。
价值: ⭐⭐⭐⭐⭐ 既给出可落地的高效多语言稀疏检索器（7B/2B 双版本，5ms/query），又指明"用 SAE 特征做检索表示"的新研究方向，对 RAG/搜索系统实用价值高。