跳转至

🔍 信息检索/RAG

🔬 ICLR2026 · 81 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (73) · 🧪 ICML2026 (26) · 🤖 AAAI2026 (21) · 🧠 NeurIPS2025 (25) · 📹 ICCV2025 (5) · 🧪 ICML2025 (6)

🔥 高频主题: RAG ×19 · 推理 ×12 · LLM ×8 · 多模态 ×5 · 问答 ×3

A Dense Subset Index for Collective Query Coverage

DISCO 把"多个文档协作覆盖一个复杂查询"建模成一个单调子模的覆盖目标,再通过向量增广 + 随机投影把贪心算法每轮的边际增益改写成可索引的内积形式,从而用一个改造过的多向量 IVF 索引在亚线性时间里逼近贪心解,在覆盖度与延迟的权衡上比贪心快 100 倍以上、比传统 IR 索引覆盖度更高。

AdaCache: Adaptive Caching and Context Augmentation for Efficient LLM Serving

AdaCache 针对 RAG 推理的两类浪费——同一文本块被反复重算、以及不分难度地塞满 top-k 上下文——提出"分层缓存 + 注意力感知的选择性重算"与"置信度驱动的自适应上下文扩展"两套机制,在六个数据集、三个模型上把首 token 延迟(TTFT)相比最强 RAG 缓存系统降低 1.4×∼5.0×,且生成质量基本不掉。

AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations

提出AMemGym——首个支持on-policy交互式评估的长程对话记忆基准环境,通过结构化数据采样(用户画像→状态演化→个性化问答)驱动LLM模拟用户进行角色扮演,揭示了off-policy评估的排名偏差问题,并系统诊断了RAG/长上下文/Agent记忆系统的write/read/utilization三阶段失败模式。

AssoMem: Scalable Memory QA with Multi-Signal Associative Retrieval

AssoMem 为大规模个人记忆问答构建了一张"线索—话语"联想记忆图,并把相关性、重要性、时间对齐三路信号用互信息自适应融合做排序,在多个 benchmark 上检索与生成都显著超过只靠语义相似度的 SOTA。

Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation

提出ARC-JSD方法,通过计算完整上下文与逐句消融上下文下的响应分布的Jensen-Shannon散度,在无需微调、梯度计算或代理模型的情况下实现高效精准的RAG上下文归因,并结合Logit Lens进行机制分析,定位负责上下文归因的注意力头和MLP层,通过门控操作降低约39%的幻觉率。

Attribution-Guided Decoding

提出AGD解码策略,在每步生成时从高概率候选token中选择对用户指定"兴趣区域"(ROI)归因得分最高的token,将归因方法从被动分析工具转变为主动生成引导工具,在指令遵循和事实性任务上均取得显著提升。

Automated Formalization via Conceptual Retrieval-Augmented LLMs

CRAMF 把 Mathlib4 自动构建成"概念—定义"知识库,再用查询增强 + 双通道混合检索 + 重排,给 LLM 自动形式化器喂进精准的形式化定义,作为即插即用插件把翻译准确率平均相对提升 29.9%、最高 62.1%。

Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation

将位置编码重新表述为贝叶斯注意力机制中的先验分布,统一了 NoPE(均匀先验)和 ALiBi(拉普拉斯先验),并提出广义高斯先验(GGD-BAM),仅增加 384 个参数即可在 500 倍训练长度上实现完美的 passkey 检索。

Beyond RAG vs. Long-Context: Learning Distraction-Aware Retrieval for Efficient Knowledge Grounding

提出 LDAR(Learning Distraction-Aware Retrieval),一个轻量级自适应检索器,通过学习基于查询-段落相似度分布选择段落的连续区间(band),在平衡信息覆盖与干扰段落影响的同时,以约一半的 token 用量超越长上下文方法的性能。

Beyond Sequential Reranking: Reranker-Guided Search Improves Reasoning Intensive Retrieval

本文把"检索-重排"管线里那条死板的"top-k 顺序扫描"换成在文档相似度近邻图上的贪心搜索(Reranker-Guided-Search, RGS),让 reranker 优先去看那些"邻居已被判高分"的有潜力文档,从而在每个 query 只允许调用 reranker 100 次的预算下,在 BRIGHT/FollowIR/M-BEIR 三个推理密集型检索基准上分别比顺序重排提升 3.5/2.9/5.1 个 NDCG@10。

Beyond Text-Only: Towards Multimodal Table Retrieval in Open-World

这篇论文指出"把表格序列化成文本再检索"会丢掉表格的结构和图像信息,于是把开放域表格检索重新定义成"以表格截图为单位的多模态检索",并据此构建了首个图像化表格检索基准 TaR-ViR;实验证明多模态检索器在召回率上能追平甚至超过文本检索器,且省掉了易出错的表格转文本环节。

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

投机解码训练时只优化一条贪心草稿路径、解码时却用整棵草稿树做重排和验证,二者错配限制了加速;本文提出 Group Tree Optimization(GTO),用「草稿树奖励 + 群组式草稿策略训练」直接对齐解码时的树策略,在多个 LLM 上把接受长度平均提升 7.4%、相对 EAGLE-3 再提速 7.7%。

BrowseNet: Graph-Based Associative Memory for Contextual Information Retrieval

BrowseNet 把语料组织成"以命名实体为边、以文本块为节点"的 graph-of-chunks,再把多跳问题拆成有向无环的 query-subgraph,沿图做类 beam search 的子图遍历来检索证据,从而只用一次 LLM 调用就在 HotpotQA / 2WikiMQA / MuSiQue 三个多跳 QA 上取得 SOTA 的精确匹配与召回。

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

提出 BTZSC 基准(22 个数据集),首次在统一零样本协议下系统比较 NLI 交叉编码器、嵌入模型、Reranker 和指令微调 LLM 四大模型家族(共 38 个模型),发现 Qwen3-Reranker-8B 以 macro F1=0.72 取得新 SOTA,嵌入模型在精度-延迟权衡上最优。

CFT-RAG: An Entity Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

CFT-RAG 把布谷鸟过滤器(Cuckoo Filter)塞进 Tree-RAG 的实体定位环节,用指纹 + 块链表 + 温度排序把"在森林里查实体"从 \(O(n)\) 的广度优先搜索降到近似 \(O(1)\),在 DART 上比朴素 Tree-RAG 检索快 800%+,且生成准确率不降反升。

ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks

ChronoPlay 是首个面向游戏领域的 RAG 评测基准生成框架:它用"双源合成引擎"(官方知识保证事实正确 + 玩家社区模板保证问题真实)自动造题,再用"双动态更新机制"(按版本更新刷新知识、按 JS 散度检测兴趣漂移重采样题目分布),让基准能随游戏版本和玩家关注点持续演化,从而暴露出静态基准测不出来的 RAG 系统性能波动。

Conformalized Hierarchical Calibration for Uncertainty-Aware Adaptive Hashing

针对无监督域自适应哈希(UDAH)里伪标签噪声和盲目域对齐两大顽疾,COLA 用一套"分层保形校准"框架——语义层用保形预测集的大小量化样本可靠度、表示层预测每个哈希比特的稳定性——把不确定性从启发式阈值升级成带统计保证的连续权重,并用一个自调节闭环让这些权重反过来动态调度多目标损失,在 Office-Home / Office-31 / Digits 上把跨域检索 mAP 平均刷到新 SOTA。

Counterfactual Reasoning for Retrieval-Augmented Generation

CF-RAG 把反事实查询生成、辩证式证据检索和并行证据仲裁嵌入 RAG 推理过程,用“证据是否只支持原问题而不支持相近反事实问题”来区分真正决定答案的证据和只是高度相关的干扰证据,从而显著提升 RAG 在多跳问答、长尾实体和噪声检索场景下的鲁棒性。

Deep Global-sense Hard-negative Discriminative Generation Hashing for Cross-modal Retrieval

DGHDGH 首次把"困难负样本生成"引入跨模态哈希,用一张跨模态结构图做双向迭代消息传播来感知全局样本相关性,再据此做通道级、难度自适应的锚-负样本插值,合成既贴近锚点又不越界到其它类别的硬负样本,从而把汉明共空间训得更有判别力。

DeepRAG: Thinking to Retrieve Step by Step for Large Language Models

DeepRAG 把"边推理边检索"建模成一个马尔可夫决策过程(MDP),让 LLM 在逐步拆解问题的同时,对每个子问题自主决定"用自己脑子里的知识答 还是 去外部检索",通过二叉树搜索合成数据 + 模仿学习 + 校准训练三步走,在五个 QA 数据集上把答案准确率相对提升 25.41%,同时显著降低检索次数。

Demystifying Deep Search: A Holistic Evaluation with Hint-free Multi-Hop Questions and Factorised Metrics

针对当前 deep search 评测"问题里泄露推理路径 + 只看一个 pass rate"两大顽疾,本文构建了无提示(hint-free)多跳问答基准 WebDetective(受控 Wikipedia 沙盒 + 全程可追溯)和一套把「搜索充分度 / 知识利用 / 拒答行为」拆开的因子化指标,评测 25 个前沿模型后揭示:今天的系统擅长执行给定推理路径,却普遍无法自主发现推理路径,且证据充足时合成能力差、证据缺失时几乎不会恰当拒答。

Eigen-Agent: Adaptive Multi-Agent Scientific Reasoning with Monitor-Based RAG

Eigen-Agent 用「token 级监控的隐式检索 + 锚点-参考式分层求解精修 + 质量感知迭代」三件套,消掉显式 RAG 打断推理的"工具税"、并避免多智能体把强解平均成弱解,在 HLE Bio/Chem Gold 上拿到 48.3% 的当前最高准确率,同时把 token 用量降 53.5%、agent 步数降 43.7%。

ELViS: Efficient Visual Similarity from Local Descriptors that Generalizes Across Domains

ELViS 不在"表观特征空间"而在"相似度空间"做图像对重排序:先把两图局部描述子的相似度矩阵用带数据相关 dustbin 增益的最优传输(OT)精炼,再把每个描述子最强的对应关系当作"投票"经可学习函数加权求和成图像级相似度,从而以 1/20 的参数量、几倍的速度在跨域检索上大幅超过 transformer 类重排序方法。

Embedding-Based Context-Aware Reranker

提出 EBCAR,一个基于嵌入空间的轻量级重排序框架,通过文档 ID 嵌入和段落位置编码引入结构信息,结合共享全注意力 + 专用掩码注意力的混合机制实现跨段落推理,在 ConTEB 基准上以 126M 参数达到最优平均 nDCG@10,推理速度比 LLM 重排器快 150 倍以上。

Expert Heads: Robust Evidence Identification for Large Language Models

通过在文档排列扰动下统计注意力分布,作者发现一小撮"专家头(Expert Heads)"无论金标文档放在哪里都稳定地把注意力压在它身上,并把这些头的投票用作零训练的文档检索与排序信号,在 HotpotQA / 2Wiki / MuSiQue 上大幅超过稠密检索器。

Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

用两个 4B 小模型搭出一套开源 DeepResearch 系统——Fathom-Search-4B 负责多轮实时网搜与证据推理(可稳定超过 20 次工具调用),Fathom-Synthesizer-4B 负责把检索轨迹合成为引用密集的研究报告——靠 DUETQA 数据集、RAPO 优化算法和可操控的步级奖励,把开源 DeepSearch 推到逼近闭源系统的水平。

Flow of Spans: Generalizing Language Models to Dynamic Span-Vocabulary via GFlowNets

提出 FoSS,首次将 GFlowNets 引入 span 级别语言模型,通过构建 DAG 结构的状态空间代替传统 token-by-token 的树形结构,实现更灵活多样的文本生成,MAUVE 分数最高提升 12.5%。

FrugalRAG: Less is More in RL Finetuning for Multi-hop Question Answering

FrugalRAG 提出一个"先探索、后节俭"的两阶段微调框架:第一阶段用监督微调把小模型训成一个肯多发检索查询、把证据召回拉满的探索型策略,第二阶段用 GRPO 强化学习让它学会"按问题难度决定什么时候停手",结果在 HotPotQA 等多跳问答上只用 1000 条训练样本就把检索次数砍掉近一半、还保住甚至提升了答案准确率。

Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks

作者构建了一个 380B 词、可在单机 456GB 内存下亚秒级检索的高质量数据存储 COMPACTDS,证明一个"朴素到令人沮丧"的最小 RAG 流程就能在 MMLU、MMLU Pro、GPQA、MATH 等推理密集型基准上稳定大涨(最高相对提升 33%),并媲美甚至超过 Google 搜索和复杂的 agentic RAG 系统。

G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge

提出 G-reasoner,通过 QuadGraph 四层统一图接口将异构知识源标准化,训练 34M 参数的 GNN 图基础模型联合推理图拓扑和文本语义,配合 LLM 在 6 个基准上全面超越 SOTA GraphRAG 方法。

Graph-based Nearest Neighbors with Dynamic Updates via Random Walks

本文为 HNSW 图索引提出一个基于随机游走的全新理论框架,并据此设计出 SPatch 删除算法——删点后在其邻域上"成团再稀疏化",在召回、查询速度、删除耗时、内存占用四个指标上同时取得良好折中。

GRO-RAG: Gradient-aware Re-rank Optimization for Multi-source Retrieval-Augmented Generation

GRO-RAG 提出一个完全训练无关的多源 RAG 框架:先用「相关性—冗余度」子模目标贪心挑选互补的检索源,再让冻结 LLM 通过一次前向—反向传播,用生成损失对每篇文档的梯度内积来重排,从而把"检索什么"直接对齐到"生成目标真正需要什么"。

Hierarchical Concept-based Interpretable Models

HiCEMs引入层级概念嵌入模型,通过Concept Splitting方法在预训练CEM的嵌入空间中自动发现细粒度子概念(无需额外标注),构建层级概念结构,使模型能在不同粒度层次进行测试时概念干预以提升任务性能。

Hierarchical Encoding Tree with Modality Mixup for Cross-modal Hashing

HINT 用结构熵把稀疏的图文配对关系压成一棵层次"编码树",挖出多粒度语义社区,再从树上为每个样本采同模态/跨模态代理样本、用 MMD 驱动的课程式 Mixup 渐进对齐两个模态,实现更鲁棒的无监督跨模态哈希检索。

HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation

HiPRAG 把 agentic RAG 的推理轨迹拆成可解析的离散步骤,对每一步搜索决策在线判定"该不该搜",再用一个门控的分层过程奖励喂给 RL,让模型在准确率涨点的同时把过度搜索率从 27% 压到 2.3%。

HUME: Measuring the Human-Model Performance Gap in Text Embedding Tasks

提出 HUME 人类评估框架,在 MTEB 的 16 个数据集(重排序/分类/聚类/STS)上系统测量人类表现,发现人类总体排名第 4(77.6 vs 模型最佳 80.1),揭示模型"超人"表现多出现在人类一致性最低的任务上,并评估 9 个 LLM 作为标注代理的可行性。

Hybrid Deep Searcher: Scalable Parallel and Sequential Search Reasoning

提出 HybridDeepSearcher,通过构建 HDS-QA 数据集训练大语言推理模型(LRM)区分可并行化和顺序依赖的搜索查询,在 FanOutQA 上 F1 提升 +15.9、BrowseComp 子集上提升 +11.5,同时显著降低推理延迟并展示出一致的测试时搜索扩展能力。

Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment

针对"两种语言文档共存"的真实检索场景,本文揭示主流多语言 embedding 会盲目把无关英文文档排到目标语言相关文档前面,提出新评测场景 + Max@R 指标量化这一偏置,并用 JSD 分布级对齐 + InfoNCE 检索两项损失,仅 2.8k 样本就大幅改善跨语言对齐、压平语言间性能差距,且不损害单语检索。

Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval

针对现有 agentic RAG 把检索当成"黑盒查询"、智能体只能反复换措辞的问题,本文提出 Interact-RAG,用一套"语料交互引擎"把检索过程拆开,给智能体多面检索、实体锚定、上下文塑形三类细粒度动作原语,再配合"规划-推理-执行"三模块工作流合成轨迹,经 SFT+RL 训出端到端自治智能体,在六个 RAG benchmark 上相对次优方法平均提升 22.5%。

KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model

这篇论文把一个 0.5B 的 Qwen2 解码器改造成全双向编码器,配上「预训练→微调→对比蒸馏」三阶段管线、Focal 风格重加权、在线难负样本混合,以及覆盖 100+ 类别的高质量数据工程,让 KaLM-Embedding-V2.5 在 MTEB 中英榜上拿下 <1B 参数段的 SOTA,甚至能和 3–26 倍大的模型掰手腕。

Lean Finder: Semantic Search for Mathlib That Understands User Intents

针对 mathlib4 检索"只对齐机翻 informalization、却对不上真实数学家提问"的痛点,Lean Finder 用"反向合成用户查询 + 多模态对比学习 + 用户偏好 DPO 对齐"训练一个面向用户意图的 Lean 语义检索器,在真实查询上相对现有引擎和 GPT-4o 取得 30%+ 提升。

Learning Retrieval Models with Sparse Autoencoders

用预训练的稀疏自编码器(SAE)替换 SPLADE 的词表投影头,把查询/文档编码成"潜在词表"空间的稀疏向量,得到的 SPLARE 模型在多语言与跨域检索上系统性超越基于词表的稀疏检索,并首次让稀疏检索在 MMTEB 上追平稠密 SOTA。

Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement

GIRCSE 让 LLM 在推理时自回归地生成一串"软 token"来逐步精炼句向量,并用逐步对比损失监督每一步,从而把 LLM 的生成能力首次真正用进 embedding 里,还意外解锁了"生成越多 token、向量质量越高"的测试时扩展特性。

Leveraging Data to Say No: Memory Augmented Plug-and-Play Selective Prediction

提出 MA-PaPSP 框架,通过外部检索数据集构建代理嵌入(k-NN 加权平均降低表示方差)+ 对比归一化评分(改善校准),无训练地为任意 VLM 提供可靠的"拒绝回答"能力,在图像描述、图文匹配、分类的选择性预测上全面优于 PaPSP 和 LLM-as-judge 基线。

LightRetriever: A LLM-based Text Retrieval Architecture with Extremely Faster Query Inference

提出 LightRetriever,一种极端不对称的LLM检索架构:文档端保留完整LLM编码器,查询端完全去除深度建模——稠密检索仅需嵌入查表+平均,稀疏检索仅需token计数——实现查询编码1000倍加速、端到端10倍吞吐提升,同时保持95%的检索性能。

LinearRAG: Linear Graph Retrieval Augmented Generation on Large-scale Corpora

LinearRAG 指出现有 GraphRAG 的性能瓶颈来自不稳定、昂贵的关系抽取,提出"只抽实体、不抽关系"的三层图(Tri-Graph)加两阶段检索(语义桥接激活实体 + 全局重要性聚合检索段落),在零 LLM token 消耗下把索引时间砍掉 77%,并在四个基准上超过所有 SOTA。

Long-Document QA with Chain-of-Structured-Thought and Fine-Tuned SLMs

LiteCoST 用强 LLM 把"长文档 QA"重写成"先抽结构再答题"的可审计轨迹,再用 SFT→GRPO 双信号把这种结构优先行为蒸馏进 3B/7B 小模型,让小模型在金融/法律/科研长文档 QA 上逼平 GPT-4o,同时延迟降低 2–4 倍。

Mapping Semantic & Syntactic Relationships with Geometric Rotation

提出RISE(Rotor-Invariant Shift Estimation)方法,利用Clifford代数的rotor将话语级语义-句法变换(否定、条件化、礼貌化)表示为单位超球面上的一致旋转操作,在7种语言×3种嵌入模型×3种变换的系统实验中证实这些旋转可跨语言和跨模型迁移(77%-95%保持率),首次将线性表示假说从词级扩展到跨语言话语级并推广到弯曲流形上的测地线结构。

MergePRAG: Orthogonal Merging of Passage-experts for Multi-hop Parametric RAG

MergePRAG 用超网络把每一跳检索到的段落翻译成"段落专家"参数,并通过基于 Gram–Schmidt 正交化的持续合并机制把它们逐跳叠加进 LLM 的关键层,从而第一次把参数化 RAG(PRAG)从单跳扩展到多跳推理场景。

MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

通过给 VLM 输入序列追加少量可学习的 Meta Token,并用 Matryoshka 嵌套式多向量对比训练把信息按粒度组织进这些 token,MetaEmbed 让用户在测试时自由选用 1~64 个向量来权衡检索精度与索引/延迟开销,从而在 MMEB、ViDoRe 上以紧凑的多向量表示取得 SOTA,并稳定扩展到 32B 规模。

MILCO: Learned Sparse Retrieval Across Languages via a Multilingual Connector

MILCO 用一个"多语言连接器 + 英语 MLM 头"把 39 种语言的文本统一投影到共享的英语词表稀疏空间,配合"稀疏对齐预训练"防止语义坍塌、用 LexEcho 双视图找回被翻译丢失的稀有实体,让单个 560M 稀疏模型在多语言与跨语言检索上同时超过 BGE-M3、Qwen3-Embed 等稠密/稀疏/多向量基线。

MLP Memory: A Retriever-Pretrained Memory for Large Language Models

把"在整个预训练语料上跑 kNN 检索得到的下一词分布"蒸馏进一个轻量全 MLP 模块,让 LLM 在推理时用一次前向就拿到"检索式知识",从而以 2.5× 于 RAG 的速度获得更高 QA 准确率并降低幻觉。

MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

MRMR 构建了首个面向专家级、多学科、推理密集场景的多模态检索基准——含 1,435 条横跨 23 个领域的查询,把查询和文档统一表示为图文交错序列,并首创"矛盾检索"任务,评测发现当前多模态检索模型在需要推理的任务上大幅落后于"文本检索器 + 图像描述"这种朴素方案。

On the Theoretical Limitations of Embedding-Based Retrieval

本文用高维几何里的球堆积论证给出"单向量嵌入要表示所有 top-k 文档组合所需维度"的下界定理,再用自由嵌入优化和一个极简的真实数据集 LIMIT 实证:哪怕查询简单到"谁喜欢苹果",只要要表示的相关组合足够多,固定维度的稠密检索模型就注定做不到,这是单向量范式的根本瓶颈而非数据或规模问题。

On the Wings of Imagination: Conflicting Script-based Multi-role Framework for Humor Caption Generation

提出 HOMER 框架,基于 GTVH 幽默理论构建三角色 LLM 协作机制(冲突脚本提取器 + 层次想象器 + 标题生成器),通过显式建模脚本对立、多视角联想链与笑话数据库检索构建想象树来扩展创意空间,在 New Yorker 漫画基准上以 GPT-4o 为底座平均提升 ~7%,人类评估也显著优于所有基线。

OSCAR: Online Soft Compression for RAG

OSCAR 让一个轻量压缩器在线地、依据当前 query 把每篇检索文档压成几个 embedding token,再交给生成器作答,从而在 1B–24B 的 LLM 上实现 2–5× 端到端推理加速、且几乎不掉点。

Q-RAG: Long Context Multi‑Step Retrieval via Value‑Based Embedder Training

Q-RAG 把多步检索建模成一个 MDP,用基于价值的强化学习只微调嵌入器(不动 LLM),让检索智能体直接在 chunk 嵌入的潜空间里一步步挑选支撑事实,在 BabiLong、RULER 等长上下文基准(最长 1000 万 token)上拿到 SOTA,且只用单张 A100 就能训练。

Query-Aware Flow Diffusion for Graph-Based RAG with Retrieval Guarantees

QAFD-RAG 把"流扩散(flow diffusion)"引入图式 RAG,用查询语义动态给图中每条边重新加权,让信息流只沿着与查询对齐的路径扩散,从而免训练地抽出紧凑、可解释的推理子图,并首次给出了"以高概率召回相关子图"的统计保证,在问答与 Text-to-SQL 上稳定超过 GraphRAG / LightRAG 等基线。

Query-Level Uncertainty in Large Language Models

提出Query-Level Uncertainty概念,通过Internal Confidence方法在生成前(单次前向传播)估计LLM能否回答给定查询,无需训练即可实现高效的自适应推理(RAG触发/模型级联/弃权)。

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

提出 RAEE,一种无需训练分类器的检索增强早退框架,通过检索语义相似样本的退出信息来动态确定最优退出层,不仅加速推理还能纠正模型错误预测,实现加速与性能提升的双赢。

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

提出 RefTool 框架基于外部参考资料(教材、知识片段)自动创建可执行 Python 工具,解决了现有工具创建方法依赖 LLM 内在知识在专业领域失败的问题,在因果推理、物理和化学任务上平均超过已有方法 12.3%。

Rethinking Reasoning in Document Ranking: Why Chain-of-Thought Falls Short

这篇论文做了首个系统、公平的对照实验,证明在 LLM 文档重排(reranking)任务里,显式的链式思维(CoT)推理并不会带来收益——无论 pointwise 还是 listwise、无论 SFT 还是 RL,直接输出排序的 direct reranker 都稳定地优于加了推理的 reasoning reranker,而且推理还要多花一大笔推理算力。

Retro*: Optimizing LLMs for Reasoning-Intensive Document Retrieval

Retro 把"判断 query 和文档是否相关"重写成一个 逐文档(pointwise)、依据明确量规打 0–100 分的推理任务*,再用测试时多次采样取分数积分、以及一套专为分数机制定制的 SFT + RL 训练策略,在推理密集检索基准 BRIGHT 上做到 SOTA,同时因为 pointwise 天生可并行而比 listwise/setwise 方法快很多。

Reusing Pre-training Data at Test Time is a Compute Multiplier

作者把"预训练用过的同一份语料"在测试时再拿来做检索增强,发现这能让 MMLU 上的等效预训练算力翻约 5 倍,说明今天的预训练根本没把数据里的知识榨干;再叠加自洽性、重排、方差缩减等测试时算力,LLaMA 3.1 8B 在 MMLU 上能再涨 10 个点。

Revela: Dense Retriever Learning via Language Modeling

提出 Revela,通过 in-batch attention 机制将检索器学习融入语言建模——NTP 不仅依赖本序列上下文,还依赖批内其他序列(由检索器相似度加权),无需标注 query-document 对即可训练强大的密集检索器。

Robust Test-Time Video-Text Retrieval: Benchmarking and Adapting for Query Shifts

针对视频文本检索(VTR)模型在真实世界查询扰动下急剧崩溃的问题,本文先建了一个含 12 类时空扰动、5 个强度等级的 MLVP 基准,诊断出扰动会放大「hubness」(少数 gallery 视频霸占检索排名)这一根因,再提出测试时自适应框架 HAT-VTR——用 Hubness 抑制记忆(HSM)在相似度层面压制热点、用多粒度损失适配视频时序,在多种查询偏移场景下 Recall@1 平均大幅超过现有 TTA 方法。

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

针对短查询(如「a dog」)在文本到图像检索里语义模糊、无法控制画质的问题,本文提出 QCQC:用一个生成式语言模型把短查询补全成富含细节的描述,并以离散化的「相关性 + 美学」质量等级作为条件,让用户能把检索结果朝指定质量档位(低/中/高)引导,且对任意冻结 VLM 即插即用。

SmartChunk Retrieval: Query-Aware Chunk Compression with Planning for Efficient Document RAG

SmartChunk Retrieval 用一个低延迟 planner 为每个查询选择合适的 chunk 粒度范围,并用轻量压缩编码器直接生成高层 chunk embedding,从而在长文档 RAG 中以更低成本获得接近甚至超过树/图式 RAG 的问答效果。

Summaries as Centroids for Interpretable and Scalable Text Clustering

提出 k-NLPmeans 和 k-LLMmeans,通过在 k-means 迭代中周期性地用文本摘要替换数值质心(summary-as-centroid),在保持 k-means 标准目标的同时实现可解释的聚类原型,且 LLM 调用量与数据集大小无关。

Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking

这篇论文系统比较了训练 LLM 重排器的两条主流路线——对比学习(CL)和监督微调(SFT),把两者的梯度拆成"权重 × 方向"两个分量,证明 SFT 之所以更强主要赢在权重项(给难样本更大的更新步长),并据此用纯 SFT 训出 GMR-3B / GMR-7B,在自建的 40 数据集 MRB 基准上刷到通用多模态重排 SOTA。

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

构建结构完全相同但实体分别映射到真实/合成名称的平行语料库,通过对比两个"平行世界"上的任务表现来量化 LLM 的参数化知识优势差距(Knowledge Advantage Gap),发现即使有 RAG 和 CoT 增强,该差距依然持续存在。

Think Then Embed: Generative Context Improves Multimodal Embedding

针对复杂指令下"直接把多模态大模型当编码器"会失效的问题,本文提出 Think-Then-Embed(TTE)框架:先让一个 reasoner 生成"面向嵌入的推理轨迹"(ECR),再让 embedder 在原始输入与该推理轨迹的双重条件下产出向量,从而在 MMEB-V2 上取得 SOTA(TTE\(_t\)-7B 71.5%),并在开源模型中以约 7% 的绝对优势领先。

TokMem: One-Token Procedural Memory for Large Language Models

提出 TokMem,将可复用的任务程序编译为单个可训练记忆 token,既作为程序索引又作为生成控制信号,无需长 prompt 即可高效调用 1000+ 任务程序,且支持无遗忘的持续扩展。

Tools Are Under-Documented: Simple Document Expansion Boosts Tool Retrieval

本文指出工具检索的真正瓶颈不在检索模型而在「工具文档本身写得太烂」,于是用一条低成本 LLM 流水线把原始工具文档系统性地补全为带结构化字段(功能描述、何时使用、限制、标签)的扩展文档,构建出 TOOL-REX 基准与大规模训练语料,并训练出 Tool-Embed(稠密检索器)和 Tool-Rank(重排器),在 ToolRet 与 TOOL-REX 上把 N@10 推到 52.23/56.44 的新 SOTA。

推理的拓扑结构:用检索到的胞腔复形增强生成解决文本图问答

TopoRAG 把文本图"提升"成胞腔复形(cell complex),让节点、边、环分别成为 0/1/2-cell,再用拓扑感知的子复形检索 + 多维消息传递把含环的高阶依赖喂给 LLM,从而在三个图问答数据集上稳定超过 G-Retriever、SubgraphRAG 等 GraphRAG 基线。

Uncertainty-driven Embedding Convolution

UEC 把多个预训练文本嵌入模型 事后(post-hoc) 转成高斯概率嵌入,再按每个模型对当前 query 估计出的不确定性自适应加权融合,并用一个内置方差的相似度函数打分,在检索、分类、STS 上稳定超过均匀/加权集成与模型合并等基线。

Welfarist Formulations for Diverse Similarity Search

本文把"检索结果的属性多样性"建模成数理经济学里的福利函数最大化问题——把每个属性当成一个 agent,用 Nash 社会福利(几何均值)取代标准近邻搜索的相似度求和,从而在"相关性"和"多样性"之间做随查询自适应的权衡,并给出可套在任意 ANN 之上、带可证明近似保证的高效算法。

When to use Graphs in RAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation

本文针对"GraphRAG 在很多真实任务上反而打不过普通 RAG"这一矛盾,提出了一个覆盖图构建—检索—生成全链路、且按难度分四级任务的基准 GraphRAG-Bench,系统性地回答了"什么时候该用图、为什么用图有效"——结论是:简单事实检索用普通 RAG 就够,图结构只在复杂多跳推理、上下文综述等需要拼接分散概念的任务上才带来实打实收益,但要付出数倍的 token 开销。

Your Language Model Secretly Contains Personality Subnetworks

本文提出通过激活引导的剪枝(activation-guided pruning)从预训练 LLM 中提取人格专用子网络,无需任何训练即可实现高效的人格切换,并引入对比剪枝策略增强对立人格间的参数分离。

Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning

Youtu-GraphRAG 用一份「图谱 schema」把传统上各自为政的图谱构建和图谱检索竖直串成一体——构建端用 schema 约束抽取并自动扩展,索引端用「拓扑+语义」双感知社区检测堆出四层知识树,检索端再用同一份 schema 把复杂问题拆成原子子查询并迭代反思,在 6 个基准上比 SOTA 最多省 33.60% token、提 16.62% 准确率。

ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval

ZeroGR 用自然语言任务指令把生成式检索(GR)从有监督单任务推广到零样本异构检索:把任意格式文档统一压成关键词式文本 DocID、用指令微调的查询生成器为语料造伪查询来建索引、再用"温度逐步升高"的逆退火解码在精度与召回间取平衡,在 BEIR/MAIR 上刷新 GR 的 SOTA 并逼近稠密检索。