ACL2026 信息检索/RAG 论文解读论文笔记 RAG 问答推理 LLM 对话系统强化学习

🔍 信息检索/RAG¶

💬 ACL2026 · 73 篇论文解读

📌 同领域跨会议浏览： 🔬 ICLR2026 (81) · 🧪 ICML2026 (26) · 🤖 AAAI2026 (21) · 🧠 NeurIPS2025 (25) · 📹 ICCV2025 (5) · 🧪 ICML2025 (6)

🔥 高频主题： RAG ×25 · 问答 ×8 · 推理 ×7 · LLM ×7 · 对话系统 ×5

A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval: 通过精心设计的金融文档诊断 benchmark（单数字扰动 + 文本掩码），实证证明「把 VLM 的 patch tokens 聚合成单向量」会让 $1.2M vs $7.2M 这种语义巨大差异坍缩成 cosine 相似度 > 0.99 的几乎相同向量，根因是「全局纹理主导」，多种缓解策略和 retrieval-tuned embedding 都救不回来。
A Survey of Reasoning-Intensive Retrieval: Progress and Challenges: 本文系统梳理了"推理密集型检索 (Reasoning-Intensive Retrieval, RIR)"这一新方向，按 query/index/retriever/reranker/迭代这条流水线给出了第一份完整的 benchmark-方法-挑战三段式综述，并指出现有评测过度依赖 nDCG 等传统 IR 指标。
Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning: 提出ConvAgent，通过将RL训练奖励分解为结果奖励、信息增益奖励和混合主动行为奖励三个互补组件，训练对话式搜索智能体在多轮交互中交替进行搜索和推理。
All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG: 系统揭示多语言 RAG 系统在重排序阶段存在严重的语言偏差（偏好英语和查询语言），提出 LAURA 框架通过下游生成质量驱动的监督信号对齐重排序器，有效缓解偏差并提升生成性能。
An Iterative Utility Judgment Framework Inspired by Philosophical Relevance via LLMs: 受Schutz哲学相关性理论启发，提出ITEM迭代效用判断框架，通过让RAG中的三个组件（相关性排序、效用判断、答案生成）动态交互增强，在检索、效用判断和QA任务上均优于基线。
AuthorityBench: Benchmarking LLM Authority Perception for Reliable Retrieval-Augmented Generation: AuthorityBench 用 10K 网页域名（PageRank 真值）+22K 实体（Wikipedia 跨语言 sitelink 真值）+120 RAG 问题构造首个 LLM「权威感知」基准，发现 ListJudge / PairJudge + PointScore 输出最准，加入网页文本反而拖后腿，且把权威信号用作 RAG 过滤能把答案准确率最多提 14 个百分点。
Bayesian Active Learning with Gaussian Processes Guided by LLM Relevance Scoring: 提出 BAGEL，一个基于高斯过程（GP）的贝叶斯主动学习框架，在有限 LLM 预算下通过探索-利用平衡策略传播稀疏 LLM 相关性信号，实现全局嵌入空间的段落检索，显著超越传统 LLM 重排序方法。
Benchmarking and Enabling Efficient Chinese Medical Retrieval via Asymmetric Encoders: 提出 CMedTEB（中文医学文本嵌入基准）和 CARE（非对称检索框架），前者通过多 LLM 投票+专家验证构建高质量的中文医学检索/重排/STS 基准，后者用轻量 BERT 编码查询+大型 LLM 编码文档的非对称架构，通过两阶段渐进对齐策略实现 LLM 级检索精度+BERT 级在线延迟。
Beyond Black-Box Interventions: Latent Probing for Faithful Retrieval-Augmented Generation: 提出 ProbeRAG，通过发现 LLM 隐空间中冲突/对齐知识的线性可分性，设计三阶段框架（细粒度知识剪枝→隐空间冲突探测→冲突感知注意力），从模型内部机制解决 RAG 忠实性问题。
Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking: T2RAG 把 RAG 的最小检索单元从"文本块/知识图谱节点"换成原子三元组：离线把语料抽成一堆三元组命题建索引，在线则让 LLM 把问题分解成带 ? 占位符的可搜索三元组、迭代地从三元组库里检索证据填空，直到所有占位符解完再生成答案——在六个数据集上平均提升最多 11%，同时检索成本降低最多 45%。
BRIEF-Pro: Universal Context Compression with Short-to-Long Synthesis for Fast and Accurate Multi-Hop Reasoning: 针对 RAG 在 10k+ 词长上下文下推理慢、信息淹没的问题，作者用「短上下文种子数据 → 维基扩张 → 头尾迭代裁剪」合成多跳长上下文训练数据，微调一个 3B 的 Llama-3.2 抽取式摘要器 BRIEF-Pro，在四个多跳 QA 数据集上以 32× 压缩率反超 LongLLMLingua 的 9× 压缩，并支持用户用句数指令直接控制摘要长度。
Can Compact Language Models Search Like Agents? Distillation-Guided Policy Optimization for Preserving Agentic RAG Capabilities: 本文提出 DGPO：用教师 demonstration 做冷启动 KD 初始化，再在 PPO 阶段对"错误样本"施加 KL 蒸馏惩罚，让 0.5B 紧凑模型获得 Agentic RAG 能力，在 7 个 QA benchmark 上平均 EM 从 0.006 提升到 0.329，部分数据集甚至反超 3B 教师。
ChatR1: Reinforcement Learning for Conversational Reasoning and Retrieval Augmented Question Answering: 作者把 Search-R1 / R1-Searcher 这类"搜索 + 推理"RL 框架从单轮问答扩展到多轮对话问答，提出 ChatR1：用 PPO 端到端联合优化 reasoning / search / answer，并设计"intent-aware reward"——用历史人工 rewrite 与模型自发 search query 的 token-F1 作为 turn-level dense reward，在 5 个 CQA 数据集上以 3B 主干击败 ChatGPT/Claude，并大幅提升域外迁移能力。
ChunQiuTR: Time-Keyed Temporal Retrieval in Classical Chinese Annals: 提出 ChunQiuTR，首个基于非格里历的时间键检索基准，从《春秋》及其注疏传统中构建，并设计了 CTD（历法时间双编码器），通过傅里叶绝对历法上下文和相对偏移偏置实现时间感知检索，显著优于纯语义基线。
CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation: CiteGuard 提出了一个检索增强的智能体框架，通过扩展的检索动作（包括全文搜索和上下文检索）为科学引用归属提供更忠实的基础，在 CiteME 基准上相对基线提升 10 个百分点，达到 68.1% 准确率，接近人类表现（69.2%）。
Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers: 论文首次系统评估"代码混用查询"对现代 IR 系统的冲击，提出人工标注的 CSR-L 基准和 LLM 生成的 11 任务 CS-MTEB 套件，发现即使 8B 多语言强模型在 query-side code-switching 下也会掉 4–13 个 nDCG@10、reranker 甚至从 60 暴跌到 25；并证明 lexicon-based 词表扩展能缓解但无法补齐单语基线的差距。
CodePromptZip: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs: 提出 CodePromptZip，首个面向代码的提示压缩框架，通过类型感知优先级排序构建训练数据并训练带 copy 机制的小模型压缩器，在三个编码任务上分别比最佳基线提升 23.4%、28.7% 和 8.7%。
Conjecture and Inquiry: Quantifying Software Performance Requirements via Interactive Retrieval-Augmented Preference Elicitation: 提出IRAP方法，通过交互式检索增强偏好获取（Interactive Retrieval-Augmented Preference Elicitation）将自然语言描述的软件性能需求量化为数学函数，在4个真实数据集上相比10种SOTA方法取得最高40倍的性能提升，且仅需5轮交互。
Context Attribution with Multi-Armed Bandit Optimization: 本文提出 CAMAB，将 RAG 中的上下文归因（识别哪些上下文片段对生成答案有贡献）建模为组合多臂赌博机（CMAB）问题，使用线性 Thompson 采样自适应地探索上下文子集空间，在 HotpotQA、CNN/DM、TyDi QA 上比 SHAP 和 ContextCite 减少最多 30% 的模型查询次数同时匹配或超越归因质量。
CORAL: Adaptive Retrieval Loop for Culturally-Aligned Multilingual RAG: CORAL 把多语言 RAG 失败重新定位成"retrieval condition misalignment"——不仅要改写 query，更要动态切换检索的语料库——通过 planner + critic 两个 agent 形成"选语料 → 检索 → 评分过滤 → 充分性检查 → 改语料 + 改 query"的闭环，在两个文化基准上对低资源语言相对最强 baseline 提升 3.58pp，对 CLIcK 韩国文化 QA 提升 3.91pp。
CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering: 本文提出 CounterRefine，一个轻量级推理时修复层：先用标准 RAG 产生初步答案，再通过答案条件化的反证检索收集支持/反对证据，最后通过受限的 KEEP/REVISE 决策和确定性验证修复错误答案，在 SimpleQA 上将 GPT-5 的正确率从 67.3% 提升至 73.1%。
CRAFT: Training-Free Cascaded Retrieval for Tabular QA: 本文提出 CRAFT，一个无需数据集特定训练的三阶段级联表格检索框架（SPLADE 稀疏过滤 → 语义 mini-table 排序 → 神经重排序），通过 Gemini 生成的表格标题和描述增强表格表示，在 NQ-Tables 上达到 SOTA（R@1 49.84），在 OTT-QA 上展现强零样本泛化能力，且对查询改写具有显著鲁棒性。
Disco-RAG: Discourse-Aware Retrieval-Augmented Generation: 作者提出 Disco-RAG，把修辞结构理论（RST）显式注入 RAG pipeline——对每个 chunk 解析 intra-chunk RST 树（局部层级）+ 跨 chunk 构建 inter-chunk 修辞图（全局连贯）+ 生成 discourse-aware blueprint 引导回答，在 Loong / ASQA / SciNews 三个长文档基准上 training-free 即拿下 SOTA（Loong overall +12.74 LLM Score）。
Domain-Specific Data Generation Framework for RAG Adaptation: 本文提出 RAGen，一个可扩展的模块化数据生成框架，通过文档级概念提取、多块证据组装和 Bloom 分类学引导的问题生成，自动合成领域特定的 QAC（问题-答案-上下文）数据，支持嵌入模型对比微调和 LLM 监督微调，在三个领域数据集上显著优于 AutoRAG 和 LlamaIndex 基线。
DQA: Diagnostic Question Answering for IT Support: 本文提出DQA框架，通过维护持久化的诊断状态和在根因层面聚合检索证据（而非逐文档处理），实现企业IT支持场景下的系统化故障排查，成功率从基线41.3%提升至78.7%，平均轮次从8.4降至3.9。
End-to-End Optimization of LLM-Driven Multi-Agent Search Systems via Heterogeneous-Group-Based Reinforcement Learning: 本文提出 MHGPO（Multi-Agent Heterogeneous Group Policy Optimization），一种无需 critic 的多智能体 RL 方法，通过异构组相对优势估计和反向奖励传播，在三智能体搜索系统（Rewriter→Reranker→Answerer）中实现端到端优化，捕获隐式跨智能体依赖和跨轨迹关联，在 HotpotQA 等多跳 QA 基准上显著优于 MAPPO 和 GRPO 基线。
Enhancing Factuality through Consensus and Consistency in Summarization Using Minimum Bayes Risk Decoding: 本文提出 ConSUM，在摘要生成候选中同时考察候选对源文档的事实一致性和候选之间的共识，用 MBR decoding 结合 FENICE/FIZZ 等事实性指标重排序，在 CNN/DailyMail、XSum 和人工评估中提升摘要事实可靠性。
Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization: CW-GRPO 将过程监督重新定义为"优势重分配"：用 LLM 判断器评估每轮搜索的检索有用性和推理正确性，计算贡献分数来缩放基于结果的优势，实现轮级别信用分配而不引入不稳定的价值函数，在 Qwen3-8B 上超越标准 GRPO 5.0%。
Enhancing Multilingual RAG Systems with Debiased Language Preference-Guided Query Fusion: 本文发现多语言 RAG 系统中"英语偏好"主要是评估基准中结构性先验（gold 证据集中于英语、文化先验）的伪影而非模型固有偏差，提出去偏语言偏好指标 DeLP 揭示检索器实际偏好单语对齐，并基于此设计 DELTA 查询增强框架，在多语言 RAG 上一致超越英语枢轴策略。
eTracer: Towards Traceable Text Generation via Claim-Level Grounding: eTracer 把 RAG 响应拆成原子 claim 再去上下文里搜支持/反驳的句级证据，用三步流水线（分解 → 嵌入检索 → 蕴含判定）输出带符号分数矩阵，从而在生物医学场景下既能精确反查每条事实的出处、又能定量评估响应的忠实度。
Feedback Adaptation for Retrieval-Augmented Generation: 本文提出"反馈适应"作为RAG系统的新问题设定——研究纠正性反馈多快、多有效地传播到未来查询，定义了纠正延迟和反馈后性能两个评估轴，并提出PatchRAG作为免训练的推理时反馈整合方案，实现即时纠正和强泛化。
FinRAG-12B: A Production-Validated Recipe for Grounded Question Answering in Banking: Kasisto 团队基于 Gemma 3 12B-IT，用 143M token 的数据高效配方 (LLM-as-Judge 过滤 + 引用标注 + 22% 不可回答样本 + 两阶段 curriculum) 训出 FinRAG-12B，并通过 W4A16 量化压到 8.4 GB 单卡部署——答案质量 (JudgeLM 6.21) 和引用质量 (73.1) 都超过 GPT-4.1，refusal 比例 12% 介于 base 的不安全 4.3% 和 GPT-4.1 的过度拒绝 20.2% 之间，在 40+ 家金融机构上线后查询解决率显著提升 +7.1pp ($p<0.001$)，延迟和成本相比 GPT-4.1 分别便宜 3–5× 和 20–50×。
FLARE: Task-Agnostic Embedding Model Evaluation via Normalizing Flows: 提出FLARE框架，利用正则化流（Normalizing Flows）进行无标签的文本嵌入模型评估，通过直接从对数似然估计信息充分性来避免基于距离的密度估计在高维空间中的崩溃，在11个数据集上与有监督基准的Spearman $\rho$ 达0.90。
From Relevance to Authority: Authority-aware Generative Retrieval in Web Search Engines: 本文提出AuthGR，首个将文档权威性系统性整合到生成式检索中的框架，通过VLM多模态权威评分、三阶段渐进式训练（CPT→SFT→GRPO）和混合集成部署管线，在Naver商业搜索引擎的大规模A/B测试中验证了显著的用户参与度提升。
GIFT: Guided Fine-Tuning and Transfer for Enhancing Instruction-Tuned Language Models: GIFT 让 instruction-tuned 模型不再只是最终 merge 的被动目标，而是先用它给训练 token 标注置信度，再用这些置信度指导 base model 的 LoRA 微调，最后把 adapter 合并回 instruction model，在数学、医学和指令任务上稳定超过直接微调与 Shadow-FT 等迁移基线。
GLIER: Generative Legal Inference and Evidence Ranking for Legal Case Retrieval: 本文提出 GLIER：把法律案例检索（LCR）从"直接文本相似度匹配"重写为"先用 seq2seq 联合生成 罪名 + 构成要件 这一隐变量、再用多视图（生成置信 + 结构匹配 + 词项 BM25）MLP 融合"的两阶段框架，在 LeCaRD/LeCaRDv2 上超越 SAILER、KELLER，且只用 10% 数据训练就能击败强基线的全量结果。
How Large Language Models Balance Internal Knowledge with User and Document Assertions: 本文跳出"参数知识 vs 单一外部源"的二元冲突范式，提出"参数 / 用户主张 / 文档主张"三源交互评测框架，在 27 个 LLM × 2 数据集上发现：大多数模型对文档比对用户更轻信，后训练进一步强化这一偏好，且大部分模型属于"impressionable"——分不清外部信息是帮还是害。
How Retrieved Context Shapes Internal Representations in RAG: 本文从隐藏表示的角度系统分析 RAG 中检索文档如何影响 LLM 内部状态，发现了五个关键模式：随机文档引发大表示漂移并触发拒绝行为、相关文档主要确认而非改变参数化知识、单个相关文档能锚定多文档场景中的表示、后层逐步强调参数化知识从而限制检索证据的影响、以及 LLM 在早期层就能区分随机文档但到最后层仍无法可靠区分干扰文档和相关文档。
Hybrid-Vector Retrieval for Visually Rich Documents: Combining Single-Vector Efficiency and Multi-Vector Accuracy: HEAVEN 提出了一种即插即用的两阶段混合向量框架，通过视觉摘要页（VS-Pages）加速单向量粗检索 + 基于词性的查询 token 过滤减少多向量重排序计算，在四个基准上保持 99.87% 的多向量 Recall@1 同时减少 99.82% 的每查询 FLOPs。
HyperMem: Hypergraph Memory for Long-Term Conversations: HyperMem 用"超图（hyperedge 连接 ≥3 个节点）"代替传统 RAG 的 pairwise 边，把长期对话记忆组织成"主题 → 情节 → 事实"三层结构，通过粗到细检索 + 超图嵌入传播解决多 episode 跨时间相关性的检索碎片化问题，在 LoCoMo benchmark 上 LLM-as-judge 准确率打到 92.73%（前 SOTA 86.49%）。
IF-GEO: Conflict-Aware Instruction Fusion for Multi-Query Generative Engine Optimization: 本文把"为多条潜在查询同时优化一篇文档"视为受限多目标优化问题，提出 IF-GEO："先发散后收敛"——先用 LLM 反向挖掘代表性 query 并生成结构化编辑请求，再通过 优先级×必要性打分 + 去重 + 冲突解决 + Global Revision Blueprint 把多个互相打架的编辑指令融合成一份可执行的修改蓝图，并配套引入 WCP/DR/WTR 三项 risk-aware 稳定性指标；在 GEO-Bench 上把 objective overall 从 Auto-GEO 的 7.59 推到 11.03，同时把最坏单查询跌幅从 -0.0511 降至 -0.0090。
Is Agentic RAG Worth It? An Experimental Comparison of RAG Approaches: 本文在四个数据集上从用户意图处理、查询重写、文档精炼和底层 LLM 选择四个维度系统对比了 Enhanced RAG 和 Agentic RAG，发现两者各有优势——Agentic RAG 在意图路由和查询重写上更灵活，Enhanced RAG 在文档重排上更有效，而 Agentic RAG 的成本高达 3.3 倍。
Language-Coupled Reinforcement Learning for Multilingual Retrieval-Augmented Generation: 本文提出 LcRL 框架，通过语言耦合的 GRPO 策略优化和反一致性惩罚奖励，解决多语言 RAG 中的知识偏差和知识冲突问题，在多语言问答任务上取得显著提升。
Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation: 提出 EviOmni，通过"先推理再提取"的范式学习从检索文档中提取理性证据：将证据推理和证据提取整合为统一轨迹，用知识 token 掩码避免信息泄露，通过 GRPO 以可验证奖励优化，在 5 个基准上以极高压缩比（~38x）取得优于全文检索的准确率。
MAB-DQA: Addressing Query Aspect Importance in Document Question Answering with Multi-Armed Bandits: 提出 MAB-DQA 框架，将复杂查询分解为多个方面子查询，用多臂老虎机机制（Thompson Sampling）动态评估各方面的重要性并重新分配检索预算，显著提升多模态文档问答的检索精度和回答准确率。
MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation: 本文提出 MASS-RAG，一个免训练的多 Agent 综合 RAG 框架，通过 Summarizer/Extractor/Reasoner 三个专门化过滤 Agent 从互补视角处理检索文档，再通过 Synthesis Agent 整合多视角证据或候选答案，在四个基准上持续超越强基线。
More Than Efficiency: Embedding Compression Improves Domain Adaptation in Dense Retrieval: 这篇论文证明 PCA 向量压缩不只是为了提速，还能作为一种零训练的 dense retriever 域适配方法，其中只用目标域 query 拟合 PCA 在 75.4% 的模型-数据集组合上提升 NDCG@10。
MTR-Suite: A Framework for Evaluating and Synthesizing Conversational Retrieval Benchmarks: MTR-Suite 提出一套从 benchmark 审计、对话数据合成到检索评测的完整框架，用 MTR-Eval 诊断标注质量，用 MTR-Pipeline 以约 1/400 人工成本生成高难度多轮检索基准 MTR-Bench。
Multi-Faceted Self-Consistent Preference Alignment for Query Rewriting in Conversational Search: 本文提出 MSPA-CQR，通过从改写、检索、回复三个维度构建自一致性偏好数据，并使用前缀引导的多维度 DPO 优化来训练查询改写模型，在分布内外场景均显著超越现有方法。
Navigating Large-Scale Document Collections: MuDABench for Multi-Document Analytical QA: 这篇论文提出 MuDABench，把多文档问答从“找几个相关片段回答问题”推进到“在大规模半结构化文档集合上做抽取、聚合和定量分析”，并证明普通 RAG 即使扩大召回也很难完成这类任务，而元数据感知的多 Agent 工作流能显著提高结果但仍远落后于人类专家。
Optimizing User Profiles via Contextual Bandits for Retrieval-Augmented LLM Personalization: 提出 PURPLE 框架，将检索增强 LLM 个性化中的用户画像构建问题建模为上下文老虎机问题，通过 Plackett-Luce 排序模型捕捉记录间依赖关系，以 LLM 对参考回复的 log-likelihood 作为奖励信号，直接优化检索以匹配生成质量。
PL-MTEB: Polish Massive Text Embedding Benchmark: PL-MTEB 为波兰语文本嵌入构建了覆盖分类、聚类、句对分类、检索和语义相似度的 30 任务评测集，并系统评测 30 个波兰语和多语言 embedding 模型，显示大模型整体领先但任务类型、训练数据泄漏和模型规模都会显著影响结论。
Quantifying and Improving the Robustness of Retrieval-Augmented Language Models Against Spurious Features in Grounding Data: 本文提出 SURE 框架，系统评估 RAG 生成端对检索文档中风格、来源、逻辑、格式、元数据等语义无关虚假特征的敏感性，并用 SURE 生成的合成数据通过 SFT/DPO 显著提升 RALM 鲁棒性。
RARE: Redundancy-Aware Retrieval Evaluation Framework for High-Similarity Corpora: 本文提出 RARE 框架，通过将文档分解为原子事实来追踪跨文档冗余，并设计 CRRF（基于独立准则排序的倒数排名融合）稳定 LLM 多准则判断，在金融/法律/专利等高冗余企业语料上构建了 RedQA 基准，揭示主流检索器在 4-hop 高重叠设置下 PerfRecall@10 从 66.4% 暴跌至 5.0-27.9%。
ReasonEmbed: Enhanced Text Embeddings for Reasoning-Intensive Document Retrieval: ReasonEmbed 提出三项技术创新——ReMixer 非平凡合成数据方法（82K 高质量样本）、Redapter 自适应推理强度加权训练和多骨干实现——在 BRIGHT 基准上以 38.1 的 nDCG@10 显著超越所有现有文本嵌入模型约 10 个点。
Reliable Evaluation Protocol for Low-Precision Retrieval: 揭示低精度（如二值化/量化嵌入）检索系统在评估时因分数粒度降低产生大量虚假并列（spurious ties），导致评估结果高度不稳定，提出 HPS（高精度打分）和 TRM（并列感知指标）两种互补策略，使低精度检索的评估更可靠一致。
Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents: 本文系统研究了深度搜索智能体中 listwise 重排序的效率-效果权衡，提出 Effective Token Cost (ETC) 指标，发现中等深度重排序通常比增加搜索时推理预算更具成本效益，在更低 token 开销下达到相当甚至更高的端到端准确率。
Retrieval-Augmented Tutoring for Algorithm Tracing and Problem-Solving in AI Education: 本文提出 KITE，一个面向算法追踪和问题求解的课程材料 RAG 辅导系统，通过意图感知的苏格拉底式反馈和多阶段检索，在自动指标、模拟学生和专家评审中显示出较好的 grounding 与教学支架效果。
Retrieve Only Relevant Tables Whether Few or Many: Adaptive Table Retrieval Method: 这篇论文提出 Adaptive Table Retrieval (ATR)，用查询自适应阈值代替固定 top-k 表格检索，并结合相关性校准、表间语义分组和滑动窗口重排，在 Spider、BIRD、Spider 2.0 上同时提升检索召回、text-to-SQL 执行准确率和推理效率。
REZE: Representation Regularization for Domain-adaptive Text Embedding Pre-finetuning: REZE 在领域 embedding 预微调中对 anchor-positive 关系表示做 eigenspace 分解，用鲁棒统计识别任务特异偏移并软收缩，从而吸收共享领域知识、抑制异构任务带来的表示漂移。
RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs in Medicine: RiTeK 构建了两个大规模医学文本知识图谱（TKG）和对应的复杂推理 QA 数据集，涵盖 6 种拓扑结构和丰富的文本描述，评估了 11 种检索方法并揭示了现有 LLM 驱动检索系统在医学 TKG 推理上的严重不足。
S2G-RAG: Structured Sufficiency and Gap Judging for Iterative Retrieval-Augmented QA: S2G-RAG 把迭代 RAG 中“证据够不够”和“下一步缺什么”显式建模成结构化控制器 S2G-Judge，再用 gap-guided query 和句子级证据抽取减少噪声，在 HotpotQA BM25 设置下把 F1 从 SIM-RAG 的 43.3 提升到 56.5。
SkMTEB: Slovak Massive Text Embedding Benchmark and Model Adaptation: 论文为斯洛伐克语（约 500 万使用者的西斯拉夫语低资源语言）建了第一个 MTEB 风格的综合文本嵌入基准 SkMTEB（31 个数据集、7 类任务，深度接近现有多语言覆盖的 4 倍），评测了 31 个嵌入模型，并用词表裁剪 + 定向微调把 Multilingual E5 压成 45M/365M 的本地可部署斯洛伐克语嵌入模型，在缩小最多 62% 体积的同时追平商用 API。
Test-Time Training for Zero-Resource Dense Retrieval Reranking: 提出 DART，通过在推理时用双线性矩阵自适应地调整密集检索器的评分函数，利用检索结果本身作为伪标签实现零样本无标注重排序，在 BEIR 基准上平均提升 2.1% NDCG@10，延迟控制在 10ms 以内。
多语言检索中的低资源语言困境：Amharic 语言证据: 本文以 Amharic 语言为诊断案例，揭示了强势多语言检索模型在零样本设置下无法有效迁移到形态丰富的低资源语言，相对 MRR@10 性能下降 23%；而语言特定微调虽能改进 32-60%，但仍无法达到单语言检索器水平，表明多语言检索不足以保证低资源语言的信息公平获取。
UnIte: Uncertainty-based Iterative Document Sampling for Domain Adaptation in Information Retrieval: UnIte 把神经检索器的无监督领域适配瓶颈从“生成更多伪查询”转向“更聪明地选文档”，先用 aleatoric uncertainty 过滤低密度噪声文档，再用随模型训练动态变化的 epistemic uncertainty 迭代采样高价值文档，在 BEIR 大语料上用更少伪查询稳定超过 DUQGen。
Verbal-R3: Verbal Reranker as the Missing Bridge between Retrieval and Reasoning: Verbal-R3 把传统 reranker 从“只给相关性分数”的模块升级为“给分数并生成解释性 Verbal Annotation”的桥接模块，再用它训练和引导 RAG 推理器，在多跳问答中同时提升答案准确率和测试时扩展效率。
VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG: VideoStir 提出了一种结构化且意图感知的长视频 RAG 框架，通过将视频建模为时空图进行多跳 clip 检索 + 训练意图相关性评分器进行帧级筛选，在不依赖辅助文本工具的前提下达到了与 SOTA 长视频 RAG 方法可比的性能。
VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval: 本文提出 Visualize-then-Retrieve (VisRet)，一种将文本查询先通过 T2I 生成模型可视化为图像、再在图像模态内进行检索的新范式，在四个基准上平均提升 nDCG@30 0.125（CLIP）和 0.121（E5-V），下游 VQA 准确率在 Visual-RAG-ME 上提升 15.7%。
When Does Mixing Help? Analyzing Query Embedding Interpolation in Multilingual Dense Retrieval: 本文用"嵌入级插值"作为可控代理来研究多语言稠密检索对混合语言查询的敏感性：在 mMARCO 上系统改变两种平行查询的混合比例后发现，最优的混合比例在 88/105 个设定里超过最好的单语查询，且这种收益高度结构化——英语在向量空间里扮演"最强混合伙伴"和"非对称霸主"的角色。
生物医学 RAG 中检索何时无效：大规模实证研究: 这项大规模实证研究横跨 5 个模型、10 个数据集、4 种检索方法和 4 个检索库，发现生物医学 RAG 仅带来 1-2 个点的小幅不稳定改进，真正的瓶颈是模型有效利用检索证据的能力而非检索质量本身。
Why Mean Pooling Works: Quantifying Second-Order Collapse in Text Embeddings: 本文指出 mean pooling 理论上会丢失 token embedding 的二阶结构，并提出 SOCM 指标量化这种二阶坍缩；实验证明现代对比微调文本编码器的 token embedding 更集中，因此比基座模型更不容易发生坍缩，且低 SOCM 与更高 MTEB 表现相关。
Why These Documents? Explainable Generative Retrieval with Hierarchical Category Paths: 提出 HyPE 框架，在生成式检索中通过先生成层级类别路径（如 "Government >> Government by cities"）再解码文档标识符，为检索结果提供查询相关的可解释路径，同时提升检索准确率。