跳转至

💬 ACL2026 论文汇总

1409篇ACL2026论文解读,涵盖 LLM 安全(115篇)、LLM 评测(96篇)、LLM Agent(82篇)、LLM Reasoning(82篇)、多模态 VLM(82篇)、信息检索/RAG(73篇)、音频/语音(70篇)、可解释性(63篇)等 38个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。


💡 LLM Reasoning (82)

Accurate Legal Reasoning at Scale: Neuro-Symbolic Offloading and Structural Auditability for Robust Legal Adjudication

本文提出 Amortized Intelligence 范式:把 LLM 当作"一次性编译器"将法律合同编译成名为 DACL 的确定性有向无环图中间表示,运行时由轻量 agent 调度符号引擎执行,在 400 个真实合同事件上达到 99.5% 准确率,相比 GPT-5.2/Claude/Gemini 等推理大模型在复杂合同上准确率从 22-46% 直接跳到 98%,且 token 消耗降低 9.9 倍。

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

本文提出 APMPO,用一个由当前奖励均值控制的"幂平均"统一了 GRPO(算术平均)与 GMPO(几何平均)目标,并配合基于奖励稳定度的自适应 clip 范围,使 RLVR 训练能在不同阶段动态切换"放大稀有高奖励"与"强调一致性"的策略,在 9 个数学/SQL/多模态推理基准上稳定超越 GRPO/DAPO/GMPO。

AIM-CoT: Active Information-driven Multimodal Chain-of-Thought for Vision-Language Reasoning

提出 AIM-CoT 框架,通过信息觅食理论驱动的主动视觉证据选择(AVP)和基于注意力偏移的动态触发机制(DAT),解决交错模态思维链(I-MCoT)中"看什么"和"何时看"两个核心问题。

Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data

本文提出了一种预算感知的任意时推理(anytime reasoning)框架和 Anytime Index 指标,用于量化 LLM 在有限 token 预算下的推理质量-效率权衡,并设计了基于 LLM 自合成偏好数据的推理时自改进方法(PDP),在规划、数学和科学 QA 任务上显著提升了中间和最终解的质量。

C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

针对"自生成 rubric 经常误导 reward model"的两面性问题,作者用 LM 似然 margin 把自采样的 16 条 rubric 自动标注为"helpful / misleading"对,再用 DPO 训一个合作型 rubric generator + GRPO 训一个会先评估 rubric 可信度再下判断的"critical" verifier;只用二元偏好数据,C2 在 4 个偏好基准上比 GRPO 训的 reasoning RM 提升最多 6.5 点 (RM-Bench),下游 DPO 的 LC win rate 涨 6 点,且 8B 模型靠自生 rubric 就能追平用 4× 大模型 (Qwen3-32B) 提供 rubric 的方案。

Calibration-Aware Policy Optimization for Reasoning LLMs

作者首先证明 GRPO 类算法的"奖励-only"advantage 估计等价于一个对 AUC 不一致的 surrogate(\(\phi(t)=-t\),scale-不变性破坏),导致准确率上升的同时相对校准 (perplexity AUC) 持续退化;据此提出 CAPO:把 advantage 换成基于 logistic AUC consistent surrogate 的"成对、uncertainty-aware"形式,再用 reference-model PPL 做去噪 masking,在 Qwen2.5-Math 1.5B/7B 上实现校准 +15~25%、准确率持平或反超 GRPO,AIME 推理时缩放再涨 5%。

Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression

本文提出 post-reasoning 与 UCoT:先由轻量 compressor 用单次前向生成表示推理路径的 soft tokens,再让 executor 把这些 soft tokens 当作输入上下文进行短输出推理,从而在保持推理准确率的同时显著减少 CoT token 与延迟。

Chain-of-Thought as a Lens: Evaluating Structured Reasoning Alignment between Human Preferences and Large Language Models

本文提出 Alignment Score——一种基于语义熵矩阵的语义级指标,通过比较模型生成的思维链与人类偏好参考链的中间步骤来量化推理对齐度,发现 Alignment Score 与任务准确率、可读性和连贯性高度相关,且 2-hop 推理是对齐的峰值深度。

ChAIRO: Contextual Hierarchical Analogical Induction and Reasoning Optimization for LLMs

提出 ChAIRO,一个上下文层次化类比归纳与推理优化框架,通过三阶段 pipeline(类比案例生成→规则归纳→规则注入微调)让 LLM 在内容审核中自主生成类比案例并归纳显式审核规则,比单实例规则生成提升 F1 4.5%,比静态 RAG 提升 2.3%。

CoAct: Co-Active LLM Preference Learning with Human-AI Synergy

CoAct 在偏好对齐中用自一致性把无标注样本切成"高一致 / 低一致"两堆,再用 k-NN 距离从高一致样本里挑出"自洽但可能错"的隐患样本送给 Oracle 标注,剩下的高一致样本直接当 AI 自标数据,最后用 oracle-verified 样本做 in-context demo 生成新指令,把人和 AI 的监督在一个 DPO 循环里捏成一团,在 GSM8K/MATH/WebInstruct 上比最强基线再涨 4–8 个点。

查看全部82篇「LLM Reasoning」论文 →


🦾 LLM Agent (82)

AdaRubric: Task-Adaptive Rubrics for Reliable LLM Agent Evaluation and Reward Learning

本文指出 "LLM-as-Judge + 固定 rubric"(Helpfulness/Safety/Fluency)对评估目标导向的 agent 轨迹严重不匹配,提出 AdaRubric——由 LLM 根据任务描述自动生成任务专属的 N 维评估 rubric,再用置信度加权的逐步评估产出密集 reward 信号;并设计 DimensionAwareFilter 在 DPO 数据构建中防止"维度掩盖",在 WebArena/ToolBench/AgentBench 上 Pearson r=0.79,DPO 训练带来 +6.8~+8.5% 任务成功率提升。

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

提出AgencyBench——一个包含138个真实世界任务的综合基准,评估6种核心智能体能力,每个场景平均需90次工具调用和100万token,通过用户模拟agent和Docker沙箱实现全自动化评估。

Agent-GWO: Collaborative Agents for Dynamic Prompt Optimization in Large Language Models

本文提出 Agent-GWO,将灰狼优化器的领导者-追随者机制引入多智能体框架,联合优化 prompt 模板和解码超参数(温度、top-p 等),在 11 个数学和混合推理基准上持续超越现有提示优化方法。

AnchorMem: Anchored Facts with Associative Contexts for Building Memory in Large Language Models

提出AnchorMem记忆框架,受普鲁斯特现象启发,将检索单元(原子事实)与生成上下文(原始交互)解耦,通过关联事件图连接碎片化记忆,在LoCoMo基准上大幅超越A-Mem、Mem0等现有记忆系统。

AVA: Attentive VLM Agent for Mastering StarCraft II

本文提出 AVACraft——首个同时支持 MARL 和 VLM 两种决策范式的星际争霸 II 多模态基准(21 场景 / RGB+文本+结构化状态),并给出 VLM 基线 AVA(多模态优先级推理 + RAG + 动态角色分配),实验显示在基础 3m 场景 MARL 训练 5M 步只能到 19–27% 胜率,而 VLM 零样本就能拿到 75–90%。

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

针对 RL 训练后的 agentic search 模型几乎从不说"I DON'T KNOW"导致编造答案的可靠性问题,BAPO 在 GRPO 之上加入"基于组的边界感知奖励 + 自适应奖励调制器",让模型只在真正越界时才拒答,相对 GRPO 在四个多跳 QA 上把 reliability 平均提升约 9.7%,且仅用 5k 训练样本就超过 90k 样本训练的 Search-R1。

Benchmarking Web Agent Safety under E-commerce Deceptive Interfaces

作者做了 WebDecept——一个轻量可插拔的"欺骗界面注入层",能在 VisualWebArena 电商环境里按触发时机塞进七种现实常见的欺骗模式(弹窗、横幅、域名跳转、偷加购物车、改总价等),用来测多模态 web agent 的安全性;结果发现 GPT-5.1、Claude 4.5、Gemini 2.5 等先进 agent 普遍扛不住,尤其对"偷改购物车/总价"几乎全军覆没,且加安全提示词也救不回来。

ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering

ChartAgent 把图表问答从"文字链式推理"改成"在图像本身上动手"——用一套图表专用视觉工具(分割饼块、抠条形、定位坐标轴)在 ReAct 循环里逐步操作图表、并对中间可视化做自我校验,在 ChartBench / ChartX 上对无标注、重数值的难题整体提升最高 16.07%、无标注子集提升 17.31%。

CLAG: Adaptive Memory Organization via Agent-Driven Clustering for Small Language Model Agents

本文提出 CLAG,一种基于聚类的 Agent 记忆框架,通过 SLM 驱动的路由将记忆组织到语义一致的聚类中,在聚类内部进行局部进化更新,并通过两阶段检索过滤噪声,在多个 QA 数据集上显著优于全局记忆池基线。

CodeStruct: Code Agents over Structured Action Spaces

本文提出CodeStruct框架,将代码仓库重新定义为基于AST的结构化动作空间,让LLM代码Agent通过命名的程序实体(而非文本片段)进行读取和编辑操作,在SWE-Bench Verified上提升1.2-5.0%准确率并减少12-38% token消耗。

查看全部82篇「LLM Agent」论文 →


👥 Multi-Agent (39)

A Multi-Agent Framework for Feature-Constrained Difficulty Control in Reading Comprehension Item Generation

本文提出 MAFIG,一个用多智能体协作、特征级评估器和迭代修订来生成阅读理解选择题的框架,相比单轮提示能显著提高题目对词汇、篇幅、句长、推理复杂度、事实性和选项中立性等约束的满足率,并带来更稳定的难度递增。

AgenticEval: Toward Agentic and Self-Evolving Safety Evaluation of Large Language Models

AgenticEval 把 LLM 安全评估重新定义为「持续、自我演化的红队过程」:Specialist 把非结构化法规文本拆成原子规则知识库,Generator 围绕每条规则生成多模态多形式的 Question Group,Evaluator + Analyst 不断把当轮失败转化为下一轮更狠的攻击策略,三轮迭代后 GPT-5 对 EU AI Act 的合规率从 72.50% 暴跌到 36.36%,揭示静态 benchmark 严重高估了大模型的安全水位。

ATLAS: Adaptive Trading with LLM AgentS Through Dynamic Prompt Optimization and Multi-Agent Coordination

提出 ATLAS 多智能体金融交易框架和 Adaptive-OPRO 提示优化方法,通过专业化分析师智能体准备异构市场信息,并基于延迟噪声反馈动态优化中央交易智能体的指令提示,在多种市场波动环境中显著超越基线。

AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage

AutoReproduce 提出了一个多智能体框架,通过"论文谱系"算法从引用文献中挖掘隐式领域知识,实现端到端的论文实验自动复现,在自建基准 ReproduceBench 上的代码执行率达 94.87%,性能差距仅 19.72%。

BookAgent: Orchestrating Safety-Aware Visual Narratives via Multi-Agent Cognitive Calibration

BookAgent 是一个安全感知的多智能体框架,通过价值对齐故事板(VAS)+ 迭代跨模态精炼(ICR)+ 时序认知校准(TCC)三阶段闭环架构,从用户草稿端到端生成高质量、角色一致、内容安全的绘本故事。

CIA: Inferring the Communication Topology from LLM-based Multi-Agent Systems

本文提出 CIA(Communication Inference Attack),在严格黑盒只能观测最终输出的设定下,通过对抗性查询诱导多智能体系统暴露中间 agent 的推理输出,再用全局偏置解纠缠 + LLM 弱监督建模语义相关性,成功反演出 MAS 的通信拓扑,平均 AUC 0.87、峰值 0.99。

Collaborative Multi-Agent Scripts Generation for Enhancing Imperfect-Information Reasoning in Murder Mystery Games

提出一个协作式多智能体框架用于自动生成高质量剧本杀游戏脚本和训练数据,通过两阶段训练策略(CoT 微调 + GRPO 强化学习配合 ScoreAgent 奖励塑形)增强 VLM 在不完全信息下的多跳推理能力,在 WhodunitBench 上显著提升 VLM 的叙事推理、事实提取和欺骗抵御能力。

Conjunctive Prompt Attacks in Multi-Agent LLM Systems

本文研究多智能体 LLM 系统中的联合提示攻击(conjunctive prompt attacks):用户查询中嵌入的触发键和被入侵远程代理中的隐藏模板各自看起来无害,但当路由将它们带到同一代理时会激活有害行为,现有防御(PromptGuard、Llama-Guard 等)均无法可靠阻止。

ConSensus: Multi-Agent Collaboration for Multimodal Sensing

ConSensus 是一个无需训练的多智能体传感器融合框架,它把不同传感模态交给专门 agent 独立解释,再用语义融合、统计共识和混合仲裁得到最终判断,在 5 个多模态传感 benchmark 上比单 agent 平均提升 7.1% accuracy,并把融合 token 成本降到多轮 debate 方法的约 1/12.7。

Debating the Unspoken: Role-Anchored Multi-Agent Reasoning for Half-Truth Detection

提出RADAR框架,通过角色锚定(政客 vs 科学家)的多智能体辩论来检测基于遗漏上下文的半真半假信息,配合双阈值自适应早停机制,在噪声检索条件下一致超越单智能体和传统多智能体基线。

查看全部39篇「Multi-Agent」论文 →


⚖️ 对齐 / RLHF (38)

AdaJudge: Adaptive Multi-Perspective Judging for Reward Modeling

针对奖励模型普遍用「固定池化(如 last-token)把整条序列压成一个标量」带来的两个结构性缺陷——固定的空间归纳偏置与生成式 backbone 表示不适配判别——AdaJudge 先用门控精炼块把 backbone 表示重塑到判别空间,再用「域感知门控的多视角池化」按 prompt 动态融合 last-token / mean / attention 三种池化证据,在 RM-Bench 和 JudgeBench 上让 4B/8B 模型超过 27B 的 off-the-shelf 强奖励模型。

AgentV-RL: Scaling Reward Modeling with Agentic Verifier

把奖励模型从"单轮打分"重塑为"前向+后向双 agent + 工具调用"的多轮审议流程,并通过 SFT+GRPO 把多 agent 能力蒸馏到单个 4B 模型中,使其在 BoN 选择上比 70B 量级 ORM 高 25.2%。

Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling

提出 Plan-RewardBench,一个面向复杂工具增强场景的轨迹级偏好基准,用于评估奖励模型在多步规划、工具使用和错误恢复等场景下区分优劣智能体轨迹的能力。

Alignment Data Map for Efficient Preference Data Selection and Diagnosis

提出 Alignment Data Map,一个通过联合考量回复质量(quality)和回复变异性(variability)来可视化、选择和诊断偏好数据的分析工具,仅用 33% 数据即可达到全量训练的对齐效果。

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

ARES 通过一个能动态组合「话题 / 人设 / 目标 / 战术」四元结构的 Safety Mentor 同时探测 Core LLM 和 Reward Model 的「系统性弱点」(两者同时失守),然后用先修 RM 再修策略的两阶段闭环把 RedTeam 安全率从 0.28 提到 0.96,几乎不损失通用能力。

BACH-V: Bridging Abstract and Concrete Human-Values in Large Language Models

本文提出 abstraction-grounding 框架,把 LLM 的概念理解拆成"抽象-抽象 / 抽象-具体 / 具体-具体"三层,并用概念探针 + 激活引导在 6 个开源 LLM、10 个价值维度上证明:LLM 内部确实存在结构化的价值表示,能跨抽象层迁移、并因果地驱动具体决策。

Better Literary Translation: A Multi-Aspect Data Generation and LLM Training Approach

这篇论文把文学翻译质量拆成“表达流畅”和“文学效果”两个维度,用专门 LLM 反复生成高质量参考译文和偏好对,再用 SFT + 显式奖励模型 + GRPO 训练 LitMT,使 8B/14B 小模型在英译中文学翻译上接近甚至超过部分大模型。

Compatibility-Aware Dynamic Fine-Tuning for Large Language Models

CADFT 在 token 级稳定化方法 DFT 的基础上,引入一个由模型自身似然算出的"样本级兼容性"信号去重加权监督梯度,再配一个延迟、低频的"兼容性引导重写"把顽固难学的样本改写成可学目标,从而在不引入任何奖励模型/RL 的前提下,把高方差梯度压下去,同时提升微调稳定性、泛化和冷启动 RL 初始化质量。

ComplexConstraints and Beyond: Expert Rubrics for RLVR

这篇论文系统论证了"专家手写的细粒度评分量表(rubric)"既是更靠谱的前沿大模型评测工具,也是数据高效的 RLVR 奖励信号:它先给出构造高质量 rubric 的五条设计原则,配套放出每条 prompt 带 10–40 条原子准则的 ComplexConstraints 数据集,然后实证只用约 1000 条专家样本做 RLVR,就能让 4B 模型指令跟随涨 +15.5 pp、235B 涨 +12.2 pp,且单 epoch 的 agentic 训练能迁移到模型从没训过的 OOD benchmark(BFCL +4.5 / τ²-Bench +7.4 / Toolathlon +6.8 pp)。

ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training

ConsistRM 提出基于一致性感知的自训练框架,通过时序一致性伪标签(融合在线状态和历史记忆的偏好一致性)和语义一致性批评奖励(衡量多次生成批评的语义相似度)两个模块,在无需人工标注的条件下将生成式奖励模型的五个基准平均性能提升 1.5%,同时显著缓解了位置偏差问题。

查看全部38篇「对齐 / RLHF」论文 →


🔒 LLM 安全 (115)

STELA: A Linguistics-Aware LLM Watermarking via Syntactic Predictability

STELA 用 POS n-gram 估计的「语言学不确定度」\(\lambda(c_t)\) 作为水印强度调制信号,在语法约束高的位置弱化水印(保质量)、在语法自由位置增强水印(提检测力),与 KGW 一样仅靠 POS 分析器即可公开验证,无需访问模型 logits。

A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron?

本文给"计算机使用智能体 (CUA)"的安全研究做了第一次系统化梳理,把 124 篇相关论文整理成"内在威胁 × 外在威胁 × 防御 × 评测"四维分类框架,并指出现有 CUA 的最大缺口是 UI grounding 鲁棒性与跨平台对抗评测。

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Abstain-R1 提出一种澄清感知的 RLVR 奖励,在不可回答查询上联合优化"明确拒答"和"拒答后给出有用澄清(指出缺失信息)",使 3B 模型在拒答和澄清质量上接近甚至超越 DeepSeek-R1 等大模型。

ACIArena: Toward Unified Evaluation for Agent Cascading Injection

本文构造了首个针对"代理级联注入 (Agent Cascading Injection, ACI)"攻击的统一评测框架 ACIArena,覆盖 6 个主流多智能体系统 (MAS)、3 大攻击面 (Adversarial Input / Malicious Agent / Message Poison)、3 大攻击目标 (Hijacking / Disruption / Exfiltration) 的 1356 个测试用例,并提出极简但有效的防御 ACI-Sentinel,把 Hijacking 攻击成功率从 92.78% 压到 8.06%。

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

提出自适应文本匿名化框架,通过进化式提示优化自动为LLM发现任务特定的匿名化指令,在多个隐私-效用权衡场景中超越手工设计的策略,且可在开源模型上运行。

ADVICE: Answer-Dependent Verbalized Confidence Estimation

本文通过 JSD 与归因分析诊断出 LLM 口头置信度过自信的根因是「置信度几乎不依赖于自己生成的答案」,并提出基于对比答案对的轻量微调框架 ADVICE,用 JSD/Margin/Sum 三项损失强迫置信度分布对正确答案显著高于错误答案,在保持任务精度的同时把 Gemma2-9b 在 TriviaQA 的 ECE 从 21.9% 压到 6.2%。

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

AgentCoMa 构造了一个把常识选择和单步数学运算强制组合起来的 agentic benchmark,并在 61 个 LLM 上发现:模型通常能分别做对两个子问题,但组合后平均准确率从“两个子步都能独立答对”的 80% 掉到 51%,暴露出混合类型组合推理中的显著脆弱性。

AgentMark: Utility-Preserving Behavioral Watermarking for Agents

AgentMark 把 LLM agent 的「下一步选什么 tool / subgoal」建模为一个时间变化的离散信道,通过显式 elicit 行为分布 \(P_t\) 并应用 FDPSS 式分布保持采样把多比特 ID 嵌入 planning 决策,配合 RLNC 编码使得即便 trace 被裁剪/删步也能从残余日志恢复水印;在 ALFWorld、ToolBench、OASIS 三类任务上既不掉准确率(保持任务 SR 与 baseline 差异 <0.7 pp),又能稳定提供 1.2-2.3 bps 的多比特容量,且与 SynthID-Text 的内容层水印正交可叠加。

AGSC: Adaptive Granularity and Semantic Clustering for Uncertainty Quantification in Long-text Generation

AGSC 提出了一个针对长文本生成的不确定性量化框架,通过 NLI 中立概率触发自适应粒度分解(减少 60% 推理时间),并使用 GMM 软聚类捕捉潜在语义主题进行主题感知的加权聚合,在 BIO 和 LongFact 基准上达到 SOTA 的事实性相关性。

APPSI-139: A Parallel Corpus of English Application Privacy Policy Summarization and Interpretation

APPSI-139 是首个由法律专家精细标注的英文应用隐私政策摘要与解释平行语料(139 篇政策 / 36,351 条标注 / 15,692 对改写),配套提出的 TCSI-pp-V2 框架用共享编码器 + 5 个交替训练的专家头实现"重要 / 风险 / 敏感 / 主题 / 改写"五子任务,相比 TCSI-pp v1 编码时间砍 73%、显存从 7.3GB 降到 2.7GB,可读性主观投票胜过 GPT-4o / Llama3-70b。

查看全部115篇「LLM 安全」论文 →


👻 幻觉检测 (28)

Aligning with Your Own Voice: Self-Corrected Preference Learning for Hallucination Mitigation in LVLMs

提出 AVES-DPO 框架:用一致性多模型验证(YOLO/GroundingDINO/Qwen3-VL)在 object/attribute/relation 三层细粒度检测 LVLM 自己生成回复中的幻觉,再让同一个 LVLM 自我校正并丰富细节,得到的偏好对天然处于目标模型的"自身分布"内;仅 5.2K 样本即可在多个幻觉 benchmark 上超过依赖 GPT-4V 教师的 SOTA(数据效率约 25×)。

Benchmarking Deflection and Hallucination in Large Vision-Language Models

提出 VLM-DeflectionBench,一个包含 2775 个样本的多模态基准,通过四种评估场景(参数化/Oracle/现实/对抗)系统性地评估大型视觉语言模型在证据不足或误导时的拒答(deflection)vs 幻觉(hallucination)行为,实验覆盖 20 个 SOTA LVLM,发现几乎所有模型都无法在噪声证据下可靠拒答。

Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps

提出四种基于音频注意力的指标(AudioRatio、AudioConsistency、AudioEntropy、TextEntropy),训练轻量级逻辑回归分类器在推理时检测语音大模型(SpeechLLM)的幻觉,在域内数据上 PR-AUC 提升最高达 +0.23。

Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate

提出 Dialectic-Med,一个受波普尔证伪主义启发的多智能体医学诊断框架,通过提议者(诊断假设)、反对者(视觉证伪模块主动检索矛盾视觉证据)和调解者(加权共识图决策)的对抗辩证推理,在 MIMIC-CXR-VQA、VQA-RAD 和 PathVQA 上取得 SOTA,解释忠实度提升 12.5%,显著缓解诊断幻觉。

Distorted or Fabricated? A Survey on Hallucination in Video LLMs

本文首次对视频大语言模型(Vid-LLM)中的幻觉现象进行系统分类,提出"动态失真"(时空关系和引用一致性错误)和"内容捏造"(统计先验驱动和音视频冲突)的机制驱动分类体系,综述评估基准、缓解策略和根因分析。

Enhancing Hallucination Detection via Future Context

本文提出利用采样生成的"未来上下文"(后续句子)来增强黑盒场景下的幻觉检测,利用幻觉一旦出现就倾向于持续传播的"滚雪球效应",在 SelfCheckGPT 和 SC 等多种采样方法上一致提升检测性能。

FaithLens: Detecting and Explaining Faithfulness Hallucination

本文提出 FaithLens,一个 8B 参数的忠实性幻觉检测模型,通过高质量数据合成+三维过滤(标签正确性、解释质量、数据多样性)进行冷启动 SFT,再用基于规则的强化学习(预测正确性奖励+解释质量奖励)进一步优化,在 12 个任务上超越 GPT-5.2 和 o3,同时提供高质量的解释性输出。

FinGround: Detecting and Grounding Financial Hallucinations via Atomic Claim Verification

FinGround 是一个面向金融文档问答的三阶段 "verify-then-ground" pipeline:(1) finance-aware 混合检索;(2) 把答案拆成原子 claim 并按"数值/时间/实体属性/比较/监管/计算"六类 taxonomy 用 type-routed 策略验证 (其中 computational claim 用公式重构 + 算术再校验);(3) 对未支持的 claim 进行 grounded 重写并加段/单元格级引用——把 GPT-4o 蒸馏到 8B 检测器实现 91.4% F1、18× 加速,端到端将 hallucination rate 相比 GPT-4o+CoT 降 78%。

Generating Effective CoT Traces for Mitigating Causal Hallucination

本文首先提出了因果幻觉率(CHR)指标来量化小型 LLM 在事件因果识别中过度预测因果关系的倾向,然后通过系统实验确定了有效 CoT 数据的两个关键标准(充分长度的语义解释+与目标模型对齐的分布),设计了一套低成本的 CoT 数据生成管线,将 Qwen2.5-1.5B 的 CHR 从 83.54% 降至 6.26%,同时提升平均准确率至 66.00%。

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

本文提出 HalluAudio,首个大规模跨领域(语音/环境声/音乐)的音频幻觉检测基准,包含 5000+ 人工验证的 QA 对和系统化的对抗性提示设计,通过多维指标(准确率/幻觉率/Yes-No偏差/拒绝率/错误类型)评估主流 LALM,揭示了当前模型在声学锚定、时间推理和音乐属性理解方面的显著缺陷。

查看全部28篇「幻觉检测」论文 →


📊 LLM 评测 (96)

AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking

AgentEval 把 agent 执行轨迹建模成「评估 DAG」,对每个节点用 GPT-4o 判官按 5 类节点类型打分并按贪心父节点策略追溯根因,配合 21 类失败类目与 CI/CD 集成;相对端到端评估在 450 条生产 trace 上 failure detection recall 提升 2.17×(0.41→0.89),人类一致性 \(\kappa=0.84\),根因准确率 72%(接近人类上限 81%),4 个月试点把根因定位中位数时间从 4.2 小时缩到 22 分钟。

Aggregate vs. Personalized Judges in Business Idea Evaluation: Evidence from Expert Disagreement

针对商业 idea 评估中专家系统性分歧的现实,构建了 3000 个个体专家评分的 PBIG-DATA 数据集,并实证证明在该领域"个性化 judge(条件于目标评审员历史)"比"汇总 judge(条件于多评审员混合历史)"更贴合专家行为,挑战了"用 pooled labels 当唯一 ground truth"的常见假设。

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

提出 AJ-Bench,首个系统评估 Agent-as-a-Judge 能力的基准,覆盖搜索、数据系统和 GUI 三个领域共 155 个任务和 516 条标注轨迹,实验表明 Agent-as-a-Judge 比 LLM-as-a-Judge 平均 F1 提升约 13 个百分点。

Are They Lovers or Friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues

本文提出 SCRIPTS 基准,包含 1.1K 英语和韩语电影对话,通过三层概率标签(HIGHLY LIKELY / LESS LIKELY / UNLIKELY)评估 9 个 LLM 的社会关系推理能力,发现模型在英语上准确率仅 75-80%、韩语 58-69%,且 CoT 和思维模型对社会推理几乎无帮助。

arXiv2Table: Toward Realistic Benchmarking and Evaluation for LLM-Based Literature-Review Table Generation

提出 arXiv2Table 基准(1,957 张表、7,158 篇论文),通过引入干扰论文、模式无关的用户需求和基于 QA 的无标注评估框架,实现更真实的 LLM 文献综述表格生成评估,并提出迭代批处理生成方法。

Attribution, Citation, and Quotation: A Survey of Evidence-based Text Generation with Large Language Models

本文系统综述了 134 篇关于 LLM 证据基础文本生成的论文,首次提出统一分类学(归因方式 × 引用特征 × 任务),分析了 300 个评估指标并归纳为七大维度六种方法,为该碎片化领域提供了全景式参考框架。

Automated Creativity Evaluation of Language Models Across Open-Ended Tasks

这篇论文提出一套与任务解耦、无需参考答案的自动化框架来量化 LLM 的创造力:用「语义熵」衡量发散创造力(想法的新颖与多样),用「基于检索的多智能体评判」衡量收敛创造力(解答是否真正解决问题),并在解题、科研构思、创意写作三个领域上系统刷出了模型规模、温度、推理能力对创造力的影响规律。

BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers?

作者搭了一个"坏科学家" pipeline:让一个不做任何真实验的生成 agent 用五种"表演式造假"策略写出看似严谨实则站不住的论文,再喂给由 o3 / o4-mini / GPT-4.1 组成的多模型评审 agent,结果造假论文的接收率最高冲到 82%,而且评审常常一边在评语里点出诚信问题、一边照样打出接收分(concern-acceptance conflict),现有缓解手段几乎只比随机猜强一点。

BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks

本文借鉴教育学界对多选题(MCQ)的成熟质检框架,构造 BenchMarker 工具用 LLM 判官从「污染(contamination)+ 捷径(shortcuts)+ 写作错误(writing errors)」三个维度审计 12 个主流 NLP MCQA benchmark,发现 TruthfulQA 47% 题目能直接在网上搜到、HellaSwag 100% 违反多条写作规则,并实证证明这些缺陷会显著拉高/压低 LLM 准确率甚至改变模型排名。

Beyond Fixed Psychological Personas: State Beats Trait, but Language Models are State-Blind

构建覆盖 1667 用户 × 多 subreddit 上下文的 Chameleon 心理画像数据集,用 ICC 分解证明 72-74% 心理变异来自「状态(情境)」而非「特质(人格)」,进一步揭示 LLM 几乎对状态视而不见、reward model 反应到状态却方向相反——RLHF 因此盲目继承了奖励模型的状态偏好。

查看全部96篇「LLM 评测」论文 →


⚡ LLM 效率 (23)

Alloc-MoE: Budget-Aware Expert Activation Allocation for Efficient Mixture-of-Experts Inference

把 MoE 推理的"激活专家个数"抽象成全局预算 \(B\),先用动态规划在层间做最优 Top-K 分配(Alloc-L),再用全局 Top-(K·T) 选择在 token 间重分配(Alloc-T),在 DeepSeek-V2-Lite 上把激活预算砍掉一半还能保持精度,prefill 加速 1.15×、decode 加速 1.34×。

Are Large Language Models Economically Viable for Industry Deployment?

提出Edge-Eval框架,通过5个部署指标(经济盈亏平衡、智能功耗比、系统密度、冷启动税、量化保真度)在传统T4 GPU上全生命周期评估LLM,揭示<2B小模型在经济和生态维度全面优于7B模型,并发现QLoRA虽降低内存但能耗增加最高7倍的反常现象。

Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

提出 PTE(Prefill Token Equivalents),一个基于硬件感知的工具集成推理效率度量指标,统一了内部推理和外部工具使用的成本,并通过大规模实验揭示了四种 TIR 低效模式:确认性工具使用、工具混合、缺乏工具先验和工具格式崩溃。

BOSCH: Black-Box Binary Optimization for Short-Context Attention-Head Selection in LLMs

提出 BOSCH,一种免训练的注意力头级别 SWA 混合方法,将 SWA 头选择建模为大邻域搜索问题并分解为三阶段优化(层重要性探测→自适应比例分配→分组头选择),在 4 个模型 4 种比例设置下系统性超越层级启发式和 6 种静态头级别方法。

Breaking Block Boundaries: Anchor-based History-stable Decoding for Diffusion Large Language Models

提出 AHD(Anchor-based History-stable Decoding),一种无需训练的即插即用动态解码策略,通过动态锚点回溯历史轨迹判定扩散LLM中跨块稳定token,实现早期解锁,在BBH上减少80%解码步数的同时提升3.67%性能。

CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling

CoMeT 给已有 LLM 加一个"全局记忆 + FIFO 临时记忆"的双记忆插件,分块处理输入实现常数显存、线性时间复杂度,仅在 32k 上下文上微调就能在 1M token 内任意位置精确找回密码,并提出层级流水线并行让 16×80GB GPU 就能微调 128k 上下文。

CreditDecoding: Accelerating Parallel Decoding in Diffusion Large Language Models with Trace Credit

本文提出 CreditDecoding,一种无需训练的并行解码加速方法,通过累积 token 级历史证据(轨迹信用)来增强正确但置信度不足的 token,在 LLaDA-8B-Instruct 上实现最高 5.48 倍加速且准确率提升 0.48。

Lizard: An Efficient Linearization Framework for Large Language Models

Lizard 用一个"Gated Linear Attention(全局压缩)+ Anchor Window Attention(局部精度)+ 可学习 gate 替代 RoPE"的混合 subquadratic 注意力替换预训练 Transformer 的 softmax attention,只用 0.04B token 蒸馏就能在 5-shot MMLU 上把现有 linearization 方法甩开 9.4–24.5 分,并配套一个 tensor-core 友好的训练算法把吞吐量提升 32%。

MTRouter: Cost-Aware Multi-Turn LLM Routing with History-Model Joint Embeddings

MTRouter把多轮Agent中的“每一轮该调用哪个LLM”建模为成本约束下的逐轮路由问题,通过历史-模型联合嵌入预测候选模型对最终任务结果的贡献,在ScienceWorld和HLE上同时提升任务表现并显著降低总调用成本。

Multi-Drafter Speculative Decoding with Alignment Feedback

本文提出 MetaSD,一个将多个异构草稿器整合到推测解码中的统一框架,将草稿器选择建模为多臂赌博机问题,通过块散度(Block Divergence)奖励信号动态选择与目标 LLM 最对齐的草稿器,在黑盒和白盒配置下一致优于单草稿器方法。

查看全部23篇「LLM 效率」论文 →


📚 预训练 (12)

Compact Example-Based Explanations for Language Models

本文提出选择相关性分数(Selection Relevance Score),一种无需重训练的指标来评估训练样本子集作为示例解释的质量,并证明常见的"选最高影响力"策略常不如随机选择,进而提出平衡影响力与代表性的新策略。

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

本文提出 Data Mixing Agent,首个基于模型的端到端领域重加权框架,通过在大量数据混合轨迹上使用 CQL 强化学习训练小型代理来学习可泛化的数据混合启发式,在数学推理持续预训练中平衡源领域和目标领域性能,且可泛化到未见过的源领域、目标模型和领域空间。

Demystifying Data Organization for Enhanced LLM Training

这篇论文系统研究 LLM 训练中“样本出现顺序”的影响,复用已有样本级质量/难度分数,提出边界强化、循环复习、连续课程和局部多样性四条数据组织原则,并用 STR 与 SAW 在预训练和 SFT 中稳定提升性能。

Fine-tuning vs. In-context Learning in Large Language Models: A Formal Language Learning Perspective

作者用概率层级化上下文无关文法 (HPCFG) 构造一组"无污染、有边界、可精确采样"的形式语言作为受控测试床,并提出"判别式 AUC 测试"作为统一指标,在 18 个 LLM、6 个家族、6 种语言上系统比较 FT 与 ICL:FT 在 in-distribution 上稳定胜出,但在 out-of-distribution 上两者打平,ICL 的归纳偏置与 FT 相近但对 token 敏感得多。

FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning

作者把 Ebbinghaus 遗忘曲线的"间隔回放"思路从"训练步数"重新对齐到"模型时间" (parameter update norm \(\Delta_t = \|\Theta_t - \Theta_{t-1}\|_2\) 累积)——既用累积模型时间 \(\tau_t\) 决定何时回放,又用最近更新强度 \(\mu_t\) 与基线 \(\mu_0\) 的不稳定比 \(r_t\) 自适应控制如何回放 (regularization 强度);在 3 个 CL 基准、4 种 backbone (0.6B–13B) 上一致超越 SOTA,OP +1.2%、BWT +0.9% vs 最强 baseline VBM。

Is a Document Educational or Just Wikipedia-Style? -- Pitfalls of Classifier-Based Quality Filtering

这篇论文发现Classifier-based Quality Filtering会把“Wikipedia式写法”误当成“更有教育价值”,简单改写就能让低质量网页越过预训练数据过滤阈值,FineWeb-Edu约7%的样本会因此翻转过滤决策。

KoCo: Conditioning Language Model Pre-training on Knowledge Coordinates

提出知识坐标条件化预训练(KoCo),将每个文档映射为三维语义坐标(来源、内容、稳定性),作为文本前缀注入预训练,使模型获得显式的上下文感知能力,在 10 个下游任务上提升性能、加速收敛约 30%,并有效缓解幻觉。

On the Proper Treatment of Units in Surprisal Theory

这篇论文指出 surprisal theory 中“下一个单位”的单位选择一直被预训练语言模型 tokenizer 悄悄决定,因而提出一个把模型 token、语言学单位和实验 ROI 明确分离的有限状态转导框架,并在 MECO 眼动数据上验证不同单位库存会改变 surprisal 对阅读时间的预测问题本身。

SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization

本文提出 SAGE 优化器,通过 Lion 风格的符号更新方向和一个 \(O(d)\) 内存开销的自适应阻尼缩放因子,解决了轻量级优化器在嵌入层上失败的"嵌入层困境",在 Llama 模型(最大 1.3B)上以显著更低的优化器内存达到新的 SOTA 困惑度。

SCRIPT: A Subcharacter Compositional Representation Injection Module for Korean Pre-Trained Language Models

本文提出 SCRIPT,一个模型无关的即插即用模块,通过双通道策略将韩文 Hangul 的子字符(Jamo)组合知识注入现有子词级 PLM 的嵌入层,无需重新预训练即可在韩语 NLU/NLG 任务上获得一致提升,并使嵌入空间更好地捕捉语法规律和语义变化。

查看全部12篇「预训练」论文 →


✏️ 知识编辑 (10)

Aligning Language Models with Real-time Knowledge Editing

引入CRAFT(持续更新的中文金融知识编辑数据集)和KEDAS(基于多样化编辑增强和自适应推理的知识编辑对齐范式),解决现有知识编辑方法在实时场景中成功率-局部性-可迁移性难以兼顾的问题。

Can Factual Opinions Be Edited (Manipulated) in Large Language Models?

本文指出现有知识编辑技术不仅能改原子事实、还能被用来篡改"公众人物的记录立场"(factual opinion),为此构建了带证据的 FOE 基准,并发现现有方法只能做到"表面改观点、证据却前后矛盾",进而提出一个两阶段的 Self-Generated Evidence-Aligned 方法,让编辑后的模型在不依赖显式指令的情况下也能自圆其说地给出与篡改观点一致的证据。

CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing

CLARE 提出了一种轻量级的表示层面方法,通过单个中间层的前向激活量化事实间的纠缠程度,用于预测模型编辑的连锁效应,相比梯度方法平均提升 62.2% Spearman 相关性,同时快 2.74 倍、内存减少 2.85 倍。

EvoEdit: Evolving Null-space Alignment for Robust and Efficient Knowledge Editing

提出 EvoEdit,通过动态演化零空间投影器实现大规模序列知识编辑,在保持原有知识的同时高效注入新知识,在 10K 编辑量级下仍保持 SOTA 性能,且比 AlphaEdit 快 3.5 倍。

FABLE: Fine-grained Fact Anchoring for Unstructured Model Editing

本文发现现有非结构化模型编辑方法虽能整体性回忆编辑文本但无法进行细粒度事实访问,提出FABLE框架通过两阶段层次化策略将细粒度事实锚定到浅层、整体性叙事整合到深层,并构建UnFine诊断基准进行系统评估。

HiEdit: Lifelong Model Editing with Hierarchical Reinforcement Learning

HiEdit 用分层强化学习把"终身模型编辑"拆成 high-level 选层 + low-level 算梯度更新两个子任务,让 hypernetwork 按知识自适应地只动一半的层,把强基线 RLEdit 平均再提 8.48%。

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

这篇论文发现 ROME / MEMIT 并没有真正覆盖旧知识,而是通过共享的过度注意力机制压制旧知识;一个稀疏二值 mask 就能反转多数编辑,并把新编辑成功率从 98% 降到 38%。

Representation Interventions Enable Lifelong Knowledge Memory Control in LLMs

这篇论文提出 RILKE,把终身知识编辑从“改模型权重”转成“在隐藏表示空间施加低秩干预”,通过鲁棒训练、查询自适应路由和共享子空间模块,在 1,000 次非结构化知识编辑后仍保持接近满分的编辑成功率和较好的泛化能力,同时显著降低存储开销。

Spectral Characterization and Mitigation of Sequential Knowledge Editing Collapse

论文从 SVD 谱结构解释顺序知识编辑为何会让 LLM 一般能力崩溃,并提出 REVIVE,在原始权重的奇异向量基中滤除会干扰 dominant singular subspace 的更新分量,使 MEMIT、RECT、AlphaEdit 等编辑器在 10,000 到 20,000 次连续编辑下同时保持编辑成功率和通用能力。

The Model Agreed, But Didn't Learn: Diagnosing Surface Compliance in Large Language Models

提出 SA-MCQ 诊断框架揭示知识编辑中的"表面合规"现象——编辑器在标准基准上达到高分但并未真正覆写内部信念,模型在判别式自评中会回退到原始参数记忆,递归编辑还会累积表征残留导致认知不稳定。


💬 LLM 其他 (61)

A Study of LLMs' Preferences for Libraries and Programming Languages

首次系统研究8个LLM在代码生成中对库和编程语言的偏好行为,发现LLM严重偏好NumPy等流行库(45%的使用不必要)和Python语言(58%的高性能任务仍选Python),且自然语言推荐与实际代码选择不一致。

Adam's Law: Textual Frequency Law on Large Language Models

本文提出"文本频率定律"(TFL),发现当语义相同时,使用更高频率的文本表达来提示或微调LLM能获得更好效果,并设计了频率蒸馏和课程训练策略来进一步利用该规律。

AlphaContext: An Evolutionary Tree-based Psychometric Context Generator for Creativity Assessment

提出 AlphaContext,一个基于进化树的心理测量情境生成器,通过 HyperTree 大纲规划、MCTS 逐句生成、MAP-Elites 多样性优化和评估引导迭代精炼四个模块,自动生成用于创造力评估的高质量长文本情境,在 7 个评估维度上平均超越竞争方法 8%。

An Existence Proof for Neural Language Models That Can Explain Garden-Path Effects via Surprisal

通过在花园路径句上微调神经语言模型,证明了存在一个神经 LM 能够通过惊奇度(surprisal)同时解释花园路径效应和自然阅读时间,为惊奇度理论提供了存在性证明。

Automatic Combination of Sample Selection Strategies for Few-Shot Learning

本文提出 ACSESS 方法,通过前向选择、后向选择和 Datamodels 三种机制自动识别互补的样本选择策略并加权组合,在 23 种策略、5 个 ICL 模型和 3 种梯度少样本学习方法、6 个文本和 8 个图像数据集上验证了组合策略一致优于单一策略和 ICL 专用基线。

Big AI is Accelerating the Metacrisis: What Can We Do?

Steven Bird 在这篇 ACL 2026 立场论文里论证:"Big AI"(少数巨头驱动的工业化 LLM 工程)正在同时加速 3 大相互纠缠的危机——生态危机 / 意义危机 / 语言危机——而 ACL 作为最大 LLM 研究发表方,必须从"个人合规"转向"职业共同体集体行动",并提出 7 项面向 ACL 的具体改革建议(重申公共利益优先、抵御 corporate capture、保护批判性 NLP、设立 NLP policy track 等)。

C-World: A Computer Use Agent Environment Creator

作者将"agent 环境"形式化为 Action / Task / Transition / Reward 四元组并实现为 C-World:用 5,571 个真实 MCP 工具 + 自动任务合成 + state controller 扰动 + 双信号 reward 提供高保真评测,又用一个"World Engine"在无 live API 下模拟工具响应实现可规模化训练;评测 9 个前沿 LLM 发现"规划普遍强、执行普遍弱",仅用 1,170 条 C-World 轨迹微调即可超过用 119k 样本训练的 baseline。

Can AI Be a Good Peer Reviewer? A Survey of Peer Review Process, Evaluation, and the Future

作者系统综述了 LLM 时代 AI 辅助 peer review 全流程的方法:把"review 生成"分为 fine-tuning / agent / RL / 生成增强 四大范式,把"after-review"分为 rebuttal / meta-review / paper revision 三类,再给出"human / reference-based / LLM-based / aspect-oriented"四象限评测分类法,最后从 novelty、自动评测、跨域、多模态、伦理 6 个方向讨论未来。

CAST: Achieving Stable LLM-based Text Analysis for Data Analytics

提出CAST框架,通过算法提示(Algorithmic Prompting)和先思考后输出(Thinking-before-Speaking)两种机制约束LLM的潜在推理路径,显著提升文本摘要和标注任务的运行间稳定性,同时不损失输出质量。

Characterizing the Expressivity of Local Attention in Transformers

作者用线性时序逻辑(LTL)作为统一刻画工具,严格证明 global-only Transformer ↔ \(\mathrm{LTL}[\mathrm{P}]\)\(k\)-local-only ↔ \(\mathrm{LTL}[\mathrm{Y}^{\leq k}]\)、global+local 混合 ↔ \(\mathrm{LTL}[\mathrm{P}, \mathrm{Y}^{\leq k}]\),并由此证明 local 与 global 表达力互不包含、混合严格更强、1-local 是 local 家族里表达力最强,最后在合成正则语言和 WikiText-2 上经验验证理论预测。

查看全部61篇「LLM 其他」论文 →


📖 NLP 理解 (34)

A Computational Method for Measuring "Open Codes" in Qualitative Analysis

提出一种基于理论的计算方法,通过LLM增强的代码合并算法和四个无需ground truth的指标(Coverage, Overlap, Novelty, Divergence),系统评估人类和AI在归纳定性编码中的表现。

Accurate and Efficient Statistical Testing for Word Semantic Breadth

本文指出"在上下文嵌入空间用置换检验直接比较两个词的语义广度"会因均值方向差异而严重虚高 Type-I 错误,提出用 Householder 反射先对齐均值方向再做置换的方法,把 Type-I 错误降低 32.5%,并给出 GPU 批量化实现实现 23 倍加速。

AdapTime: Enabling Adaptive Temporal Reasoning in Large Language Models

本文提出 AdapTime,把"时间推理"抽象为 reformulate / rewrite / review 三个可复用的原子动作,由 LLM Planner 根据问题与上下文自适应决定执行哪几步、按什么顺序执行,无需任何外部工具、手工规则或微调即可显著提升 LLM 在时序 QA 上的表现,在 DeepSeek-V3 上把 TimeQA-Easy 推到 85.4 EM。

Agree, Disagree, Explain: Decomposing Human Label Variation in NLI through the Lens of Explanations

将LiTEx推理分类法从"标签一致下的解释变异"扩展到"标签不一致"场景,发现标注者可能标签不同但推理类似,推理类别的一致性比标签一致性更好地反映解释的语义相似度。

ASTRA: Adaptive Semantic Tree Reasoning Architecture for Complex Table Question Answering

ASTRA 把复杂表格自适应重构为语义树,再用文本树导航和符号代码执行双模式推理回答问题,在 AIT-QA、SSTQA 和 HiTab 上分别达到 91.6%、81.9% 和 90.1% 准确率,超过强 LLM 和已有表格结构化方法。

Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering

用修辞结构理论(RST)解析长文档的篇章结构,构建一棵句子级层级树并对中间节点做 LLM 摘要增强,最后在树上做结构感知的多粒度检索,使长文档 QA 在 QASPER / QuALITY / NarrativeQA / MultiFieldQA-zh 四个 benchmark 一致超越固定切块和 RAPTOR 语义聚类。

BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation

BoundRL 将结构化文本分割重新定义为边界生成任务——仅生成每个片段的起始 token 而非完整文本,减少 90% 的输出 token 并消除幻觉风险,结合双目标奖励函数和选择性扰动策略的 RLVR 训练,使 1.7B 小模型超越了 Claude-4 Sonnet 的 few-shot 表现。

Can LLMs Estimate Cognitive Complexity of Reading Comprehension Items?

这篇论文构建 ReCo 阅读理解认知复杂度数据集,并系统评估 8 个 LLM 是否能自动判断题目所需的证据范围和表述转换层级,结果显示强模型能接近但仍明显低于专家,尤其不擅长识别完整证据集合和细粒度词序转换。

Commonsense Knowledge with Negation: A Resource to Enhance Negation Understanding

提出自动为现有常识知识库增添否定的方法,构建超过 200 万三元组的否定常识语料库(¬Atomic 和 ¬Anion),并证明在其上预训练可以提升 LLM 的否定理解能力。

Creating ConLangs to Probe the Metalinguistic Grammatical Knowledge of LLMs

本文提出 IASC(Interactive Agentic System for ConLangs),一个模块化的人造语言构建系统,通过让 LLM 按语言学规格执行形态句法变换来探测其元语言知识,发现 LLM 处理常见语言类型模式远优于罕见模式,且不同 LLM 之间能力差异悬殊。

查看全部34篇「NLP 理解」论文 →


✍️ 文本生成 (17)

Adaptive Planning for Multi-Attribute Controllable Summarization with Monte Carlo Tree Search

本文提出 PACO,把"多属性可控摘要"重新表述为一个寻找"属性控制顺序"的规划问题,并用一个定制的 Monte Carlo Tree Search(节点是完整摘要、动作是单属性调整)在 prompt 阶段就找到最优调整路径,无需任何属性专用训练,用 Llama-3.2-1B 即可达到 Llama-3.3-70B baseline 的可控性,70B+PACO 全面超越所有现有方法。

Are Emotion and Rhetoric Neurons in LLM? Neuron Recognition and Adaptive Masking for Emotion-Rhetoric Prediction Steering

系统研究LLM中情感和修辞神经元的表征机制及其内在关联,提出结合多维筛选的神经元识别框架和自适应遮蔽验证方法,实现了情感/修辞预测的定向诱导和修辞神经元辅助情感识别。

Can You Make It Sound Like You? Post-Editing LLM-Generated Text for Personal Style

作者设计一项 81 人预注册在线研究,让被试用 GPT-o4-mini 起草+人工 post-edit 重写婚礼誓词、道歉信等"在意个人风格"的文本,发现 post-edit 确实能显著拉近被试自身风格、远离 LLM 风格,但被编辑后的文本仍系统性地比独立写作更"AI 味"——而被试自己却感知不到这种残留风格痕迹。

Children's English Reading Story Generation via Supervised Fine-Tuning of Compact LLMs with Controllable Difficulty and Safety

作者用 UFLI K–2 英语阅读课程对应的 2,580 篇 GPT-4o / Llama-3.3-70B 生成故事,对三个 8B 模型(Llama 3 / Granite 3.3 / Apertus)做 4 种 SFT 设计(baseline / Good Stories / Rewarded SFT / 模拟儿童读音错误),证明 小模型 + 合适 SFT 策略 可在 Spache 可读性、句法复杂度、毒性等 K-2 关键指标上超过 zero-shot GPT-4o 与 Llama-3.3-70B,其中 Rewarded SFT 最稳定、几乎无幻觉。

ConlangCrafter: Constructing Languages with a Multi-Hop LLM Pipeline

本文提出 ConlangCrafter,一个基于 LLM 的多跳管道,将构造语言(conlang)设计分解为音系、语法、词汇三个模块化阶段,通过随机性注入保证类型学多样性、通过自精炼循环保证内部一致性,并提出了一个包含类型学多样性分析和翻译一致性评估的自动评估框架。

Difficulty-Controllable Cloze Question Distractor Generation

这篇论文提出 DCDG,通过双路干扰项数据增强、QA ensemble 难度聚类和多任务 seq2seq 训练,让完形填空干扰项生成模型可以按 easy/hard 控制难度,并在自动与人工评测中明显优于 GPT-4o。

EDUMATH: Generating Standards-aligned Educational Math Word Problems

作者把"按 K-12 数学课程标准生成应用题(MWP)"任务系统化,搜集了 11,000+ 由真实美国教师标注的 MWP 训练数据 STEM,用 SFT + KTO + ModernBERT 过滤训出 EDUMATH-12B/30B 两个开源 SOTA 生成器,并在 3-5 年级真实学生身上做了第一个 RCT,发现学生在 LLM 题与人写题上正确率相当但几乎一致偏好定制 LLM 题

FACTS: Table Summarization via Offline Template Generation with Agentic Workflows

本文提出 FACTS(Fast, Accurate, and Privacy-Compliant Table Summarization),通过三阶段 Agentic 工作流自动生成可复用的离线模板(SQL 查询 + Jinja2 模板),实现快速、准确、隐私合规的查询聚焦表格摘要,在 FeTaQA、QTSumm 和 QFMTS 三个基准上全面超越基线。

Frankentext: Stitching Random Text Fragments into Long-Form Narratives

提出Frankentext范式,让LLM在极端约束下(90%文本逐字复制自人类写作)拼接随机人类文本片段为连贯长篇叙事,揭示现有AI文本检测器在混合作者场景下的严重失败(72%的Frankentext被误判为人类写作)。

In-depth Research Impact Summarization through Fine-Grained Temporal Citation Analysis

这篇论文提出“科研影响力摘要”任务:先从论文的引文上下文中识别真正揭示影响的细粒度意图,再生成随时间演化的影响力叙事,比单纯引用数更能说明一篇论文如何被后续工作采用、批评和改造。

查看全部17篇「文本生成」论文 →


🗣️ 对话系统 (26)

APEX-MEM: Agentic Semi-Structured Memory with Temporal Reasoning for Long-Term Conversational AI

把对话长期记忆建成"领域无关本体支撑的属性图 + 只追加事件存储 + ReAct 多工具检索代理"三件套——构建时永不覆盖、检索时再做时序冲突解析,在 LOCOMO 拿到 88.88%(比 MIRIX 高 3.5 个点)、LongMemEval 拿到 86.2%(比最强 RAG baseline 高 13.7 个点)。

Author-in-the-Loop Response Generation and Evaluation: Integrating Author Expertise and Intent in Responses to Peer Review

本文将学术论文作者回复(rebuttal)生成重新定义为"作者在回路"任务,提出 Re3Align 数据集(3.4K 论文、440K 句级编辑标注、15K 审稿-回复-修改三元组)、REspGen 可控生成框架和 REspEval 20+ 指标评估套件,在 5 个 SOTA LLM 上系统验证了作者输入、可控性和评估引导精修的效果。

Codebook-Injected Dialogue Segmentation for Multi-Utterance Constructs Annotation: LLM-Assisted and Gold-Label-Free Evaluation

论文把 dialogue act 标注重新定义为"先分段、再贴标签"的两步问题,提出 codebook-injected 的 LLM 分割(System 1)和 Dial-Start 的 DA-aware 检索增强(System 2)两种方案,并给出无需 gold boundary 的三类评测指标(segment 内一致性 / 相邻段差异性 / 人-AI 分布对齐),在 TalkMoves 和 CLASS-annotated 两套教学对话上证明:DA-aware 提示能让 LLM 切出更同质的 segment,但和 coherence-based baseline 各占不同评测维度,没有单一最优。

CoDial: Interpretable Task-Oriented Dialogue Systems Through Dialogue Flow Alignment

本文提出 CoDial,一个将预定义的对话流(task schema)转换为结构化异构图再自动生成 LLM 护栏代码(如 Colang)的框架,在推理阶段实现可解释且可控的任务型对话策略,在 STAR 基准上达到 SOTA,且无需训练数据。

Cognitive Policy-Driven LLM for Diagnosis and Intervention of Cognitive Distortions in Emotional Support Conversation

提出CoPoLLM框架,通过构建首个带认知扭曲标注的情感支持对话数据集CogBiasESC,结合认知策略强化学习(CPRL)引擎和双流条件优化(DSCO),使LLM能诊断8类认知扭曲并生成策略感知的干预回复,在15个SOTA基线上全面领先。

Context-Agent: Dynamic Discourse Trees for Non-Linear Dialogue

作者提出 Context-Agent,把多轮对话历史建模为"话题树森林"(每棵树代表一个独立话题、每条分支代表一次指令细化/分叉),按导航意图而非语义相似度组织节点,并配套提出 NTM 基准评测非线性长程对话,在多种 LLM 上同时提升任务完成率并降低 token 消耗。

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

提出 DiaFORGE 框架,通过消歧中心的合成数据生成管线 + 推理链微调 + 动态评估体系,让开源 LLM 在面对近重复企业 API 时的工具调用成功率比 GPT-4o 高 27 个百分点、比 Claude-3.5-Sonnet 高 49 个百分点。

Discourse Coherence and Response-Guided Context Rewriting for Multi-Party Dialogue Generation

本文提出 DRCR,首个将上下文改写引入多方对话生成的框架,使用话语连贯性和回复质量双反馈信号构建偏好数据,通过动态自演化学习让改写器和回复器在迭代训练中相互增强。

Dual Hierarchical Dialogue Policy Learning for Legal Inquisitive Conversational Agents

作者把"美国最高法院法官审律师"这种"AI 主动提问、对方未必合作"的对话定义为 Inquisitive Dialogue,提出 Dual Hierarchical RL 框架——一个 Appraisal Agent 实时打分律师回答(9 种 appraisal 类)、一个 Hierarchical Dialogue Agent 在三层(act/subtype/utterance)Poincaré 动作空间上做 DDQN 选 act,再叠加目标相关性/新颖性/简洁性三重 reward 与一个 conservative 正则项,在 Oyez Supreme Court 数据集上把 PES(探查有效性)从 baseline 的 4.22 推到 4.47,多轮 Coverage / MR 都最高。

ETHICMIND: A Risk-Aware Framework for Ethical-Emotional Alignment in Multi-Turn Dialogue

ETHICMIND 提出推理时(inference-time)的风险感知对齐框架,在多轮对话的每一轮中联合分析伦理风险和用户情感,规划高层响应策略,再生成兼顾伦理引导和情感共鸣的回复,无需额外训练即可在高风险和道德模糊场景中实现更一致的对齐表现。

查看全部26篇「对话系统」论文 →


🌐 多语言/翻译 (63)

A Multilingual Dataset and Empirical Validation for the Mutual Reinforcement Effect in Information Extraction

构建首个多语言MRE Mix数据集(MMM,21个子集覆盖英中日),并通过大规模消融实验系统验证了词级与文本级信息抽取任务的互增强效应(MRE)跨语言普遍存在。

Alexandria: A Multi-Domain Dialectal Arabic Machine Translation Dataset for Culturally Inclusive and Linguistically Diverse LLMs

Alexandria 构建了覆盖 13 个阿拉伯国家、11 个社会影响领域、107K 轮次的多轮对话方言阿拉伯语-英语平行数据集,通过社区驱动的人工翻译与修订流程,为方言阿拉伯语机器翻译提供了前所未有的细粒度训练和评测资源,并在 24 个 LLM 上进行了系统性基准评估。

BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation

本文提出 BabelDOC:一个基于「中间表示(IR)」的版式保持 PDF 翻译系统,把视觉布局和语义内容解耦,让 LLM 翻译、术语提取、跨页上下文、公式占位等 NLP 操作发生在语义层,再用自适应排版引擎重新锚回原版式;在 200 页基准上 BIoU、layout fidelity、术语一致性都超过 PDFMathTranslate 和 DeepL Document Translation。

Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation

构建非字面翻译元评估数据集 MENT(7,530 条人工标注),揭示传统指标和 LLM-as-Judge 在非字面翻译评估上的不可靠性,并提出 RATE 智能体评估框架,通过反思核心智能体动态调用子智能体,提升 3.2+ 点人类判断相关性。

BhashaSutra: A Task-Centric Unified Survey of Indian NLP Datasets, Corpora, and Resources

首篇专门针对印度语言NLP资源的统一综述,覆盖200+数据集、50+基准、100+模型/工具,按17个任务类别组织(从核心语言处理到社会文化任务),系统分析了语言覆盖不均、标注碎片化、评估不一致等持续挑战。

CLewR: Curriculum Learning with Restarts for Machine Translation Preference Learning

本文提出 CLewR(Curriculum Learning with Restarts),一种在偏好优化训练中按易到难排序并在每个 epoch 重启课程的策略,有效缓解灾难性遗忘问题,在多个模型家族(Gemma2、Qwen2.5、Llama3.1)和多种偏好优化算法(DPO、CPO、ARPO)上持续提升机器翻译性能。

Cross-Cultural Transfer of Emoji Semantics and Sentiment in Financial Social Media

在 4 语种 / 2 平台 / 2 资产类的 1 亿条金融微博上系统比较 emoji 的频率、语义和情感极性,发现 emoji 频率因语言/平台差异大但语义和极性高度稳定,并据此在零样本情感迁移上验证:把 emoji 加入文本能稳定地把 cross-platform transfer gap 从最高 21% 降到接近 0%。

DFKI-MLT at SemEval-2026 TASK 7: Steering Multilingual Models Towards Cultural Knowledge

这篇 SemEval 系统论文用 FLORES 平行语料提取语言方向,在推理时向多语言 LLM 的 residual stream 注入 language steering vector,最终 MCQ 官方成绩为 86.96% accuracy、17 队第 7,但后验分析显示增益高度依赖层、prompt、模型和 locale。

Digitizing Nepal's Written Heritage: A Comprehensive HTR Pipeline for Old Nepali Manuscripts

首个端到端的古尼泊尔语手写文本识别 (HTR) 完整 pipeline:用 "合成 Devanagari → 印刷 Nagari → 古尼泊尔手稿" 三阶段迁移学习 + 20 种数据增强 + 字节级 BPE + script-aware decoder,把 CER 从 fine-tuned TrOCR baseline 的 9.6% 降到 4.9%,并开源代码、模型与 Streamlit web 应用。

Efficient Low-Resource Language Adaptation via Multi-Source Dynamic Logit Fusion

TriMix 把 LRL(低资源语言)适配拆解为"语言能力 + 任务能力 + scaling 红利"三股 logit benefit vector,仅对小模型做连续预训练即可,在推理时按 perplexity 动态决定权重,于 4 个模型家族 × 8 种 LRL 上一致超越单模型 baseline 和 Proxy Tuning,且核心实证发现"应让小 CPT 模型权重高于大指令模型"——直接挑战了 Proxy Tuning 默认的"大模型主导"假设。

查看全部63篇「多语言/翻译」论文 →


🔍 信息检索/RAG (73)

A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval

通过精心设计的金融文档诊断 benchmark(单数字扰动 + 文本掩码),实证证明「把 VLM 的 patch tokens 聚合成单向量」会让 $1.2M vs $7.2M 这种语义巨大差异坍缩成 cosine 相似度 > 0.99 的几乎相同向量,根因是「全局纹理主导」,多种缓解策略和 retrieval-tuned embedding 都救不回来。

A Survey of Reasoning-Intensive Retrieval: Progress and Challenges

本文系统梳理了"推理密集型检索 (Reasoning-Intensive Retrieval, RIR)"这一新方向,按 query/index/retriever/reranker/迭代 这条流水线给出了第一份完整的 benchmark-方法-挑战 三段式综述,并指出现有评测过度依赖 nDCG 等传统 IR 指标。

Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning

提出ConvAgent,通过将RL训练奖励分解为结果奖励、信息增益奖励和混合主动行为奖励三个互补组件,训练对话式搜索智能体在多轮交互中交替进行搜索和推理。

All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG

系统揭示多语言 RAG 系统在重排序阶段存在严重的语言偏差(偏好英语和查询语言),提出 LAURA 框架通过下游生成质量驱动的监督信号对齐重排序器,有效缓解偏差并提升生成性能。

An Iterative Utility Judgment Framework Inspired by Philosophical Relevance via LLMs

受Schutz哲学相关性理论启发,提出ITEM迭代效用判断框架,通过让RAG中的三个组件(相关性排序、效用判断、答案生成)动态交互增强,在检索、效用判断和QA任务上均优于基线。

AuthorityBench: Benchmarking LLM Authority Perception for Reliable Retrieval-Augmented Generation

AuthorityBench 用 10K 网页域名(PageRank 真值)+22K 实体(Wikipedia 跨语言 sitelink 真值)+120 RAG 问题构造首个 LLM「权威感知」基准,发现 ListJudge / PairJudge + PointScore 输出最准,加入网页文本反而拖后腿,且把权威信号用作 RAG 过滤能把答案准确率最多提 14 个百分点。

Bayesian Active Learning with Gaussian Processes Guided by LLM Relevance Scoring

提出 BAGEL,一个基于高斯过程(GP)的贝叶斯主动学习框架,在有限 LLM 预算下通过探索-利用平衡策略传播稀疏 LLM 相关性信号,实现全局嵌入空间的段落检索,显著超越传统 LLM 重排序方法。

Benchmarking and Enabling Efficient Chinese Medical Retrieval via Asymmetric Encoders

提出 CMedTEB(中文医学文本嵌入基准)和 CARE(非对称检索框架),前者通过多 LLM 投票+专家验证构建高质量的中文医学检索/重排/STS 基准,后者用轻量 BERT 编码查询+大型 LLM 编码文档的非对称架构,通过两阶段渐进对齐策略实现 LLM 级检索精度+BERT 级在线延迟。

Beyond Black-Box Interventions: Latent Probing for Faithful Retrieval-Augmented Generation

提出 ProbeRAG,通过发现 LLM 隐空间中冲突/对齐知识的线性可分性,设计三阶段框架(细粒度知识剪枝→隐空间冲突探测→冲突感知注意力),从模型内部机制解决 RAG 忠实性问题。

Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking

T2RAG 把 RAG 的最小检索单元从"文本块/知识图谱节点"换成原子三元组:离线把语料抽成一堆三元组命题建索引,在线则让 LLM 把问题分解成带 ? 占位符的可搜索三元组、迭代地从三元组库里检索证据填空,直到所有占位符解完再生成答案——在六个数据集上平均提升最多 11%,同时检索成本降低最多 45%。

查看全部73篇「信息检索/RAG」论文 →


💻 代码智能 (49)

Across Programming Language Silos: A Study on Cross-Lingual Retrieval-Augmented Code Generation

首次系统研究跨编程语言的检索增强代码生成(RACG),构建覆盖13种编程语言的14K实例数据集,揭示跨语言知识迁移的不对等性及其与语言亲缘性和预训练多样性的关系。

AutoMonitor-Bench: Evaluating the Reliability of LLM-Based Misbehavior Monitor

本文构建首个系统性评测「LLM 监控器是否能可靠识别模型不当行为」的基准 AutoMonitor-Bench(3,010 个配对样本,覆盖安全违规 / 谄媚偏见 / 规约博弈三类),在 22 个开闭源监控模型上揭示了漏检率(MR)与误报率(FAR)之间的系统性 trade-off,并通过 153k 样本 SFT 实验证明:在易构造不当行为上微调难以泛化到隐式的规约博弈。

Benchmarking Testing in Automated Theorem Proving

借鉴软件工程「集成测试」思想,把生成定理的语义正确性判定为「所有依赖于它的后继定理是否仍能编译通过」,构建 2206 题的 Lean 4 基准 T2,揭示出主流 LLM 编译通过率 80%+ 但语义正确率只有 ~39% 的巨大缝隙。

Bootstrapping Code Translation with Weighted Multilanguage Exploration

BootTrans 提出了一种自举式多语言代码翻译方法,通过利用单一枢纽语言(Python)的测试用例作为跨语言验证预言,结合双池架构进行经验收集扩展训练数据,并设计语言感知加权机制动态优先处理困难的翻译方向,在 HumanEval-X 和 TransCoder-Test 上显著超越基线。

Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility

本文提出 RoundTripCodeEval (RTCE):用 4 种无损压缩算法(LZW/AE/RLE/Huffman)构造 250 输入 × 4 子任务 = 1000 个严格回环(encode→decode 必须 bit-精确还原)的代码推理基准,结果显示即使是 QwQ-32B 在 Huffman 编码上 EM 仍为 0%,SFT 和 self-reflection 都救不回来。

ChatHLS: Towards Systematic Design Automation and Optimization for High-Level Synthesis

ChatHLS 提出了一个多智能体 HLS 设计框架,通过 HLSTuner(QoR 感知推理优化指令选择)和 HLSFixer(分层反馈增强的调试框架)两个核心组件,结合自进化错误用例扩展机制(VODA),在 HLS-C 生成成功率和硬件性能优化上显著超越基线。

ChipSeek: Optimizing Verilog Generation via EDA-Integrated Reinforcement Learning

ChipSeek 提出了一个将 EDA 工具链直接集成到训练循环中的分层奖励 RL 框架,通过课程引导的动态策略优化(CDPO)使 LLM 能够生成同时满足功能正确性和 PPA(功耗-性能-面积)优化的 RTL 代码,在标准基准上达到 SOTA。

CodeDistiller: Automatically Generating Code Libraries for Scientific Coding Agents

CodeDistiller 自动把科学领域 GitHub 仓库蒸馏成可运行、经调试的示例代码库,让 Code-RAG 式科学发现智能体能调用真实领域工具;在 250 个材料科学仓库上,最佳模型的人工验证正确功能率达到 74.1%,下游发现任务也更受专家偏好。

CodeRL+: Improving Code Generation via Reinforcement with Execution Semantics Alignment

本文提出 CodeRL+,将执行语义对齐集成到 RLVR 训练管道中,通过让模型推断变量级执行轨迹来弥合代码文本表示与执行语义之间的差距,在代码生成上平均 pass@1 提升 4.6%,在代码推理和测试输出生成基准上分别提升 15.5% 和 4.4%。

CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases

提出 CodeWiki,一个基于层次化分解和递归多智能体处理的开源框架,用于自动生成仓库级代码文档,并构建了 CodeWikiBench 基准,在七种编程语言上以 68.79% 的质量分数超越了闭源系统 DeepWiki(64.06%)。

查看全部49篇「代码智能」论文 →


🎨 图像生成 (5)

ANCHOR: LLM-driven Subject Conditioning for Text-to-Image Synthesis

这篇论文提出 ANCHOR 数据集,用 70K+ 来自 5 家新闻媒体的抽象 caption 暴露 T2I 模型在多主体、上下文推理和细粒度 grounding 上的失败,并提出 SAFE 用 LLM 抽取关键主体、在 embedding 层强化主体表示来提升图文一致性。

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

本文提出 FLUID,用严格因果注意力和熵感知 Elastic Horizon 把预训练自回归 LLM 高效适配为扩散式并行生成模型,在只用 2.7B 适配 tokens 的情况下取得接近强 AR 模型、优于现有扩散基线的推理和代码生成表现。

MENTOR: Efficient Autoregressive Image Generation with Balanced Multimodal Control

MENTOR 用统一自回归 decoder 和两阶段多模态训练,把参考图像与文本指令对齐到同一生成前缀中,在仅 3M 训练数据和 8 张 A100 约 1.5 天训练预算下,取得了较好的概念保持与 prompt following 平衡。

Multimodal Large Language Models for Multi-Subject In-Context Image Generation

这篇论文提出 MUSIC,把多模态大语言模型的视觉推理能力引入多主体 in-context 图像生成,通过自动合成训练数据、视觉 CoT 和语义驱动空间布局规划,显著缓解多个参考主体同时生成时的主体遗漏、身份混淆和语义漂移问题。

Think Bright, Diffuse Nice: Enhancing T2I-ICL via Inductive-Bias Hint Instruction and Query Contrastive Decoding

这篇论文提出训练无关的 TBDN 框架,用 Hint Instruction 让 LVLM 更关注最终 query,用 Query Contrastive Decoding 抑制先验幻觉,再把更准确的文本描述交给扩散模型,在 CoBSAT 和 T2I Fast Mini-ImageNet 上显著提升文本到图像上下文学习性能。


🎬 视频生成 (4)

Accelerating Training of Autoregressive Video Generation Models via Local Optimization with Representation Continuity

提出 Local Optimization + Representation Continuity (ReCo) 训练策略,通过在局部窗口内优化并约束隐状态的平滑过渡,实现自回归视频生成模型训练速度提升 2 倍且不牺牲生成质量。

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

提出 OSCBench——首个专门评估文生视频模型中物体状态变化(OSC)能力的基准,基于烹饪场景构建 1,120 条提示覆盖常规/新颖/组合三类场景,揭示即使最强 T2V 模型在 OSC 准确率上也仅达 0.786。

Self-Correcting Text-to-Video Generation with Misalignment Detection and Localized Refinement

提出 VideoRepair,首个免训练、模型无关的文本到视频自校正框架,通过 MLLM 检测细粒度文本-视频不对齐,保留正确区域并选择性修复问题区域,在 EvalCrafter 和 T2V-CompBench 上跨四种 T2V 骨干模型一致提升对齐质量。

TeachMaster: Generative Teaching via Code

TeachMaster 提出 Generative Teaching 范式,用代码作为教育视频的可解释中间表示,让规划、代码生成、配音、调试、同步和布局智能体协作生成完整课程视频,在接近人工质量的同时把 45 小时课程制作成本降到传统方式的约 0.3%。


🧩 多模态 VLM (82)

A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends

系统综述基于多模态大语言模型(MLLM)的视觉丰富文档理解(VRDU),从特征表示/融合和训练范式两个维度梳理OCR-based和OCR-free方法,并讨论数据稀缺、多页文档、多语言支持、RAG和智能体等新兴方向。

AdaTooler-V: Adaptive Tool-Use for Images and Videos

本文指出现有"thinking with images" MLLM 普遍存在盲目工具调用问题——所有视觉问题都强行 zoom-in/抽帧,反而 overthinking 降准、增推理成本;为此提出 AdaTooler-V,引入 AT-GRPO 强化学习算法用样本级 Tool Benefit Score 动态调节奖励尺度(工具有效时鼓励、无效时惩罚),让 7B 模型在 V* 高分辨率基准上达到 89.8%,超过 GPT-4o 与 Gemini 1.5 Pro。

AFMRL: Attribute-Enhanced Fine-Grained Multi-Modal Representation Learning in E-commerce

提出 AFMRL 框架,将电商产品的细粒度理解定义为属性生成任务,通过 MLLM 生成关键属性来增强对比学习(AGCL),并用检索性能作为奖励信号反向优化属性生成器(RAR),在大规模电商数据集上实现 SOTA 检索性能。

AICA-Bench: Holistically Examining the Capabilities of VLMs in Affective Image Content Analysis

提出 AICA-Bench,一个涵盖情感理解(EU)、情感推理(ER)和情感引导内容生成(EGCG)三个维度的综合基准,评估 23 个 VLM 后发现模型存在强度校准失败和描述浅薄两大缺陷,并提出 GAT Prompting 训练无关框架来缓解这些问题。

Aligned Multi-View Scripts for Universal Chart-to-Code Generation

把"同一张图表用 Python / R / LaTeX 三种语言写出语义等价脚本"作为新的监督信号,构建了 176K 四元组数据集 Chart2NCode,并提出在 LLaVA 投影器上加一个"语言条件的低秩子空间路由"的轻量适配器 CharLuMA,让一个模型在三种绘图语言上都达到可执行率与视觉保真度双高的水准。

All Changes May Have Invariant Principles: Improving Ever-Shifting Harmful Meme Detection via Design Concept Reproduction

提出RepMD方法,通过构建设计概念图(DCG)——借鉴攻击树思想描述恶意用户设计有害梗图的步骤和逻辑——来引导MLLM检测不断变化的有害梗图,在GOAT-Bench上达81.1%准确率。

Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models

BloomBench 用 Bloom 认知分类法重构 VLM 评测,将 7,747 个英阿双语图文问答样本组织为 6 个认知层级和 106 个任务类型,并发现当前 VLM 的高分往往掩盖了事实回忆、创造性综合和跨语言推理上的明显短板。

Automatic Slide Updating with User-Defined Dynamic Templates and Natural Language Instructions

定义了"基于自然语言指令在用户自定义模板上进行动态幻灯片更新"的新任务,构建了包含 20,036 个指令-执行三元组的 DynaSlide 基准,并提出了 SlideAgent 作为强参考基线。

Beyond Screenshots: Evaluating VLMs' Understanding of UI Animations

构建首个 UI 动画理解评测集 AniMINT(300 段密集标注的动画视频 + 3 位专家 + 300 用户标注),系统测试 9 个 SOTA VLM 后发现:基础运动效果能识别,但动画用途分类和高层语义解读与人类差距巨大,进一步用 Motion-Context-Perceptual Cue (MCPC) 增强能在 Gemini-2.5-Flash 上同时提升分类和解读性能。

CARES: Context-Aware Resolution Selector for VLMs

CARES 在目标 VLM 前增加一个轻量 query-aware 分辨率选择器,用低分辨率图像和文本问题预测“足够回答”的最小输入分辨率,在 9 个多模态 benchmark 上基本保持准确率,同时平均节省约 65–85% 的 prefill 计算成本。

查看全部82篇「多模态 VLM」论文 →


🧠 VLM Reasoning (32)

A Survey of Multimodal Mathematical Reasoning: From Perception, Alignment to Reasoning

本综述提出 Perception–Alignment–Reasoning (PAR) 过程框架 + Answer–Process–Executable (APE) 评估框架两个互补视角,系统地组织几何/图表表格/视觉应用题三大任务族,把现有方法和 benchmark 都映射到这两个十字坐标上,是首篇 process-centric 多模态数学推理综述。

Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization

提出GPRO框架,通过元推理控制器在每个token生成步动态路由计算到三条路径(快速/感知重检/推理反思),解决LVLM的过度思考问题,同时提升精度和效率。

AnchorSeg: Language Grounded Query Banks for Reasoning Segmentation

提出AnchorSeg,将推理分割重构为基于语言引导查询库的结构化条件生成过程,通过锚点查询显式解耦空间定位与语义推理,配合Token-Mask循环一致性训练目标,在ReasonSeg上达到SOTA(67.7% gIoU, 68.1% cIoU)。

ArrowGEV: Grounding Events in Video via Learning the Arrow of Time

提出 ArrowGEV,一个受物理学"时间之箭"启发的强化学习框架,通过区分时间敏感和时间不敏感事件来建模视频中的时间方向性,提升 VLM 的事件定位精度和时序理解能力。

Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning

VisReason 构建了一个包含 1,505 道日常视觉推理题的多模态 benchmark,专门测试模型是否能直接基于视觉证据推理,结果显示最强模型平均准确率也只有 47.5%,显著低于人类 71.4%,且 CoT 与更大推理预算只能带来有限提升。

CAPruner: Conceptual-Adjacent Scene Graph Pruner for Enhancing 3D Spatial Reasoning of Large Language Models

本文针对"把完整 3D 场景图喂给 LLM 会爆 token、而现有基于距离的 KNN 剪枝又常常剪掉任务关键关系"的矛盾,提出 CAPruner——把"查询语义相关性"和"空间邻近性"融进一个仅 1219 参数的小 MLP 来给场景图的每条边打重要性分,并用只标注了目标物体的数据通过"边权聚合成节点权"的方式做弱监督训练,从而在固定边预算下保留对具体 3D-VL 任务真正有用的关系,显著提升下游 LLM 的空间推理准确率。

ChemVLR: Prioritizing Reasoning in Perception for Chemical Vision-Language Understanding

提出 ChemVLR,首个化学领域推理型 VLM,通过跨模态逆向工程策略构建 760K 推理数据集,结合持续预训练-SFT-RL 三阶段训练流程,在分子识别和反应预测任务上显著超越专有模型和领域专家 VLM。

Decoding Scientific Experimental Images: The SPUR Benchmark for Perception, Understanding, and Reasoning

SPUR 是首个针对生物医学实验图像(多面板染色图/Western blot/统计图)"感知 → 理解 → 推理"三阶段评测的 benchmark,包含 4264 道专家审定 MCQ,揭示当今 MLLM 仅 Gemini 3 Pro Preview 勉强突破 60%,定量推理普遍比定性推理低 12.76%–31.41%。

Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision

作者构建了首个真实+物理仿真混合的第一人称"手指指点"问答基准 EgoPoint-Bench(11.7k QA / 5 维度 / 3 级语义指代),证实当前 SOTA MLLM 普遍依赖"视觉邻近 / 显著性"伪相关而非真正解析指尖射线,并通过在仿真数据上 LoRA 微调获得平均最高 +25 点的提升与稳健的 sim-to-real 泛化。

DRIFT: Transferring Reasoning Priors for Efficient MLLM Fine-Tuning

DRIFT 把"文本推理专家与多模态模型的参数差"当成方向先验,在多模态 SFT 反向传播时只对梯度做轻量偏置(不动权重),用 4K 多模态 CoT 数据、约 2 小时训练就能把 Qwen2.5-VL-7B 在 MathVista/MathVerse/WeMath 等基准上稳定推过参数合并基线和重型 SFT/RL 方法。

查看全部32篇「VLM Reasoning」论文 →


⚡ VLM Efficiency (6)

APB-V: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention

APB-V 用面向序列并行的近似注意力和系统级负载均衡加速长视频 LMM 推理,在保留完整视觉 embedding 的同时,在 64 帧 1440p 设置下相对 FlashAttn、ZigZagRing 和 APB 分别达到 12.72×、1.70× 和 1.18× 加速,且没有显著性能损失。

From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration

揭示 MLLM 推理中视觉冗余的两种来源——ViT 密集 tokenization 导致的固有冗余(IVR)和深层语义饱和导致的次生冗余(SSR,且其表现形式因骨干架构不同而异),提出 HalfV 框架分别处理两类冗余,在 Qwen2.5-VL 上实现4.1倍 FLOPs 加速且保留96.8%性能。

HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

本文提出 HERMES,基于对 MLLM 解码器层级注意力偏好的机制性分析,将 KV 缓存概念化为层级记忆框架(浅层=感觉记忆、中层=工作记忆、深层=长期记忆),实现免训练的高效流式视频理解,在减少 68% 视频 token 的条件下仍保持或提升准确率,TTFT 延迟仅 <30ms,比前 SOTA 快 10 倍。

HiPrune: Hierarchical Attention for Efficient Token Pruning in Vision-Language Models

本文发现视觉编码器中存在层级注意力模式——中层关注主体对象、深层关注全局信息,据此提出 HiPrune,一种免训练、模型无关的视觉 token 剪枝方法,通过选择三类 token(Anchor/Buffer/Register)保留不同层级的视觉信息,仅用 1/3 token 保持 99.3% 性能,FLOPs 减少 58.7%。

MACS: Modality-Aware Capacity Scaling for Efficient Multimodal MoE Inference

针对 MoE 多模态大模型在专家并行(EP)推理下被"最慢专家"拖累的 straggler 问题,MACS 用视觉 token 的熵当作语义重要性权重来重估专家负载,并按 batch 的实时模态构成动态缩放各专家容量,是一个无需训练的推理框架,在 12 个多模态基准上几乎不掉点(平均保留 vanilla 99.7%)而显著优于按 token 计数的 CAI-MoE。

ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs

ReGATE 用冻结的 text-only teacher 估计哪些输出 token 需要视觉信息,再结合 student 的历史学习难度动态选择训练 token,让 MLLM 在不改架构、不加参数的情况下用更少 token 更快训练,并在多个图像和视频 benchmark 上达到或超过标准微调。


🎵 音频/语音 (70)

Affectron: Emotional Speech Synthesis with Affective and Contextually Aligned Nonverbal Vocalizations

本文提出 Affectron 框架,通过情感驱动的 Top-K NV 匹配和情感感知的 Top-K 路由两个训练时增强策略,在小规模开源解耦语料上实现了多样且情感对齐的非语言发声(如笑声、叹息)合成,显著超越了基于纯语言预训练的 VoiceCraft 基线。

An Exploration of Mamba for Speech Self-Supervised Models

首次全面探索Mamba架构作为语音自监督学习(SSL)基础模型的潜力,发现Mamba-based HuBERT在长上下文ASR、流式ASR和因果设置的probing任务中优于Transformer,同时保持线性时间复杂度。

Analyzing Reasoning Shifts in Audio Deepfake Detection under Adversarial Attacks: The Reasoning Tax versus Shield Bifurcation

本文为带推理链的音频语言模型(ALM)做深度伪造检测设计了"三维取证审计"框架(声学感知 / 认知一致性 / 认知失调),发现 CoT 推理并非普适增强——对声学感知强的模型(Qwen2-Audio)是"防护盾",对感知弱的模型(Gemma-3n、Phi-4)反而是"推理税";且当模型被攻破时,高认知失调可作为"无声警报"提醒人类审计员。

Anchored Cyclic Generation: A Novel Paradigm for Long-Sequence Symbolic Music Generation

本文提出锚定循环生成(ACG)范式,通过在自回归过程中用已确认的音乐内容作为锚点来校准生成方向,有效缓解长序列符号音乐生成中的误差累积问题,并构建了层次化框架Hi-ACG实现从全局到局部的音乐生成。

[b] = [d] − [t] + [p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

系统性地证明自监督语音模型(S3M)的表示空间中存在线性的音韵特征向量,这些向量满足类似 word2vec 的向量算术关系,且其缩放比例与声学测量呈连续相关性。

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

揭示当前 AudioLLM 的感知弱点源于 ASR 中心的训练范式(系统性抑制副语言和非语言信息),提出 Unified Audio Schema(UAS)将音频信息结构化为转录、副语言和非语言事件三个维度的 JSON 格式,在 MMSU 基准上感知精度提升 10.9% 同时保持推理能力。

Beyond Transcripts: A Renewed Perspective on Audio Chaptering

这篇论文系统重构长音频章节分段任务:把评测从依赖 transcript 的文本空间推进到 transcript-invariant 的时间空间,并证明直接用音频表示的 AudioSeg 在 YTSeg 上明显优于文本分段和现有 MLLM 方案。

Closing the Modality Reasoning Gap for Speech Large Language Models

本文提出 TARS(Trajectory Alignment for Reasoning in Speech),一个基于强化学习的框架,通过表示对齐和行为对齐两种密集奖励信号,将语音条件下的推理轨迹与文本条件下的推理轨迹对齐,在 7B 规模模型中达到 SOTA,MRR(模态恢复率)接近甚至超过 100%。

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

本文提出 SwanBench-Speech,用 1,101 个样本、17 类真实下游场景和 7 个自动评测维度系统衡量长文本语音生成,结论是当前模型在内容准确性上已接近可用,但在混响一致性、长程韵律和表达层次上仍明显落后于真实录音。

Computational Narrative Understanding for Expressive Text-to-Speech

本文从有声书虚构作品中提取角色直接引语,构建了大规模表达性语音数据集 LibriQuote(5.3K 小时引语 + 12.7K 小时叙述),并用语音动词和副词伪标签标注说话风格,实验表明在 flow-matching 模型上微调可同时提升表达性和可懂度,且 LibriQuote-test 构成了一个具有挑战性的表达性 TTS 基准。

查看全部70篇「音频/语音」论文 →


🔎 AIGC 检测 (17)

AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images

AEGIS 是首个面向学术图像伪造取证的综合基准,覆盖 7 大学术图类与 39 子类、4 种伪造策略(整图捏造、参考图改写、局部修复、局部编辑)和 25 个生成模型,提出取证范围判别、文字伪影识别、操作类型分类、篡改像素定位四项任务,对 25 个 MLLM 与 9 个专家模型联评后发现:即使 GPT-5.1 综合分仅 48.80%,专家模型像素 IoU 仅 30.09%,凸显「生成进化快于取证」与「MLLM 推理 vs 专家模型敏感度」的结构性互补。

Authorship Attribution in Multilingual Machine-Generated Texts

现有「机器生成文本作者归属(attribution,即判断一段文本出自哪个具体 LLM 还是人类)」研究几乎全是单语种(尤其英语)的,这篇论文首次形式化定义了多语言作者归属(ML-MGT)跨语言迁移(CL-MGT)两个问题,在 18 种语言 × 8 个生成者(7 个 LLM + 人类)上系统评测了统计法、微调编码器、对比学习、微调解码器等一整套现有方法,发现微调/对比方法能适配多语言(最佳 macro-F1 > 0.9),但跨不同语系/书写体系迁移时严重退化,揭示了真实多语言场景的难度。

Beyond the Final Actor: Modeling the Dual Roles of Creator and Editor for Fine-Grained LLM-Generated Text Detection

提出 RACE(Rhetorical Analysis for Creator-Editor Modeling),利用修辞结构理论(RST)构建逻辑图来建模文本"创作者"的思维架构,同时提取篇章单元级特征捕获"编辑者"的语言风格,实现四类细粒度 LLM 生成文本检测(人写/LLM写/LLM润色人文/人改写LLM文)。

BIASEDTALES-ML: A Multilingual Dataset for Analyzing Narrative Attribute Distributions in LLM-Generated Stories

BiasedTales-ML 构建了约 35 万篇覆盖 8 种语言的 LLM 生成儿童故事语料库,通过全排列提示设计和分布分析框架,揭示了叙事中社会属性分布在不同语言间存在显著差异,英语中心的评估无法反映多语言场景下的偏见模式。

C-ReD: A Comprehensive Chinese Benchmark for AI-Generated Text Detection Derived from Real-World Prompts

C-ReD 构建了一个覆盖五类中文写作场景、九个 LLM 生成器和真实使用式 prompt 的中文 AI 生成文本检测基准,并显示检测难度强烈依赖领域、生成器和 prompt,而在 C-ReD 上微调能显著提升对未见模型和外部中文数据的泛化。

Can AI-Generated Persuasion Be Detected? Persuaficial Benchmark and AI vs. Human Linguistic Differences

本文引入 Persuaficial——一个覆盖六种语言的高质量 AI 生成说服性文本多语言基准,系统评估了 LLM 生成的说服性文本与人类撰写的说服性文本在自动检测难度上的差异,发现微妙的 AI 说服比人类说服更难检测(F1 下降约 20%),而过度强化的说服反而更容易被发现。

DetectRL-X: Towards Reliable Multilingual and Real-World LLM-Generated Text Detection

DetectRL-X 构建了一个 345.6 万样本、多语言、多域、多攻击、多长度和二/三分类并行的 LLM 生成文本检测基准,证明现有检测器在真实多语言和人机协作写作场景下仍存在明显鲁棒性短板。

ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability

ExaGPT 把"判定一段文本是人写还是 LLM 生成"这件事重构成"在数据存储里找哪一侧的相似 span 更多",通过 BERT 嵌入 + k-NN 检索 + 动态规划做最优 span 切分,既给出可解释证据(最相似的检索 span 例子)又在 1% FPR 下把准确率刷到比此前可解释检测器最高高出 +37.0 个点。

Frame In, Frame Out: Measuring Framing Bias in LLM-Generated News Summaries

本文提出 FIFO,用 LLM jury 加专家校准的方式在 XSum 上大规模测量 LLM 新闻摘要是否引入 framing bias,并发现若干高容量模型的框架化表达比例高于人工摘要基线。

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

这篇论文提出一个面向 rubric 自动评分的句子级解释评估框架,在课堂教学反馈质量评分任务上比较微调 PLM、prompted LLM、SHAP 归因和 LLM rationale,发现 fine-tuned PLM 更准,而 SHAP 比 LLM 生成的解释更忠实、更可迁移。

查看全部17篇「AIGC 检测」论文 →


🤖 机器人/具身智能 (11)

Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

SkillNav 把视觉语言导航任务拆解成 5 个原子技能(方向调整、垂直移动、停顿、地标识别、区域识别)+ 1 个时序规划技能,每个技能用合成数据微调一个 DUET 子 agent,再用 training-free 的 VLM router 做时序重排 + 子目标定位 + 技能选择,在 GSA-R2R 上取得 SOTA 泛化能力(Test-N-Scene SPL 48% vs. 之前最高 43%)。

Cultivating Forensic Reasoning for Generalizable Multimodal Manipulation Detection

这篇论文提出 REFORM,把多模态伪造检测从“直接拟合标签”改成“学习可验证的取证推理过程”,并通过 ROM 推理标注数据集、双解码器和 GRPO 训练,在 ROM、DGM4 与 MMFakeBench 上取得更强的跨域泛化和可解释检测结果。

ElasticFlow: One-Step Physics-Consistent Policy with Elastic Time Horizons for Language-Guided Manipulation

提出 ElasticFlow:用平均速度场 (MeanFlow) 取代瞬时速度场学习语言条件机器人动作,配合 "弹性时间区间 \(\Delta t=t-r\)" 显式编码控制粒度,实现 1-NFE 单步推理 (∼71Hz),在 LIBERO-Long、CALVIN ABC-D 等长程任务上超过 OpenVLA 与 \(\pi_0\)

GoViG: Goal-Conditioned Visual Navigation Instruction Generation via Multimodal Reasoning

GoViG 提出一个只靠第一视角初始与目标观测就能生成导航指令的新任务,并把它拆成"先想象中间画面再写指令"两步,用 Anole-7B 在 token 级 MSE + 标签平滑 CE 双目标下联合训练,配合 one-pass / interleaved 两种多模态推理策略,把 BLEU-4 从基线 0.08 推到 0.32 并在跨域真实视频上保持 0.27。

GROKE: Vision-Free Navigation Instruction Evaluation via Graph Reasoning on OpenStreetMap

GROKE 提出完全不用视觉就评测导航指令好不好——把 OSM 地图序列化成 JSON,让 Gemini-3 Pro 当 follower agent 沿图执行指令,用 Navigation Error / SR / SDTW 反过来当指令质量的 proxy;相比启发式 baseline 在 Map2Seq 上降低 navigation error 68.5%,且 NE 与人类对"指令清晰度"的判断显著相关 (\(r = -0.31, p < 0.01\))。

Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System

Libra-VLA 把机器人动作分解为"离散宏方向(macro-intent)+ 连续微姿态(micro-pose)"的混合动作空间,再用 System 2(VLM + 并行 coarse-action head)低频规划、System 1(diffusion transformer + 独立 SigLIP 编码器)高频精修,通过 intent buffer 实现真正异步执行,在 LIBERO 上拿到 97.2% SoTA、LIBERO-Plus 零样本 79.5%(比之前 OpenVLA-OFT+ 高 10 个点)。

Limited Linguistic Diversity in Embodied AI Datasets

本文对主流 VLA 训练语料(RT-1、BRIDGE、TacoPlay、Language Table、LIBERO)做系统性"语言多样性体检",从词汇/语义/句法三维度量化发现:VLA 数据仅 < 2% 指令唯一、RT-1 整库只有 49 个 unique word、否定/条件句 < 1%,远逊于指令调优语料(OASST2 93%、Alpaca 99.8% 唯一),这种"模板化贫乏"或许正是 VLA 模型对 paraphrase 脆弱、泛化失败的根源。

Mango: Multi-Agent Web Navigation via Global-View Optimization

Mango 在网页导航前先构建网站的全局近似结构,再用 Thompson Sampling 在候选 URL 间动态分配有限导航预算,使 LLM web agent 不必总从首页盲目探索,并在 WebVoyager 和 WebWalkerQA 上显著超过 AgentOccam、WebWalker 等基线。

VLN-NF: Feasibility-Aware Vision-and-Language Navigation with False-Premise Instructions

本文提出 VLN-NF 基准——首个要求 VLN agent 在 3D 部分可观测环境中识别虚假前提指令并输出 NOT-FOUND 的任务,配套提出 REV-SPL 评估指标和 ROAM 两阶段混合框架,ROAM 达到 6.1 REV-SPL,比监督基线提升 45%。

When Does Language Matter? Multilingual Instructions Reveal Step-wise Language Sensitivity in Vision-Language-Action Models

本文把 LIBERO 机器人操作基准翻成十种语言,首次系统揭示 VLA 模型在非英语指令下成功率暴跌 30–50%,并发现"语言影响在执行步上高度不均匀"——只有少数关键步对语言敏感却主导失败,据此提出一种只在这些步上做推理时表征对齐的方法,把多语言成功率大幅拉回。

查看全部11篇「机器人/具身智能」论文 →


🎮 强化学习 (46)

A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks (EAGLET)

EAGLET 把长程 agent 任务拆成「全局 planner + 局部 executor」两个模块,通过「同源共识过滤合成 SFT 冷启动 + 用执行器能力增益作奖励的 GRPO 微调」两步训练出一个即插即用的 planner,三个长程任务上刷新 SOTA 且训练成本仅为 RL baseline 的 1/8。

A Survey of Reinforcement Learning for Large Language Models under Data Scarcity: Challenges and Solutions

首篇系统综述数据稀缺条件下LLM强化学习的工作,提出数据中心、训练中心、框架中心三层分类体系,覆盖数据剪枝/合成/压缩、轨迹生成/奖励工程/策略优化、以及自演化/协同演化/多智能体演化等方向。

Adaptive Instruction Composition for Automated LLM Red-Teaming

提出 Adaptive Instruction Composition (AIC) 框架,利用 Neural Thompson Sampling 在众包有害查询和越狱策略的组合空间中自适应地选择攻击指令,同时优化攻击成功率和多样性,在 Harmbench 上大幅超越已有方法。

ARGUS: Policy-Adaptive Ad Governance via Evolving Reinforcement with Adversarial Umpiring

ARGUS 用 Prosecutor–Defender–Umpire 三智能体辩论 + GRPO 强化学习,让广告审核 VLM 在政策不断更新时既能纠正历史「过时标签」、又能挖出灰区潜在违规,工业 A/B 把违规漏放率(VLR)相对降低 35.2%。

AttnPO: Attention-Guided Process Supervision for Efficient Reasoning

提出 AttnPO,一个利用模型内在注意力信号进行步级信用分配的低开销过程监督 RL 框架,通过识别 Key-Focus Heads(KFH)区分冗余和关键推理步骤,在大幅缩短推理长度的同时显著提升准确率。

Beyond Fully Random Masking: Attention-Guided Denoising and Optimization for Diffusion Language Models

这篇论文发现扩散语言模型(dLLM)里"更多看向已确定上下文的 token 生成更稳、对推理更关键",于是提出 AGDO——用注意力推导出去噪顺序,并在监督微调和强化学习中加权强调这些注意力枢纽 token,从而在数学和代码推理上稳定超过依赖随机掩码的现有 dLLM 后训练方法。

Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning

针对 TTRL 用 majority voting 做伪标签带来的「确认偏差 + 稀疏奖励」两大痛点,SCOPE 提出步级置信度加权投票(不再唯频次是从)+ Pareto-optimal subgroup 动态划分(每子组独立 bootstrap 出局部共识),在 Qwen3-8B 上把 AIME 2024 从 47.13 → 52.70、AIME 2025 从 27.40 → 31.00。

Breaking the Impasse: Dual-Scale Evolutionary Policy Training for Social Language Agents

针对自博弈 RLVR 在开放式社交语言博弈(谈判 / 不许说 / 两美元分配)中出现的"进化僵局"——agent 行为同质化导致比赛结果分布退化为确定性、梯度信号消失——本文提出 DEPT 用 fast/slow 双时间尺度 EMA baseline 检测 stagnation,再用 asymmetric advantage reshaping 抑制 dominant outcome、放大 rare trajectory,在 Qwen3-4B/8B-Base 上把谈判任务胜率从 16-20% 拉到 32%,并在 OOD 数学/推理 benchmark 上同步受益。

Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning

提出 DYPO(Dynamic Policy Optimization),通过动态难度分级将样本路由到不同优化路径——Hard样本用多教师蒸馏降低SFT偏差、Mid样本用Group Alignment Loss降低RL方差,在数学推理benchmark上平均提升4.8%,OOD任务提升13.3%。

CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

提出 CE-GPPO 算法,通过 stop-gradient 操作重新引入 PPO 裁剪区间外低概率 token 的梯度信号,实现对策略熵的精细化协调控制,在探索-利用之间取得更好平衡。

查看全部46篇「强化学习」论文 →


🎁 推荐系统 (22)

Bridging Language and Items for Retrieval and Recommendation: Benchmarking LLMs as Semantic Encoders

本文发布 Amazon Reviews 2023 大规模数据集(570M reviews / 48M items)并基于它构建 BLaIR 基准,覆盖序列推荐 / 协同过滤 / 商品搜索 (短 query + 复杂 query) 三大场景,benchmark 了 11 个顶尖 LLM 作为语义编码器,发现它们在 BLaIR 上的排名与 MTEB 几乎不相关(Spearman -0.476),并指出推荐场景对语义编码器有独特要求。

ClusterRAG: Cluster-Based Collaborative Filtering for Personalized Retrieval-Augmented Generation

ClusterRAG 把协同过滤引入个性化 RAG:先用用户历史文档构建用户表示并用 HDBSCAN 聚类,再从目标用户和相似用户中分层检索 profile 文档组成 prompt,在 LaMP 多任务基准上使 hybrid 模式全面优于 vanillaRAG、LaMP-IPA、ROPG 和 CFRAG。

Culinary Crossroads: A RAG Framework for Enhancing Diversity in Cross-Cultural Recipe Adaptation

作者发现标准 RAG 在创意任务上"给了多样上下文也产出不多样",于是设计 plug-and-play 的 CARRIAGE:查询重写 + diversity-aware MMR 重排 + sliding-window 动态上下文 + 对比性上下文注入,把"上下文多样性"真正传导到"输出多样性",在西班牙语跨国菜谱适配上同时改善 lexical/semantic/ingredient diversity 与 CultureScore,对 closed-book LLM 达到 Pareto efficiency。

Decisive: Guiding User Decisions with Optimal Preference Elicitation from Unstructured Documents

提出 DECISIVE 交互式决策框架,通过从非结构化文档中提取客观选项评分矩阵,结合贝叶斯偏好推断自适应选择成对比较问题高效学习用户潜在偏好向量,在最小化用户交互负担的同时实现透明个性化推荐,决策准确率比强基线提升最高 20%。

From Past To Path: Masked History Learning for Next-Item Prediction in Generative Recommendation

提出掩码历史学习(MHL)训练框架,通过在生成式推荐的自回归训练中加入掩码历史重建辅助任务,结合熵引导的自适应掩码策略和课程学习调度器,使模型从仅预测"下一个是什么"转向理解"为什么形成这条路径",在三个数据集上显著超越SOTA。

From Recall to Forgetting: Benchmarking Long-Term Memory for Personalized Agents

本文提出Memora基准和FAMA指标,将长期记忆评估从浅层事实检索扩展到跨越数周至数月的记忆整合与突变处理,揭示现有LLM和记忆agent在处理频繁知识更新时的系统性失败。

GraphLoRA: Structure-Aware Low-Rank Adaptation for Large Language Model Recommendation

现有 LLM 推荐要么把协同信息塞进 prompt、要么把预训练好的静态嵌入注入 LoRA 权重,都把结构当成"读一遍"的静态输入;GraphLoRA 把一个可训练的图消息传递网络嵌进 LoRA 瓶颈(down-projection \(\mathbf{A}\) 和 up-projection \(\mathbf{B}\) 之间),让协同拓扑在参数空间里动态传播、直接引导参数更新,仅增 ~1.67% 参数就在 ML-1M、Amazon-Book 上超过 CoRA 等 SOTA。

HARPO: Hierarchical Agentic Reasoning for User-Aligned Conversational Recommendation

提出 HARPO 框架,将对话推荐重新定义为以推荐质量为优化目标的结构化决策问题,通过层次化偏好学习、基于价值网络的树搜索推理、虚拟工具操作和多智能体精炼四大组件,在 ReDial、INSPIRED 和 MUSE 三个基准上显著超越现有方法。

HORIZON: A Benchmark for in-the-wild User Behaviour Modeling

本文提出 HORIZON,首个全开源的大规模跨领域长期推荐基准,基于 Amazon Reviews 合并构建包含 54M 用户和 35M 商品的统一交互历史,设计了沿时间轴和用户维度解耦的四象限评估协议,揭示了 BERT4Rec 等模型在分布内表现强劲但在时序外推和未见用户场景下显著退化的现象,且 LLM 在用户行为建模上并未一致优于专用架构。

HSUGA: LLM-Enhanced Recommendation with Hierarchical Semantic Understanding and Group-Aware Alignment

HSUGA 把 LLM 增强序列推荐的两个核心环节拆开来打补丁:用"阶段式 + 四类原子编辑(Add/Delete/Update/Retain)"的 HSU 模块把长交互序列的语义抽取做稳,再用按活跃度分组(20% 头部 / 80% 长尾)的 GAA 自蒸馏对齐解决长尾用户欠监督、活跃用户过对齐的问题,在 Steam/Fashion/Beauty 三个数据集 + GRU4Rec/BERT4Rec/SASRec 三个 backbone 上即插即用都涨点。

查看全部22篇「推荐系统」论文 →


🔗 因果推理 (7)

Better and Worse with Scale: How Contextual Entrainment Diverges with Model Size

本文首次为"上下文夹带效应"(contextual entrainment)建立缩放定律,发现更大的模型在语义上下文中更能抵抗虚假信息(负指数),但在非语义上下文中更容易复制无关 token(正指数),揭示了语义过滤和机械复制两种功能的对立缩放行为。

ClimateCause: Complex and Implicit Causal Structures in Climate Reports

ClimateCause 构建了首个针对气候报告中复杂和隐式因果结构的专家标注数据集(874 条因果关系),支持嵌套因果、多事件拆解、相关性方向和时空语境标注,并提出基于因果图语义复杂度的可读性度量,LLM 基准测试显示因果链推理仍是重要挑战。

Evaluating Counterfactual Strategic Reasoning in Large Language Models

本文用重复囚徒困境和石头剪刀布的标签扰动、收益扰动与联合反事实版本评测 LLM 的策略适应能力,发现很多模型在熟悉博弈中看似会玩,但在收益结构改变后仍沿用模板化策略。

Function Words as Statistical Cues for Language Learning

作者一边用 186 种语言的 Universal Dependencies 语料证明"功能词高频 + 句法可预测 + 短语边界对齐"这三条分布性质是跨语种普适的,另一边在英语上构造 7 个反事实变体训练 GPT-2 small,证明 transformer 学习者只有在三条性质同时满足时学得最好,并发现一个 Goldilocks 效应——功能词必须既够高频又够多样才能既可靠又有区分度。

iTAG: Inverse Design for Natural Text Generation with Accurate Causal Graph Annotations

提出 iTAG 框架,通过逆向设计的三阶段流程(参数化因果图构建→基于 CoT 的概念赋值→结构保持的文本生成)生成同时具有极高因果图标注准确率和文本自然度的数据,可作为真实标注数据的实用替代品进行文本因果发现算法基准测试。

Learning Invariant Modality Representation for Robust Multimodal Learning from a Causal Inference Perspective

本文提出 CmIR(因果模态不变表示学习),基于因果推理理论将每种模态显式解纠缠为因果不变表示和环境特定虚假表示,通过不变性约束+互信息约束+重建约束的优雅目标函数确保不变表示具有跨环境的稳定预测关系,在多模态情感/幽默/讽刺检测上取得 SOTA,尤其在 OOD 和噪声场景下表现突出。

Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation

本文系统研究了 LLM 在六种语言上的多语言反事实样本生成能力,通过直接生成和翻译两种路径对比,发现翻译路径的标签翻转率更高但需要更多编辑,识别出四类常见错误模式,并验证多语言反事实数据增强优于跨语言增强,尤其对低资源语言更有效。


🔬 可解释性 (63)

A Structured Clustering Approach for Inducing Media Narratives

提出一个从大规模新闻语料中自动归纳媒体叙事模式的框架,通过联合建模事件因果链和角色(英雄/威胁/受害者)信息,使用角色约束的聚类算法将叙事链组织成语义连贯的叙事模式,在移民和枪支控制两个领域生成了可解释且与框架理论一致的叙事模式。

A Systematic Comparison between Extractive Self-Explanations and Human Rationales in Text Classification

这篇论文系统比较了 4 个开源指令调优 LLM 在 3 类文本分类任务上生成的抽取式自解释与人类 rationale、后验归因方法之间的差异,发现自解释与人类标注的一致性强烈受文本长度和任务复杂度影响,但在扰动式 faithfulness 评测中,自解释往往能选出对模型预测更关键的 token 子集。

AdaptiveK: Complexity-Driven Sparse Autoencoders for Interpretable Language Model Representations

AdaptiveK 提出一种由输入语义复杂度驱动的 Sparse Autoencoder,让简单文本激活更少特征、复杂文本激活更多特征,在 8 个自回归 LLM 和附加架构实验上改善重构质量、概念解耦与训练效率,并减少固定 TopK 需要反复调参的问题。

Aligning What LLMs Do and Say: Towards Self-Consistent Explanations

构建大规模Post-hoc Self-Consistency Bank(PSCB,85K决策×428K解释),量化LLM答案与其解释之间的特征归因差距,并通过DPO优化在不损害准确率的前提下提升解释的归因一致性。

Compositional Steering of Large Language Models with Steering Tokens

本文提出组合引导 token,通过自蒸馏将行为指令压缩为输入空间的嵌入向量,并训练专用组合 token 来捕获"组合"的通用概念,在未见过的行为组合、未见过的行为以及未见过的组合数量上均展现强泛化能力。

Constructing Interpretable Features from Compositional Neuron Groups

作者用半非负矩阵分解(SNMF)直接把 MLP 激活拆成"稀疏神经元组 × 非负系数",得到既能映射回激活上下文又能跨层组合的可解释特征,在 Llama-3.1-8B / Gemma-2-2B / GPT-2 上的因果引导(concept steering)评估全面超过最新 SAE(Llamascope / Gemmascope)和强监督基线 DiffMeans。

Crosscoding Through Time: Tracking Emergence & Consolidation Of Linguistic Representations Throughout LLM Pretraining

用 sparse crosscoder 在同一 LLM 的多个 pretraining checkpoint 间训练一个共享特征字典,并提出 Relative Indirect Effect (RelIE) 度量逐特征的因果重要性如何在 token 数量推移中"涌现/维持/消失",从而首次在 Pythia/OLMo/BLOOM 上观察到 LLM 从"特定子词检测器"逐步内化为"抽象句法/跨语言检测器"的概念级演化轨迹。

Curing "Miracle Steps" in LLM Mathematical Reasoning with Rubric Rewards

本文发现当前 LLM 数学推理中存在大量"Miracle Steps"——推理链中凭空跳跃到正确答案的现象,并提出 Rubric Reward Model (RRM),一种基于问题特定评分标准的过程奖励函数,在 RL 训练中显著减少 Miracle Steps 71% 并将 AIME2024 的 Verified Pass@1024 从 26.7% 提升至 62.6%。

Diffusion-CAM: Faithful Visual Explanations for dMLLMs

提出 Diffusion-CAM,首个专为扩散式多模态大语言模型(dMLLM)设计的可解释性方法,通过在去噪轨迹中提取结构有效的中间表征并配合四个后处理模块(自适应核去噪、分布感知置信门控、上下文背景衰减、单实例因果去偏),在 COCO Caption 和 GranDf 上显著超越自回归 CAM 基线。

Do LLMs Capture Embodied Cognition and Cultural Variation? Cross-Linguistic Evidence from Demonstratives

作者用「this/that」与「这/那」这类指示词(demonstrative)作为探针,构建中英双语对照数据集(80 题/语 × 4 cue × 4 perspective × 5 场景),用 320 名母语者的 6,400 条响应建立人类基线,发现英语者擅长 proximal–distal 区分但弱于他者视角,中文者反之;而 5 个 SOTA LLM 既无法稳定区分近–远,也无跨文化差异,普遍退回到 English-centric 推理或"All of the above"安全 fallback。

查看全部63篇「可解释性」论文 →


📦 模型压缩 (59)

A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification

把 production LLM 的 token×layer 隐状态张量当成可挖掘资源,用「先压 token、再压 layer」的两阶段聚合 probe 在同一次 forward 里完成安全/情感分类,35M 可训练参数即可逼近独立 guard 模型,省掉一次额外的 LLM 调用。

A Layer-wise Analysis of Supervised Fine-Tuning

通过信息论、几何和优化三个视角对 1B-32B 模型的 SFT 进行逐层分析,发现指令跟随能力集中在中间层(20%-80%),而非均匀分布,据此提出 Mid-Block Efficient Tuning 策略,选择性更新中间层,在 GSM8K 上比标准 LoRA 提升高达 10.2%。

Adaptive Layer Selection for Layer-Wise Token Pruning in LLM Inference

提出ASL(Adaptive Selection Layer),通过监控token注意力分数排名的方差来自适应确定KV缓存剪枝的层位置,在困难任务上显著优于固定层选择方法,同时保持无需训练。

Alignment Tuning for Large Language Models: A Data-Centric Lens on Alignment Data Pipelines

这篇论文把 LLM alignment tuning 重新解释为一个动态的数据管线设计问题:模型最终学到什么,不只取决于 PPO、DPO、GRPO 这类优化算法,更取决于候选回答如何生成、偏好如何评估、偏好信号又如何实例化为训练目标。

Analytical FFN-to-MoE Restructuring via Activation Pattern Analysis

提出一种分析式后训练框架,通过神经元激活模式分析将dense FFN快速重构为sparse MoE——区分高频共享专家和低频路由专家,并从激活统计量构建路由器,仅需2k样本微调即可实现1.17×加速。

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

ArcLight 是一个从零写的轻量级 LLM 推理框架(约 10 个 C++ 文件),专为多 NUMA 节点的 many-core CPU 设计,通过 NUMA 局部内存池、多视图线程池、跨 NUMA 张量并行 + 异步子图同步打破"远程内存墙",在 192 核 ARM 鲲鹏平台上把 Qwen3-4B Q4_0 的 decode 吞吐相对 llama.cpp 提高至多 46%。

BaseCal: Unsupervised Confidence Calibration via Base Model Signals

观察到 base LLM 在 free-form QA 上仍然保持良好校准、而 post-trained LLM(PoLLM)严重过自信,BaseCal 提出两种无监督方案——把 PoLLM 的回答喂进 base LLM 拿 token 概率做置信度(BaseCal-ReEval),或用一层线性投影把 PoLLM 末层隐状态映射回 base LLM 空间再过 base 的输出层(BaseCal-Proj),在 5 个数据集 × 3 个模型族上把 ECE 相对最佳无监督基线平均降低 42.9%。

Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference

CSD 提出一种训练免的推测解码增强框架,通过在线校正记忆(OCM)记录高频拒绝模式提供救援候选,再用语义一致性门控(SCG)基于概率比验证候选可靠性,将推测解码的吞吐量提升至最高 2.33×,同时在 HumanEval 和 MATH500 上甚至提升了准确率。

CBRS: Cognitive Blood Request System with Bilingual Dataset and Dual-Layer Filtering

CBRS 提出一个多平台框架,通过双层过滤架构(轻量分类器 + LLM)从社交媒体消息流中高效检测并解析血液捐献请求,构建了首个包含 11K 条孟加拉语-英语-转写孟加拉语的血液捐献请求数据集,LoRA 微调的 Llama-3.2-3B 在解析任务上达到 92% 零样本准确率。

Cognitive-Uncertainty Guided Knowledge Distillation for Accurate Classification of Student Misconceptions

论文用两阶段知识蒸馏 + 基于教师认知不确定性的"双层边际样本选择" + 难度自适应损失,在仅用 10.30% 真实样本增量训练的情况下,把 4B 学生模型在 MAP-Charting 上做到 MAP@3 = 0.9585(+17.8%),并在 220 题中学代数误解 benchmark 上以 84.38% 准确率超过 GPT-5(67.73%)与直接微调的 72B 教师(81.25%),同时推理速度比教师快 23×。

查看全部59篇「模型压缩」论文 →


🕸️ 图学习 (24)

AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning

提出 AgentGL,首个基于强化学习的智能体图学习(AGL)框架,让 LLM 智能体通过图原生搜索工具自主导航文本属性图(TAG),在节点分类和链接预测任务上分别实现最高 17.5% 和 28.4% 的绝对准确率提升。

ARK: Answer-Centric Retriever Tuning via KG-augmented Curriculum Learning

提出ARK框架,通过三维答案充分性评分(Forward+Backward+Retriever对齐)筛选正样本,利用LLM构建的知识图谱生成渐进难度的困难负样本进行课程对比学习,在10个数据集上平均提升14.5% F1。

Autonomous Knowledge Graph Exploration with Adaptive Breadth-Depth Retrieval

本文提出 ARK:一个 training-free 的知识图谱检索 agent,只暴露「全局词法搜索」和「单跳邻居展开」两个最小工具,让 LLM 自主在广度和深度之间切换,无需种子节点或固定跳数;在 STaRK 三图上把 Hit@1 平均推到 59.1%,最高比 training-free baseline 提升 31.4%,并可把策略 label-free 蒸馏进 Qwen3-8B。

AutoPKG: An Automated Framework for Dynamic E-commerce Product-Attribute Knowledge Graph Construction

提出 AutoPKG,一个多智能体 LLM 框架,从多模态电商商品内容自动构建 Product-Attribute 知识图谱(PKG),通过类型归纳 Agent、属性键发现 Agent、属性值提取 Agent 和集中式 KGD 决策 Agent 实现动态本体的持续演化和规范化,在 Lazada 数据集上取得 0.953 WKE(类型)和 0.724 WKE(属性键),线上 A/B 测试推荐 GMV 提升 7.89%。

CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs

CoG 是一个 training-free 的 KGQA 框架,把 Kahneman 的 Dual-Process Theory 落到 KG 推理上:System 1 离线把训练集 SPARQL 蒸馏成"关系蓝图"模板库,在线作为软结构约束指导 candidate relation 的 rerank 与剪枝;System 2 在搜索停滞时触发证据条件反思和定向回溯,纠正前期错误决策;在 CWQ / WebQSP / GrailQA 三个多跳 KGQA 基准上同时拿到 SOTA 准确率(GPT-4 backbone CWQ 77.8、WebQSP 89.7、GrailQA 86.4)和最低成本(CWQ 比 PoG 少 13% token、少 12% call)。

Collaboration of Fusion and Independence: Hypercomplex-driven Robust Multi-Modal Knowledge Graph Completion

M-Hyper 把多模态知识图谱实体编码为双四元数(biquaternion)的四个正交基,分别承载结构 / 视觉 / 文本三个独立模态以及一个融合模态,通过 Hamilton 乘积同时实现"模态独立保留"和"成对充分交互",在 DB15K / MKG-W / MKG-Y 三个数据集上以最低显存、最短训练时间打败 18 个 baseline。

Comparing Human and Large Language Model Interpretation of Implicit Information

本文提出隐含信息提取(IIE)任务和基于 LLM 的三阶段提取管道(信息提取→推理验证→时序分析),构建结构化知识图谱来表示文本的隐含含义,并通过众包人类判断对比发现 LLM 在社交丰富语境中比人类更保守,但在短事实语境中人类更保守。

ComplianceNLP: Knowledge-Graph-Augmented RAG for Multi-Framework Regulatory Gap Detection

ComplianceNLP 是一个端到端的金融监管合规系统,把 12,847 条 SEC / MiFID II / Basel III 法规构造成知识图谱来增强 RAG 检索,配合 LEGAL-BERT 的多任务义务抽取和门槛打分的差距分析,在 RegObligation / GapBench 上以 87.7 F1 击败 GPT-4o+RAG 3.5 个点,并通过领域知识蒸馏 + Medusa 推测解码实现 \(2.8\times\) 推理加速;4 个月并行运行处理了 9,847 条更新,达到 96.0% 召回率和 3.1× 分析师效率提升。

CRAFTQA: A Code-Driven Adaptive Framework for Complex Structured Data Reasoning

CRAFTQA 用 CodeSTEP 生成可执行的逐步 Python 推理代码,并在预定义操作不够时由 CRAFT 动态生成自定义函数,从而显著提升表格、知识图谱和时序知识图谱上的复杂结构化数据问答能力,GPT-4o 版本在复杂推理 Overall 上达到 76.6%。

EA-Agent: A Structured Multi-Step Reasoning Agent for Entity Alignment

提出 EA-Agent,将实体对齐(EA)分解为结构化多步推理过程,通过工具池(三元组选择器+对齐工具+反思器)的规划和执行实现可解释的对齐决策,配合奖励引导的离线策略优化持续改进规划能力,在 DBP15K 上 Hits@1 提升高达 3.17%,同时减少冗余三元组带来的效率问题。

查看全部24篇「图学习」论文 →


📈 时间序列 (8)

A Unified Framework for Modeling Heterogeneous Financial Data via Dual-Granularity Prompting

提出FinLangNet框架,通过双模块架构(DeepFM处理静态特征 + 双粒度提示机制的Transformer处理时序行为)实现多尺度信用风险预测,在滴滴金融平台部署后实现KS提升6.3pp和坏账率下降9.9%。

ODTQA-FoRe: An Open-Domain Tabular Question Answering Dataset for Future Data Forecasting and Reasoning

ODTQA-FoRe 提出面向未来数值预测和预测后推理的开放域表格问答任务,并用 TimeFore 三代理框架把表格检索、SQL 取数、专用时间序列预测和答案规范化串成一个可评测 baseline。

STK-Adapter: Incorporating Evolving Graph and Event Chain for Temporal Knowledge Graph Extrapolation

本文提出 STK-Adapter,通过在 LLM 每一层嵌入三个 MoE 模块(ST-MoE 捕捉时空结构、EA-MoE 建模事件链语义、CMA-MoE 深度跨模态对齐),解决现有方法将 TKG 嵌入与 LLM 浅层对齐导致的时空信息丢失和逐层稀释问题,在四个基准数据集上显著超越 SOTA。

STReasoner: Empowering LLMs for Spatio-Temporal Reasoning in Time Series via Spatial-Aware Reinforcement Learning

STReasoner 用网络 SDE 合成带图结构和文本语义的时空时间序列数据,再通过时间序列编码器、三阶段训练和空间感知 S-GRPO,让 LLM 学会基于时间动态与空间依赖做显式推理。

Temporal Leakage in Search-Engine Date-Filtered Web Retrieval: A Retrospective Forecasting Case Study

本文对 Google 和 DuckDuckGo 的日期过滤器进行系统审计,发现搜索引擎日期过滤在回顾性预测评估中严重失效——71%(Google)和 81%(DuckDuckGo)的问题至少有一个页面包含重大截止日期后信息泄漏,导致预测 Brier 分数从 0.24 虚降至 0.10。

Test of Time: Rethinking Temporal Signal of Benchmark Contamination

这篇论文证明“cutoff 之后性能下降”并不是稳健的 benchmark contamination 证据:同一批源文档只要从原文填空题换成 LLM 改写题,时间衰减信号就会显著改变甚至消失。

Time-RA: Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback

定义 Time-RA 新任务将时间序列异常检测从二分类升级为生成式推理诊断(检测+分类+原因解释),构建首个包含约 4 万样本、10 个领域、20 种异常类型的多模态基准 RATs40K,并通过 AI 反馈标注流程和 LLM 微调验证了该范式的可行性。

TSAQA: Time Series Analysis Question And Answering Benchmark

TSAQA 是一个统一的时间序列问答基准:它把 6 类时序分析任务(异常检测、分类、表征、比较、数据变换、时间关系)全部铸造成 3 种封闭式题型(判断题 TF、选择题 MC、以及新提出的拼图题 PZ),跨 13 个领域共 210k 样本,用统一协议零样本评测 LLM 与时序基础模型——结果显示即便最强商用模型 Gemini-2.5-Flash 也只有 65.08 的平均准确率,基准仍有很大挑战空间。


🩺 医疗 LLM (47)

"Excuse Me, May I Say Something…" CoLabScience: A Proactive AI Assistant for Biomedical Discovery

CoLabScience 通过 PULI(正无标注学习干预)框架,训练一个能在生物医学团队讨论中主动判断何时介入、如何介入的 LLM 助手,利用 GRPO 和强化学习协调器从流式对话中自动识别最佳干预时机并生成科学建议。

Anonpsy: A Graph-Based Framework for Structure-Preserving De-identification of Psychiatric Narratives

提出Anonpsy框架,将精神科叙事的去标识化重新定义为图引导的语义重写问题——先将叙事转换为语义图,在图上进行受约束的扰动以修改身份信息同时保持临床结构,最后通过图条件生成重建叙事。

Beyond Prompt: Fine-grained Simulation of Cognitively Impaired Standardized Patients via Stochastic Steering

提出 StsPatient,通过从对比指令/回复对中提取领域特定的转向向量(Steering Vector),配合随机 Token 调制(STM)机制控制注入概率来模拟不同认知障碍领域和严重程度的标准化病人,相比 prompt engineering 方法在临床真实性上平均提升 11.23%,在严重程度可控性上超越最佳基线 18.54%。

Beyond the Individual: Virtualizing Multi-Disciplinary Reasoning for Clinical Intake via Collaborative Agents

提出 Aegle 框架,通过图结构多智能体架构虚拟化多学科会诊(MDT),将解耦并行推理和动态拓扑引入门诊问诊流程,在24个科室53项指标上超越SOTA模型。

Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models

作者提出 MedCheck——首个面向医学 LLM benchmark 生命周期的评估框架,把 benchmark 构建拆成 5 个阶段共 46 条标准,用它对 56 个医学 benchmark 做审计,发现医学 NLP 评测领域存在 3 个系统性问题:(1) 50% 不对齐任何医学标准(ICD/SNOMED),(2) 88% 不处理数据污染,(3) 89% 不测模型 robustness、91% 不测 uncertainty——结论是当前"排行榜进步"很大程度是幻象。

BioHiCL: Hierarchical Multi-Label Contrastive Learning for Biomedical Retrieval with MeSH Labels

BioHiCL 利用 MeSH(医学主题词)的层级多标签标注为稠密检索器提供结构化监督,通过深度加权的标签相似度对齐嵌入空间与 MeSH 语义空间,使 0.1B 模型在生物医学检索、句子相似度和问答任务上超越大多数专用模型。

Calibrated? Not for Everyone: How Sexual Orientation and Religious Markers Distort LLM Accuracy and Confidence in Medical QA

研究社会身份标记(性取向和宗教信仰)如何扭曲LLM在医疗问答中的准确率和置信度校准,发现"同性恋"标记在9个LLM上一致导致性能下降和校准危机,且交叉身份产生非加性的特异性伤害。

Can Continual Pre-training Bridge the Performance Gap between General-purpose and Specialized Language Models in the Medical Domain?

本文通过构建高质量德语医学语料库 FineMed-de(从 FineWeb2 过滤 730 万文档/51 亿词),对三种 LLM(7B-24B)进行持续预训练和 SLERP 模型合并,创建 DeFineMed 模型家族,证明领域特化的 7B 模型可以在德语医学任务上显著缩小与 24B 通用模型的性能差距(胜率提升约 3.5 倍)。

CT-FineBench: A Diagnostic Fidelity Benchmark for Fine-Grained Evaluation of CT Report Generation

作者把"CT 报告好不好"这个模糊问题,拆成"每个 finding 的每条细粒度属性是否对得上"的 QA 检查清单,构建出 44k 题的 CT-FineBench 基准,对临床错误的敏感度和与人类专家打分的相关性都显著超过 BLEU/BERTScore/RadGraph/RaTEScore/GREEN 等已有指标。

CT-Flow: Orchestrating CT Interpretation Workflow with Model Context Protocol Servers

作者把 3D CT 解读重新建模成"放射科医生用工具迭代探查"的智能体任务,用 Model Context Protocol(MCP)暴露 Data Ingestion / Global Navigation / Detailed Observation / Advanced Analysis 四类工具,构造 2000+300 条可执行轨迹的 CT-FlowBench,并 SFT 出 CT-Flow-8B:在 3D-RAD 上达到 69.46% ACC,比纯切片基线提升 +22.46%,工具调用名称错误率仅 0.007/case。

查看全部47篇「医疗 LLM」论文 →


🧬 计算生物 (5)

AROMA: Augmented Reasoning Over a Multimodal Architecture for Virtual Cell Genetic Perturbation Modeling

提出 AROMA 框架,通过整合文本证据、知识图谱拓扑信息和蛋白质序列特征的多模态架构,结合两阶段训练策略(SFT + GRPO),实现了可解释且精确的基因扰动效应预测。

BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

BioTool 构建了一个覆盖 NCBI / Ensembl / UniProt 三大生物医学数据库 34 个常用工具、7,040 条经人工核验的「查询–API 调用」对的指令微调数据集,用它微调 4B 量级开源 LLM 后,工具调用质量超过 GPT-5.1 / Gemini-3 Pro / Claude-4.5-Sonnet 等商业大模型 15% 以上。

ChemAmp: Amplified Chemistry Tools via Composable Agents

提出"工具放大"新范式(区别于传统的工具编排),通过 ChemAmp 框架将化学专用工具(UniMol2、Chemformer等)作为可组合积木块动态构建任务专用超级智能体,在分子设计、反应预测等四个核心化学任务上超越专用模型和通用LLM,同时推理token成本减少94%。

ProtoCycle: Reflective Tool-Augmented Planning for Text-Guided Protein Design

ProtoCycle提出一种将LLM作为规划器、结合轻量级工具环境的反思式智能体框架,用于文本引导蛋白质序列设计:它用多轮“规划-工具调用-评估-反思”循环替代一次性文本到序列生成,在 Mol-Instructions 上将 ProTrek 提升到 14.681、Retrieval 提升到 0.936,并只用约 2,000 条 SFT 轨迹和在线 RL 达到接近/超过专用蛋白质设计模型的语言对齐效果。

ToxReason: A Benchmark for Mechanistic Chemical Toxicity Reasoning via Adverse Outcome Pathway

本文提出 ToxReason,一个基于不良结局路径 (AOP) 框架的化学毒性机理推理基准,整合药物-靶点实验数据与毒性标签,要求模型从分子起始事件推理到器官级不良结局;通过 GRPO 强化学习训练的 4B 模型在毒性预测(F1 71.4%)和推理质量上均超越 GPT-5 等大模型。


👥 社会计算 (44)

Among Us: Language of Conspiracy Theorists on Mainstream Reddit

分析5亿条Reddit评论的10年纵向数据,发现活跃于阴谋论社区的用户在主流社区中也展现出可检测的独特语言模式(平均87%分类准确率),但这些模式高度依赖社区上下文,社区特定模型比全局模型高出最多17个百分点。

Bayesian Social Deduction with Graph-Informed Language Models

提出 GRAIL(Graph Reasoning Agent Informed through Language),一个混合推理框架,将概率推理外化到因子图模型、用 LLM 处理语言理解和交互,在社交推理游戏 Avalon 中首次击败人类玩家(67% 胜率),且资源消耗远低于大规模推理模型。

Beyond the Crowd: LLM-Augmented Community Notes for Governing Health Misinformation

作者用 30.8K 条 X 平台健康类 Community Notes 的实证分析揭示出"首条 helpful verdict 中位延迟 17.6 小时、87.9% 笔记永远无评级"的系统性慢响应问题,提出 CrowdNotes+ 框架——以 (1) 证据增强和 (2) 效用引导自动化 两种模式让 LLM 写 note,并配以"相关性→正确性→帮助性"三级评估;15 个 LLM 在新 benchmark HealthNotes 上全面超过人工 note 的 73.19% helpfulness(最高 o3 模型达 81.15%)。

BITS Pilani at SemEval-2026 Task 9: Structured Supervised Fine-Tuning with DPO Refinement for Polarization Detection

本文为 SemEval-2026 POLAR 极化检测任务(英文子集)提出「结构化 slot-filling SFT + DPO 偏好优化」两阶段流水线,赛中提交 Qwen2.5-7B 系统取得 0.7664 Macro-F1,赛后换 Mistral-Nemo-12B + LLM-judge 过滤的偏好对,Macro-F1 提升至 0.8162,超过 organiser baseline (0.7802)。

Building Arabic NLP from the Ground Up: Twenty Years of Lessons, Failures, and Open Problems

这是一篇完整缓存的反思型论文而非实验论文,作者回顾二十年阿拉伯语 NLP 建设,指出低资源语言最难的问题往往不是语言学或模型技术,而是社区、制度、部署治理和知识生产方式。

ClaimDB: A Fact Verification Benchmark over Large Structured Data

ClaimDB 是首个把事实核查 evidence 放大到 80 个真实数据库、平均每 claim 含 11 张表 / 460 万行 / 1.1 亿 token 的基准,强制方法必须用可执行程序(SQL)做组合推理;对 30 个 SOTA LLM 的工具调用 agent 评测显示,过半模型 accuracy 不到 55%,且封闭模型几乎不会"弃权"、开源模型又过度弃权——NEI 处理是最大短板。

Confident, Calibrated, or Complicit: Safety Alignment and Ideological Bias in LLM Hate Speech Detection

作者在 Latent Hatred 基准上让 5 个 LLM(强对齐 vs 弱对齐)戴着 4 种政治 persona 跑零样本仇恨言论分类,发现强对齐模型严格准确率 69.0% 反而高于弱对齐的 64.1%、且对 persona 几乎免疫,但所有模型在反讽、目标群体公平性、置信度校准三方面都出现系统性失败。

Content Fuzzing for Escaping Information Cocoons on Social Media

提出 ContentFuzz,一个从内容创作者视角出发的置信度引导模糊测试框架,通过 LLM 改写帖子使其在保持人类解读含义不变的前提下改变机器推断的立场标签,从而突破社交媒体信息茧房。

Decide less, communicate more: On the construct validity of end-to-end fact-checking in medicine

作者用 5 位临床专家在 RedHOT(Reddit 健康讨论)社交媒体真实声明上做了一项 1,000 实例的标注研究,发现端到端医学事实核查(end-to-end fact-checking)在 construct validity 层面就站不住脚 —— 证据连接难、声明欠规约、严重程度判定主观,三大障碍即便专家也无法消除,因此提出应把医学 fact-checking 重构为「交互式医患沟通模型」而非「分类→裁决」管线。

DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects

本文构建 DIA-HARM,首个跨 50 种英语方言评估虚假信息检测鲁棒性的基准,揭示人类撰写的方言内容导致检测性能下降 1.4-3.6% F1,微调 Transformer 大幅优于零样本 LLM(96.6% vs 78.3%),且部分模型在混合内容上出现超过 33% 的灾难性退化。

查看全部44篇「社会计算」论文 →


🛡️ AI 安全 (5)

OmniCompliance-100K: A Multi-Domain Rule-Grounded Real-World Safety Compliance Dataset

本文构建了首个大规模、多领域、基于真实案例的 LLM 安全合规数据集 OmniCompliance-100K,包含 12,985 条人工整理的法规/政策规则和 106,009 条通过 Web 搜索智能体采集的真实合规案例,覆盖 AI 安全、数据隐私、金融、医疗等 9 个领域,并通过广泛的基准实验揭示了当前 LLM 在安全合规能力上的系统性短板。

On the (In-)Security of the Shuffling Defense in the Transformer Secure Inference

这篇论文指出 Transformer 安全推理中常用的“洗牌后公开中间激活”防御并不安全,并提出一种先把不同随机置换下的激活对齐、再解线性方程抽取权重的攻击,在 Pythia-70m 和 GPT-2 上能以约 1 美元查询成本恢复近似可用的模型权重。

Reverse Constitutional AI: A Framework for Controllable Toxic Data Generation via Probability-Clamped RLAIF

提出 Reverse Constitutional AI (R-CAI),通过反转 Constitutional AI 的原则为"毒性宪法",结合批评-修正循环和概率截断的 RLAIF 机制,实现自动化、可控的多维度对抗毒性数据合成,同时通过概率截断解决奖励黑客导致的语义退化问题(语义连贯性提升15%)。

Signals Are Not States: Neuro-Symbolic Safeguards for Culturally Aware Classroom AI

论文主张课堂 AI 不该把"沉默、回避眼神、语码转换"这类文化情境化的信号直接读成"低参与、不专心、能力差"的教育判断,提出神经符号框架 NSCR:先把多模态信号落成带不确定性、来源和文化作用域的类型化事实,再通过可执行推理与治理策略组合出有据声明,证据不足或有刻板印象风险时主动弃答(DEFER)

UniVid: 统一视频审核的视觉语言模型

UniVid 通过用统一的策略感知字幕 VLM 替代 1000+ 个黑盒分类器,将视频审核系统从不可维护的"碎片化"架构演进为可解释、可复用的"端到端"审核系统,在 ByteDance 平台生产部署中相比传统方案违规泄漏率下降 42.7%。


🗂 其他方向 (4)


🔄 自监督/表示学习 (1)

LLMSurgeon: Diagnosing Data Mixture of Large Language Models

LLMSurgeon 把“这个 LLM 到底训练在什么数据上”形式化为 Data Mixture Surgery,并用代理分类器的软混淆矩阵反演生成文本中的领域分布,从而在只访问模型输出的条件下估计预训练数据混合比例。


📂 其他 (3)

Automated Knowledge Component Generation and Interpretable Knowledge Tracing in Coding Problems

这篇论文用 LLM 自动为开放式编程题生成和聚类 Knowledge Components,并提出 KCGen-KT 将学生在每个 KC 上的掌握度转成 soft token 输入 Llama 3,在 CodeWorkout 和 FalconCode 上同时提升正确率预测与学生代码生成。

NSF-SciFy: Mining the NSF Awards Database for Scientific Claims

NSF-SciFy 从 NSF 奖项摘要中抽取 2.8M 科学 claims 和 investigation proposals,构建了比现有科学 claim 数据集大几个数量级的资源,并展示了它能显著提升 claim / proposal 抽取模型。

Qayyem: A Real-time Platform for Scoring Proficiency of Arabic Essays

Qayyem 是首个支持跨题目(cross-prompt)多维度(multi-trait)阿拉伯语自动作文评分的 Web 平台,集成了从特征工程到 SOTA 神经模型的多种评分方案,支持端到端的学术写作评估工作流。