跳转至

💬 ACL2025 论文汇总

1855篇ACL2025论文解读,涵盖 LLM 其他(442篇)、多模态 VLM(111篇)、LLM 评测(89篇)、多语言/翻译(86篇)、信息检索/RAG(84篇)、对齐 / RLHF(82篇)、模型压缩(78篇)、LLM Agent(56篇)等 47个方向。每篇含一句话总结、核心思想、方法详解、实验结果与局限性分析,5分钟读懂一篇论文核心思想。


💡 LLM Reasoning (54)

An Efficient and Precise Training Data Construction Framework for Process-Supervised Reward Model in Mathematical Reasoning

本文提出EpicPRM框架,通过基于困惑度(perplexity)的Monte Carlo估计量化每个推理步骤的贡献度,并使用自适应二分搜索高效定位首个错误步骤,构建了高质量的过程监督数据集Epic50k(仅50k标注步骤),训练出的PRM性能可媲美甚至超越在PRM800k上训练的模型。

Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework

提出 Aristotle 逻辑推理框架,将符号表达式和逻辑规则全面融入 Decompose-Search-Resolve 的每个阶段,通过逻辑分解器、搜索路由器和消解器三大组件实现逻辑完备的推理,在多个逻辑推理基准上以 GPT-4 平均提升 4.5%、GPT-4o 平均提升 5.4% 超越 SOTA。

Beyond the Answer: Advancing Multi-Hop QA with Fine-Grained Graph Reasoning and Evaluation

本文针对多跳问答(Multi-hop QA)任务中推理过程不透明、评估粒度粗糙的问题,提出了一种基于细粒度图推理的框架,通过构建推理图来显式建模证据链,并引入细粒度评估指标来衡量推理过程的质量,而非仅关注最终答案的正确性。

BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving

提出 BPP-Search 算法,将 Beam Search、过程奖励模型 (PRM) 和 Pairwise Preference 机制整合到 Tree-of-Thought 框架中,用于运筹学数学建模问题的自动求解,在 StructuredOR 等数据集上以更少的推理步骤显著超越 CoT/SC/ToT 基线。

Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

本文提出DeltaBench——首个系统评估o1类模型长CoT推理质量和现有LLM/PRM错误检测能力的基准数据集,通过对1,236个样本的精细人工标注,揭示了o1类模型约27%推理冗余、67.8%反思无效,以及最强critic模型GPT-4-turbo-128k也仅达F1=40.8%的令人警醒的现状。

Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective

提出 Chain-of-Reasoning(CoR)框架,将自然语言推理(NLR)、算法推理(AR)和符号推理(SR)三种范式统一在一个推理链中,通过渐进范式训练(PPT)策略让 7B 模型(CoR-Math-7B)在零样本下超越 GPT-4o 41% 的定理证明准确率,在 MATH 基准上超过 RL 方法 15%。

ClozeMath: Improving Mathematical Reasoning in Language Models by Learning to Fill Equations

ClozeMath 提出了一种受人类完形填空学习启发的微调策略,通过掩码数学解答中的方程式并训练模型预测它们(text-infilling目标),与标准语言模型目标联合训练,在GSM8K和MATH上显著超越了强基线Masked Thought,并在推理时间扩展和鲁棒性测试中表现出更好的泛化能力。

Commonsense Abductive Reasoning using Knowledge from Multiple Sources

本文提出一种融合多源知识(知识图谱、预训练语言模型、规则库)的常识溯因推理方法,通过联合利用结构化和非结构化知识来生成更准确、更可解释的最佳解释,在溯因推理基准上取得了显著提升。

Complex Reasoning with Natural Language Contexts and Background Knowledge

本文提出一种将自然语言上下文与结构化背景知识相结合的复杂推理框架,通过知识图谱检索增强和上下文感知的推理链生成,显著提升LLM在需要外部知识支撑的多步推理任务上的表现。

CoT-based Synthesizer: Enhancing LLM Performance through Answer Synthesis

提出 CoT-based Synthesizer——一种新的推理扩展策略,通过利用 CoT 推理分析多个候选回答的互补信息来合成更优的最终答案,即便所有候选回答都是错误的也能综合出正确答案,在 MATH500 上对 Llama3-8B 提升 11.8%、对 GPT-4o 提升 10.3%。

查看全部54篇「LLM Reasoning」论文 →


🦾 LLM Agent (56)

Agentic Knowledgeable Self-Awareness

本文提出 KnowSelf,一种数据驱动方法,通过在 agent 自探索轨迹上标注特殊 token 来标识不同思维情境(快速思考/慢速思考/知识思考),经两阶段训练(SFT + RPO)使 agent 模型学会自主判断何时需要调用外部知识,以最小知识消耗代价达到最优规划效果。

Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools

Agentic Reasoning 提出了一个将 Web 搜索、代码执行和知识图谱记忆(Mind-Map)三种 Agent 工具集成到 LLM 推理过程中的框架,在 DeepSeek-R1 上将 Humanity's Last Exam 准确率从 9.4% 提升到 23.8%(+14.4%),GPQA 从 71.5% 到 81.2%,接近 OpenAI Deep Research 水平。

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

本文提出Agentic Reward Modeling范式和RewardAgent实现,将传统基于人类偏好的奖励模型与来自事实性验证和指令遵循验证的可验证正确性信号进行整合,通过Router-验证Agent-Judger三模块架构显著提升奖励模型的可靠性。

Agents Under Siege: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks

本文首次系统研究了在带宽约束、延迟和安全机制的现实多智能体LLM系统中的对抗攻击问题,提出基于最大流最小费用的拓扑优化和排列不变蒙骗损失(PIEL)的攻击方法,在多个LLM架构上实现了高达7倍于传统攻击的成功率。

An Empirical Study on LLM-based Agents for Automated Bug Fixing

本文对SWE-bench Verified上排名前六的LLM-based bug修复系统进行了系统性分析,从整体修复能力、故障定位准确率和缺陷复现有效性三个维度揭示了当前Agent系统的能力边界和改进方向。

AndroidGen: Building an Android Language Agent under Data Scarcity

提出 AndroidGen 框架,通过经验检索(ExpSearch)、反思规划(ReflectPlan)、自动校验(AutoCheck)和步骤级评判(StepCritic)四个模块,在高质量训练数据稀缺的条件下增强LLM的Android操作能力,并通过自动生成轨迹数据训练出无需人工标注的开源移动端agent。

Auto-TA: Towards Scalable Automated Thematic Analysis (TA) via Multi-Agent Large Language Models with Reinforcement Learning

提出一个基于多智能体 LLM 的全自动主题分析(Thematic Analysis)流水线,通过专业角色分工和可选的 RLHF 微调,实现对临床叙事的端到端主题提取,消除了人工编码和全文审阅的需求。

Bel Esprit: Multi-Agent Framework for Building AI Model Pipelines

提出 Bel Esprit 多 Agent 对话框架,通过 Mentalist(需求澄清)→ Builder(管线构建)→ Inspector(验证)→ Matchmaker(模型分配)四步协作,将用户模糊的自然语言需求自动转化为多模型 AI 管线图,在 441 条管线数据上达到 25.2% EM 和 37.0 GED(GPT-4o Builder)。

Beyond Numeric Rewards: In-Context Dueling Bandits with LLM Agents

系统评估了 LLM 在 Dueling Bandits(偏好反馈强化学习)中的零样本上下文决策能力,发现 GPT-4 Turbo 在弱遗憾(weak regret)上表现出色但强遗憾(strong regret)存在差距,进而提出 LEAD 框架(LLM with Enhanced Algorithmic Dueling),通过将经典 DB 算法与 LLM 智能体细粒度自适应融合来同时获得理论保证和鲁棒性。

BookWorld: From Novels to Interactive Agent Societies for Story Creation

BookWorld是首个基于小说的多智能体社会模拟系统,通过从源书籍中提取角色数据和世界观信息来构建交互式虚拟世界,让小说角色在其中自主行动和互动,进而生成创意故事,在75.36%的对比中超越了之前的故事生成方法。

查看全部56篇「LLM Agent」论文 →


👥 Multi-Agent (8)

Beyond Frameworks: Unpacking Collaboration Strategies in Multi-Agent Systems

本文系统化地将多智能体协作分解为四个维度(治理模式、参与控制、交互模式、上下文管理),通过两个上下文依赖任务的大量实验证明:集中治理+指导者控制参与+有序交互+指导者摘要的组合最优,在保持甚至提升准确率的同时减少高达 93% 的 token 消耗。

CoMet: Metaphor-Driven Covert Communication for Multi-Agent Language Games

本文提出 CoMet 框架,通过整合基于假设检验的隐喻推理器和自改进式隐喻生成器,使 LLM 智能体能在多智能体语言博弈中运用隐喻进行隐蔽通信和语义规避,在 Undercover 和 Adversarial Taboo 两个游戏中显著提升了智能体的策略沟通能力(胜率从 0.20 提升至 0.70)。

CortexDebate: Debating Sparsely and Equally for Multi-Agent Debate

提出 CortexDebate,一种受人脑皮层工作机制启发的多智能体辩论方法,通过构建稀疏动态辩论图和基于 McKinsey 信任公式的评估模块(MDM),同时解决了现有 MAD 方法中"输入上下文过长"和"过度自信导致不平等辩论"两大核心问题。

DocAgent: A Multi-Agent System for Automated Code Documentation Generation

提出 DocAgent,一个基于拓扑依赖排序的多智能体代码文档生成系统,通过 Reader-Searcher-Writer-Verifier 协作流程增量构建上下文,在完整性、实用性和真实性三个维度上显著优于 FIM 和 Chat 基线。

GETReason: Enhancing Image Context Extraction through Hierarchical Multi-Agent Reasoning

提出 GETReason,一个层级化多智能体框架,通过将公共事件图像的上下文提取分解为地理空间、时间和事件三个子任务,并由专门化的 Agent 协作完成,实现比现有方法更准确的图像上下文推理。

Multi-Agent Collaboration via Cross-Team Orchestration

提出 Cross-Team Orchestration (Croto),一个可扩展的多团队协作框架,通过将多个独立 agent 团队组织起来进行跨团队交互,利用层次化分组 (Hierarchy Partitioning) 和贪心聚合 (Greedy Aggregation) 机制将各团队的多样化解决方案融合为更优结果。

Preventing Rogue Agents Improves Multi-Agent Collaboration

提出一种通过实时监控 Agent 不确定性来检测"失控 Agent"(rogue agent)并进行干预的框架,在自建的 WhoDunitEnv 多智能体协作环境以及代码生成和资源可持续性任务上分别取得高达 17.4%、2.5% 和 20% 的性能提升。

Voting or Consensus? Decision-Making in Multi-Agent Debate

系统性对比了多智能体辩论中 7 种决策协议(投票 vs 共识),发现共识协议在知识任务上提升 2.8%、投票协议在推理任务上提升 13.2%,并提出 AAD 和 CI 两种增强答案多样性的新方法,分别带来 3.3% 和 7.4% 的性能提升。


⚖️ 对齐 / RLHF (82)

A Dual-Mind Framework for Strategic and Expressive Negotiation Agent

本文受人类认知双过程理论启发,提出双心智谈判智能体框架(DMNA),将直觉模块(快速策略规划,基于 MCTS+DPO 训练)和审慎模块(慢速表达优化,基于多面反思机制)相结合,在谈判任务上取得了最优性能。

AceCoder: Acing Coder RL via Automated Test-Case Synthesis

构建 AceCode-87K(87K 编码题 + 138 万自动合成测试用例),训练代码专用 Reward Model(7B 超越 340B Nemotron),Best-of-N 提升 Llama-3.1-8B 平均 8.9 分,R1 风格从 base 直接 RL 仅 80 步 HumanEval+ 提升 22.5%。

AGD: Adversarial Game Defense Against Jailbreak Attacks in Large Language Models

本文提出AGD(Adversarial Game Defense),一种基于对抗博弈的LLM越狱攻击防御方法,通过动态调整模型内部表示在有用性和无害性之间取得平衡,利用IQR异常检测、双层优化博弈和专家模型采样三个阶段显著提升LLM安全性。

AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic LLMs

本文提出 AgentAlign 框架,利用抽象行为链作为中介,在模拟环境中合成高质量的 agent 安全对齐数据(有害+良性),通过 SFT 使三类开源模型的 agent 安全性提升35.8%-79.5%,同时保持甚至提升了任务能力。

AgentRM: Enhancing Agent Generalization with Reward Modeling

提出 AgentRM,一个可泛化的奖励模型,通过显式/隐式/LLM-as-Judge 三种方式构建,用测试时搜索(Best-of-N / Beam Search)引导策略模型,在 9 个 Agent 任务上平均提升 8.8 分并超越最佳通用 Agent 4.0 分。

Aligning to What? Limits to RLHF Based Alignment

本文通过系统实验发现RLHF(包括DPO、ORPO、RLOO等方法)在减少LLM隐性种族偏见方面基本无效,且SFT在RLHF之前进行会"固化"模型偏见,揭示了当前对齐技术在处理模糊目标(如消除偏见)方面的根本局限。

AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models

提出AMoPO框架,通过将生成空间建模为高斯分布实现维度感知的自适应权重分配,在不依赖奖励模型和参考模型的情况下完成多目标偏好对齐,在HelpSteer2数据集上超越SOTA 28.5%,并在7B/14B/32B模型上验证了缩放能力。

ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning

将 DPO 的偏好优化粒度从回复级细化到句子级,通过图文相似度和文本困惑度两个维度动态计算每个句子的自适应奖励权重,在 LLaVA-1.5-7B/13B 和 InstructBLIP-13B 上分别带来平均 2.57/2.87/1.98 分提升,同时显著降低幻觉率。

Atyaephyra at SemEval-2025 Task 4: Low-Rank Negative Preference Optimization

在 SemEval 2025 LLM 遗忘共享任务中,将负偏好优化 (NPO) 与低秩适配 (LoRA) 结合,利用 LoRA 的结构特性零开销获取原始模型分布来计算 KL 散度正则化,显著稳定了遗忘过程并超越了任务基线。

AutoMixAlign: Adaptive Data Mixing for Multi-Task Preference Optimization in LLMs

AutoMixAlign 提出了一种理论驱动的多任务偏好优化数据混合方法:先训练各任务的 specialist model 确定最优 loss 基线,再通过 minimax 优化自适应调整数据混合比例,优先处理 excess loss(与 specialist 的差距)最大的任务,在 helpfulness/harmlessness/reasoning 多任务 DPO 中平均提升 9.42%。

查看全部82篇「对齐 / RLHF」论文 →


🔒 LLM 安全 (55)

A Statistical and Multi-Perspective Revisiting of the Membership Inference Attack in Large Language Models

本文通过数千次实验从统计视角全面重新审视 LLM 中的成员推断攻击(MIA),从数据分割方式、模型规模、领域特性、文本特征、嵌入可分性和解码动态六个维度分析 MIA 性能的不一致性,揭示了阈值泛化、文本长度/相似性影响、嵌入层涌现变化等此前被忽视的发现。

AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection

提出 AGrail,一个终身学习的 LLM Agent 安全护栏框架,通过双 LLM 协作(Analyzer + Executor)和记忆模块,在测试时自适应地生成和优化安全检查策略,有效防御任务特定风险和系统性风险。

Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning

提出"上下文知识遗忘"方法,通过引入特殊的遗忘 token <<UNL>>...<</UNL>> 使 LLM 在推理时根据上下文选择性遗忘特定知识,在 TOFU/AGE/RWKU 上达到 95% 遗忘准确率且保留 80% 无关知识,深入的内部分析发现 LLM 并未真正删除知识而是在最后一层"假装遗忘"。

Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs

本文挑战了"LLM隐藏状态能编码事实真假信息"这一先前结论,通过构建更真实、更具挑战性的数据集(基于困惑度的负样本采样和基于QA的LLM生成数据集),发现先前方法在更贴近实际场景的数据上泛化能力有限,为LLM事实性评估研究提供了更严格的评估基准和实践指导。

Bias in the Mirror: Are LLMs' Opinions Robust to Their Own Adversarial Attacks

本文提出一种新颖的"自辩论"范式,让同一个LLM的两个实例分别扮演正方和反方进行辩论,试图说服一个中立版本的模型,以此评估LLM内在偏见的鲁棒性——偏见是否容易被动摇,以及模型是否容易被自身的对抗性论证带偏。

CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks

提出 CAVGAN 框架,利用生成对抗网络在 LLM 内部表示空间中同时学习越狱攻击(生成器)和安全防御(判别器),首次将攻防统一到同一框架中实现"攻防共进",攻击成功率平均 88.85%,防御成功率平均 84.17%。

Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models

提出 Chinese SimpleQA——首个全面的中文事实性评估基准,包含 3000 个高质量短问答(覆盖 6 大主题、99 个子主题),评估 41 个 LLM 后发现仅 o1-preview(63.8%)和 Doubao-pro-32k(61.9%)能通过,并系统揭示了"大模型更好"、"RAG缩小差距"、"对齐降低事实性"等关键洞察。

CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP

提出 CLIPErase,一种专为 CLIP 多模态模型设计的机器遗忘框架,通过遗忘模块、保留模块和一致性模块三部分协同,选择性地移除特定视觉-文本关联,同时保持模型在保留数据上的性能。

ComparisonQA: Evaluating Factuality Robustness of LLMs Through Knowledge Frequency Control and Uncertainty

构建 ComparisonQA 基准(283K 配对问题),通过让高频和低频实体共享同一抽象问题实现受控对比,结合正确性和不确定性的两轮评估方法发现 LLM(包括 GPT-4o)对低频知识的鲁棒性极差。

Core: Robust Factual Precision with Informative Sub-Claim Identification

本文提出 Core 框架,通过识别和过滤信息性子声明(informative sub-claims)来实现鲁棒的事实精度(factual precision)评估,解决了现有方法因无信息声明的稀释效应而导致评估不准确的问题。

查看全部55篇「LLM 安全」论文 →


👻 幻觉检测 (28)

Activation Steering Decoding: Mitigating Hallucination in Large Vision-Language Models through Bidirectional Hidden State Intervention

本文提出 ASD(Activation Steering Decoding),一种无需训练的推理时幻觉缓解方法,通过在 LVLM 的中间隐藏状态中识别幻觉方向模式,利用双向引导和对比解码来抑制幻觉输出,同时保持模型在通用视觉理解任务上的性能。

Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering

提出NOVA框架,通过内部一致性探测(ICP)衡量LLM对指令的熟悉度+语义等价识别(SEI)衡量LLM对目标回复的熟悉度,筛选出知识对齐的高质量指令数据,仅用5%数据微调LLaMA-3-8B即可在BioGEN上提升8.6分、FollowRAG上提升7.2分,同时保持指令遵循能力。

Alleviating Hallucinations from Knowledge Misalignment in Large Language Models via Selective Abstention Learning

本文针对LLM中因知识错位(模型参数知识与事实不一致)导致的幻觉问题,提出选择性弃权学习(Selective Abstention Learning)方法,让模型在遇到知识边界外的问题时学会主动拒绝回答而非编造内容,从而减少幻觉。

Automated Explanation Generation and Hallucination Detection for Heritage Image Retrieval

本文针对文化遗产图像检索任务,提出了一个结合自动解释生成和幻觉检测的框架,利用视觉语言模型为检索结果生成可解释的文本描述,同时通过领域知识约束的幻觉检测机制确保描述的事实准确性,在多个文化遗产数据集上验证了方法的有效性。

CCHall: A Novel Benchmark for Joint Cross-Lingual and Cross-Modal Hallucinations Detection in Large Language Models

提出首个联合跨语言与跨模态幻觉检测基准 CCHall,覆盖 9 种语言和 4 类多模态数据集,系统评估 6 款主流 MLLM 在联合场景下的幻觉表现,揭示当前模型在该联合场景中 F1 比单独跨模态低 10.9、比单独跨语言低 3.4,且提出多语提示和外部工具辅助两条缓解路径。

Correcting Hallucinations in News Summaries: Exploration of Self-Correcting LLM Methods with External Knowledge

系统性地探究了两种自纠正方法(CoVE 和 RARR)在新闻摘要幻觉纠正中的表现,比较了三种搜索引擎、多种检索设置和提示策略,发现 Bing 搜索片段 + RARR(few-shot)组合效果最佳,且 G-Eval 与人类评估高度一致。

Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence

提出 VHD 指标量化每个注意力头输出对视觉输入的敏感程度,发现仅少数注意力头对视觉信息高度敏感而模型过度依赖语言先验是导致幻觉的关键因素,进而设计 VHR 免训练方法逐层自适应增强视觉感知头的贡献(\(\alpha=2\)),在 CHAIR 上将 LLaVA-1.5 的 CHAIR\(_S\) 从 49.68 降至 33.32,且几乎无额外推理开销。

DRAG: Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination

DRAG 提出了一种从大模型向小模型蒸馏 RAG 能力的框架:用大模型(如 GPT-4o)为给定问题生成证据和知识图谱三元组,经排序过滤后作为结构化上下文输入给小模型(2B-9B),无需微调即可将小模型在 ARC-C 上提升高达 27.7%,同时显著减少幻觉。

ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries

提出 Entity Tracing Framework (ETF),一种通过静态程序分析提取代码实体、再用 LLM 验证这些实体在生成摘要中是否被正确描述的幻觉检测框架,配合首创的 CodeSumEval 数据集(~10K样本),在代码摘要幻觉检测上达到 73% F1。

FIHA: Autonomous Fine-grained Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs

本文提出 FIHA,一个无需 LLM 和人工标注的自动化细粒度幻觉评估框架,通过从图像和描述中提取实体、属性和关系生成 Q&A 对,并引入 Davidson 场景图(DSG)建模问题间的依赖关系,构建了 FIHA-v1 基准,全面评估了主流大视觉语言模型的幻觉水平。

查看全部28篇「幻觉检测」论文 →


📊 LLM 评测 (89)

A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates

提出基于 conformal risk control 框架对 CLIPScore 进行细粒度词级错误检测和不确定性校准,通过简单的注意力掩码采样生成分数分布,在保持模型无关性的同时提供形式化的风险控制保证。

MisMatched: A Benchmark for Scientific Natural Language Inference

引入 MisMatched——首个覆盖非 CS 领域(心理学、工程、公共卫生)的科学 NLI 评估基准,包含 2,700 对人工标注句子对,最佳 SLM 基线(SciBERT)Macro F1 仅 78.17%,最佳 LLM 基线(Phi-3)仅 57.16%,并证明训练时加入隐式关系句子对可提升模型性能。

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

提出 AbGen——首个评估 LLM 设计消融实验能力的基准(1500 条专家标注数据来自 807 篇 NLP 论文),发现最强 LLM (DeepSeek-R1) 与人类专家差距 14.4%,且 LLM-as-Judge 评分与人类评估严重不一致。

Access Denied Inc: The First Benchmark Environment for Sensitivity Awareness

首次形式化定义 LLM "敏感性感知"(Sensitivity Awareness)概念——评估 LLM 能否根据基于角色的访问控制(RBAC)规则决定信息是否可以提供——并构建自动化评估基准 Access Denied Inc,在 7 个主流 LLM 上发现即使数据高度结构化且规则极简,最佳模型 Grok-2 仍有 18.28% 的泄露率。

Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models

将桌游Codenames实现为LLM评测基准,LLM同时扮演线索给出者(Spymaster)和猜测者(Field Operative),在13种不同难度实验中与确定性对手对战,14个模型中最佳(o3-mini)胜率仅49%,揭示了LLM在词汇关联、策略选择和纠错能力上的显著局限。

AD-LLM: Benchmarking Large Language Models for Anomaly Detection

提出首个LLM异常检测基准AD-LLM,系统评估LLM在零样本检测、数据增强和无监督模型选择三个核心任务中的能力,发现GPT-4o零样本检测在多数数据集上超越传统训练方法,合成数据对灵活表示的检测器有效但对几何假设模型有害,推理型LLM模型选择接近最优但解释缺乏数据集针对性。

AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

提出AndroidLab——一个系统性的Android智能体评测与训练框架,包含统一的操作环境、138个任务的可复现基准测试和94.3K步骤的指令数据集,通过微调将开源LLM成功率从4.59%提升至21.50%。

AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge

提出 AntiLeakBench 自动化反泄露基准框架,通过追踪 Wikidata 知识更新历史识别 LLM 截止时间后的新知识,自动构建单跳/多跳 QA 测试样本(附真实 Wikipedia 支撑文档),确保知识级严格无污染,12 个 LLM 的大规模实验证实截止后性能普遍下降(EM 跌幅显著)验证了框架有效性。

Are Bias Evaluation Methods Biased?

严格控制变量后比较三种主流偏见评估方法(结构化问答 BBQ、LLM-as-a-Judge、情感分析),发现不同方法对同一组 LLM 产生显著不同的偏见排名——偏见评估方法本身就是有偏的,企业不应依赖单一偏见基准来选择模型。

Atomic Calibration of LLMs in Long-Form Generations

系统研究长文本生成中的原子级校准(atomic calibration),将置信度获取方法分为判别式和生成式两类,发现两者互补且提出基于置信度一致性的融合策略,揭示了模型在生成过程中置信度变化的有趣模式。

查看全部89篇「LLM 评测」论文 →


⚡ LLM 效率 (42)

A Drop-In Solution for On-the-Fly Adaptation of Speculative Decoding in Large Language Models

本文提出一种即插即用的推测解码自适应方案,能够在推理过程中动态调整草稿模型的推测窗口大小γ(以及可能的草稿模型选择),从而在不同输入分布下最大化推测解码的端到端加速比。

Accelerating Speculative Decoding via Efficient Context-Aware Draft Generation

本文提出了一种上下文感知的高效草稿生成策略来加速推测解码(Speculative Decoding),通过让草稿模型根据当前上下文动态调整生成质量,在保持输出一致性的前提下显著提升 LLM 推理吞吐量。

LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training

提出 LaMPE(Length-aware Multi-grained Positional Encoding),通过 参数化 scaled sigmoid 函数 自适应确定最优映射长度,并设计 三区域多粒度注意力机制(head 精细局部 + middle 线性归一化压缩 + tail 恢复长程依赖),实现无训练即插即用的 LLM 上下文窗口外推,在五大长上下文基准上全面超越现有方法。

Boosting Long-Context Information Seeking via Query-Guided Activation Refilling

本文提出ACRE(Activation Refilling)方法,通过构建双层KV缓存架构——L1层紧凑捕获全局信息、L2层提供局部详细信息——并利用输入查询动态从L2向L1补充相关条目,实现长上下文信息检索任务的高效处理,在性能和效率上均有显著提升。

CLaSp: In-Context Layer Skip for Self-Speculative Decoding

CLaSp 提出一种无需训练的自推测解码方法,通过动态规划算法在每个验证步骤后根据上下文动态调整跳层策略,利用上一次验证的完整隐状态作为目标来选择最优跳层集合,在 LLaMA3 系列上实现 1.3-1.7× 加速且不改变生成分布。

CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels

构建了 CNNSum——基于中文小说的多尺度长文本摘要基准(695 样本,16k-128k tokens),通过人工标注确保质量,系统测评了 20+ 个 LLM,发现高级 LLM 倾向生成主观评述导致摘要模糊、小模型性价比更高、Base 版微调效果优于 Chat 版,且用短文本数据微调即可显著提升长文本摘要能力。

Consistency-Preserving Contrastive Decoding for Faithful Document-Grounded Dialogue

本文提出一种一致性保持的对比解码(Consistency-Preserving Contrastive Decoding, CPCD)方法,通过在解码阶段对比有文档条件和无文档条件的生成分布,增强文档基础对话系统对源文档的忠实性,同时保持回复的流畅性和对话一致性。

Consultant Decoding: Yet Another Synergistic Mechanism

提出 Consultant Decoding (CD),一种基于目标模型负对数似然(NLL)验证 draft token 的新型协同解码机制,相比传统 Speculative Decoding 的似然比验证方法,能大幅提升接受率、降低大模型调用频率,同时保持甚至超越目标模型的生成质量。

Decoding Knowledge Attribution in Mixture-of-Experts: A Framework of Basic-Refinement Collaboration and Efficiency Analysis

提出跨层级知识归因算法,系统解析 MoE 模型中共享专家与路由专家的"基础-精炼"协作框架,揭示 MoE 相比稠密模型实现 31% 更高的逐层效率,并通过语义驱动路由机制(注意力头-专家相关性 r=0.68)和专家阻断实验验证了架构深度对鲁棒性的决定性影响。

Giraffe: Design Choices for Extending the Context Length of Visual Language Models

系统性地探索了将现有视觉语言模型(VLM)的上下文窗口扩展到128K的设计空间,从数据配方、位置编码扩展到上下文利用三个维度提出最佳实践,并提出 M-RoPE++ 和混合分辨率训练两项技术,构建的 Giraffe 模型在长上下文 VLM 中达 SOTA。

查看全部42篇「LLM 效率」论文 →


📚 预训练 (40)

Adversarial Tokenization

本文发现 LLM 管线中 BPE tokenizer 只使用唯一一种分词方式,但同一字符串存在指数级多种合法分词;通过对抗性地选择非标准分词方案,可以在不改变原始文本的情况下绕过安全对齐,攻击成功率与现有 SOTA 文本级攻击方法相当。

AsyncLM: Efficient and Adaptive Async Pre-training of Language Models

本文提出AsyncLM,一种高效的异步预训练框架,通过自适应梯度补偿和动态批量调度策略解决异步分布式训练中的梯度过期问题,在保持与同步训练相当的模型质量的同时,将大规模语言模型预训练的吞吐量提升了1.4-1.8倍。

AutoDS: Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts

提出 AutoDS——用基座语言模型自身作为零样本生成分类器,通过 YES/NO token 的 logits 计算连续 LM-Score 来自动评估数学文本质量,筛选高质量语料做持续预训练,在 MATH/GSM8K/BBH 上实现约 2 倍 token 效率提升。

Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases

提出在自然语言预训练前先在形式语言上进行"pre-pretraining",发现具有层级依赖结构的形式语言(如 k-Shuffle Dyck)能为 Transformer 提供有效的归纳偏置,使 1B 参数模型以 33% 更少的 token 达到相同的语言建模损失。

Byte Latent Transformer: Patches Scale Better Than Tokens

提出 Byte Latent Transformer (BLT),一种无分词器的字节级 LLM 架构,通过基于熵的动态分组将字节聚合为可变长度 patch,首次在 8B 规模上匹配 token-based 模型性能,同时解锁了通过同时增大 patch 和模型尺寸来提升推理效率的新 scaling 维度。

Chinese Grammatical Error Correction With Pre-trained Models and Linguistic Clues

本文提出一种融合预训练语言模型和多层级语言学线索(拼音、字形、句法依存)的中文语法纠错方法,通过显式注入语言学先验知识提升纠错模型对中文特有错误类型的识别和修正能力。

CritiQ: Mining Data Quality Criteria from Human Preferences

CritiQ 提出了一种基于 Agent 协作的数据质量标准自动挖掘方法,仅需约 30 个人类偏好标注对即可自动发现可解释的数据质量标准,并训练评分器进行高效数据选择,在代码、数学和逻辑领域的实验中显著提升了 Llama 3.1 的下游性能。

Data-Constrained Synthesis of Training Data for De-Identification

本文系统研究了在数据受限条件下,如何利用领域适应的LLM生成合成临床文本,并通过机器标注训练NER模型进行个人身份信息(PII)检测,发现机器标注器的质量而非生成模型的规模是决定合成数据效用的关键因素。

Data Caricatures: On the Representation of African American Language in Pretraining Corpora

结合定量实验、人工判断和定性分析,系统评估了 12 个开源预训练语料库中非裔美国人语言(AAL)的数量与质量:发现 AAL 仅占 0.007%–0.18% 的文档(远低于人口比例),C4 中 28.9% 的 AAL 文本被判为不适合 LLM 生成、24.5% 强化有害刻板印象,且 16 种自动过滤器中有 13 种系统性地偏向保留白人主流英语(WME)而非 AAL。

Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning

Data Whisperer 提出一种无需训练的注意力加权 few-shot ICL 数据选择方法,利用预训练模型自身的 ICL 能力和注意力分数为训练样本打分,仅用 10% 数据即可超越全量微调性能,同时比现有方法快 7-20 倍。

查看全部40篇「预训练」论文 →


✏️ 知识编辑 (19)

A General Knowledge Injection Framework for ICD Coding

本文提出 GKI-ICD,一个通用的知识注入框架,通过指南合成和多任务学习机制,无需额外网络模块即可同时整合 ICD Description、Synonym 和 Hierarchy 三种知识,在 MIMIC-III 基准上取得 SOTA 性能。

ToxEdit: Adaptive Detoxification Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing

提出 ToxEdit——毒性感知的知识编辑方法,在 LLM 前向传播早期层用 SVM 分类器检测有害隐藏状态,通过路由机制将有害输入导向编辑后的 FFN 副本、无害输入走原始 FFN,在 LLaMA3-8B/LLaMA2-7B/Mistral-7B 上同时实现了近 98% 去毒成功率和 95% 指令遵从保留(DL 指标),解决了知识编辑去毒中"去毒 vs 过度编辑"的核心矛盾。

BMIKE-53: Investigating Cross-Lingual Knowledge Editing with In-Context Learning

提出 BMIKE-53 —— 覆盖 53 种语言、整合 zsRE/CounterFact/WikiFactDiff 三个知识编辑数据集的跨语言基准,系统评估 zero-shot 到 8-shot 的上下文知识编辑方法,发现文字系统(拉丁 vs 非拉丁)比语言家族更能决定跨语言编辑效果,且 metric-specific 示例策略显著优于混合示例。

ChainEdit: Propagating Ripple Effects in LLM Knowledge Editing through Logical Rule-Guided Chains

提出 ChainEdit 框架,通过将知识图谱中挖掘的逻辑规则与 LLM 内在逻辑推理能力对齐,实现知识编辑时的链式更新,将逻辑泛化准确率从约 20% 提升至 58-65%。

CKnowEdit: A New Chinese Knowledge Editing Dataset for Linguistics, Facts, and Logic Error Correction in LLMs

构建首个面向中文语言特性的知识编辑数据集 CKnowEdit,涵盖语言学(拼音/古诗/文言/成语/谚语)、事实(历史地理)和逻辑陷阱(谐音/推理/文字游戏)三大类共 1,854 条样本,系统评估五种主流知识编辑方法在四个中文 LLM 上的表现,揭示中文独有的编辑难题。

CompKe: Complex Question Answering under Knowledge Editing

提出CompKe基准——包含11,924个复杂问题——用于评估知识编辑方法在涉及一对多关系、逻辑操作(交集/并集)和条件确认的复杂推理场景下的表现,揭示现有方法在复杂问答上的显著不足。

Context-Robust Knowledge Editing for Language Models

发现现有知识编辑方法在前缀上下文存在时大幅失败(编辑成功率从 90.9% 降至 69.1%),提出 CHED 基准评估上下文鲁棒性,并设计 CoRE 方法通过多样化前缀上下文 + 跨前缀隐藏状态方差正则化来增强编辑的上下文鲁棒性,在保持模型通用能力的同时显著缩小有/无上下文的性能差距。

DocMEdit: Towards Document-Level Model Editing

首次提出文档级模型编辑任务,构建包含 37,990 条数据、105,652 个编辑事实的 DocMEdit 基准,揭示现有编辑方法在长上下文、多事实并行编辑场景下的严重不足。

Efficient Knowledge Editing via Minimal Precomputation

证明了 MEMIT/ROME/EMMET 等知识编辑方法的预计算步骤(缓存 4400 万隐向量)可以减少到理论最小值的 2-10 倍(不到原来的 0.3%),将预计算时间从数十小时降到几分钟,且编辑性能基本无损。

Memorizing is Not Enough: Deep Knowledge Injection Through Reasoning

提出四层知识注入框架(记忆→检索→推理→关联),构建 DeepKnowledge 合成测试平台,系统性揭示了知识注入各层级的关键因素:重复学习实现记忆、表达多样性实现检索、显式推理模式实现深度推理和关联,为 LLM 知识更新提供了完整的方法-层级映射。

查看全部19篇「知识编辑」论文 →


💬 LLM 其他 (442)

Towards Robust ESG Analysis Against Greenwashing Risks: A3CG

提出 A3CG 数据集和方面-行动分析任务(从可持续性声明中提取方面及其行动类型:已实施/计划中/不确定),通过跨类别泛化设置评估 NLP 方法抵御漂绿风险的鲁棒性,发现监督学习(GRACE F1=47.51)优于 LLM(Claude 3.5 F1=42.03)但泛化效率更差。

A Large-Scale Real-World Evaluation of an LLM-Based Virtual Teaching Assistant

在韩国KAIST一门477人研究生AI编程课中部署基于RAG的LLM虚拟助教(VTA),通过三轮问卷(472人)和3869条交互日志的纵向分析,发现VTA显著降低了学生提问心理门槛,高频用户的满意度随使用持续提升,但信任度仍低于人类助教。

A Modular Dataset to Demonstrate LLM Abstraction Capability

提出ArrangementPuzzle拼图数据集并训练LLM激活值分类器,发现分类器以>80%准确率识别推理正确性,揭示LLM在中间-后层Transformer层编码了区分逻辑等价与语义等价的抽象推理概念。

A Semantic-Aware Layer-Freezing Approach to Computation-Efficient Fine-Tuning of Language Models

通过分析LLM推理过程中潜在表征的转移轨迹(transition traces)计算各层语义偏差,结合推导的缩放律公式估计各层对降低损失的贡献,从而确定"在哪些层微调",实现与PEFT正交的高效微调方法。

SSUF: A Semi-supervised Scalable Unified Framework for E-commerce Query Classification

提出电商查询分类统一框架 SSUF,通过三个可插拔模块——标签增强(BERT 语义编码标签)、知识增强(LLM 世界知识 + 后验点击 + 半监督标签生成)、结构增强(共现/语义/层级三图融合 GCN)——解决短查询信息不足和"马太效应"恶性循环问题,在 JD.COM 意图分类和品类分类任务上 Macro F1 分别达到 49.46 和 41.22(均超 SMGCN 等 SOTA),已上线服务带来显著商业价值。

A Survey of Automatic Prompt Optimization with Instruction-focused Heuristic-based Search Algorithm

系统综述 80+ 种基于启发式搜索算法的自动 Prompt 优化方法,提出五维分类体系(Where/What/What criteria/Which operators/Which algorithms)将碎片化研究统一到一个完整的分析框架下。

A Survey of LLM-based Agents in Medicine: How Far Are We from Baymax?

系统综述 LLM-based Agent 在医学中的四层架构(Profile/临床规划/医学推理/外部能力增强)、四大应用场景和评估框架,覆盖 2022-2024 年 60 篇研究,提出四种 Agent 运作范式并识别幻觉管理、多模态整合和伦理等关键挑战。

A Survey on Efficient Large Language Model Training: From Data-centric Perspectives

本文提出首个系统性的"数据高效 LLM 后训练"综述框架,将方法分为数据选择、数据质量增强、合成数据生成、数据蒸馏与压缩、自演化数据生态五大类,构建了完整的"数据价值飞轮"体系。

A Systematic Study of Compositional Syntactic Transformer Language Models

本文提出了一个统一框架,系统性地研究组合句法Transformer语言模型(SLM)的四个关键设计维度(树的形式、线性化策略、组合函数、子成分遮掩),涵盖了已有模型和13个新变体,并通过语言建模、句法泛化、摘要、对话和推理效率五个维度的全方位实验,得出了SLM设计的多条推荐建议。

A Training-free LLM-based Approach to General Chinese Character Error Correction

提出通用中文字符纠错任务C2EC(覆盖替换、缺失、冗余三种错误类型),通过扩展训练无关的CSC方法并结合Levenshtein距离和prompt-based LLM,使14B参数模型在不微调的条件下达到近50倍大模型的纠错性能。

查看全部442篇「LLM 其他」论文 →


📖 NLP 理解 (30)

A Comprehensive Graph Framework for Question Answering with Mode-Seeking Preference Alignment

提出GraphMPA框架,通过构建基于通用相似度度量的层次化文档图实现全局文档理解,并引入mode-seeking偏好优化替代传统DPO实现更精准的人类偏好对齐,在6个QA数据集上全面超越现有RAG方法。

A Variational Approach for Mitigating Entity Bias in Relation Extraction

提出基于变分信息瓶颈(VIB)的实体去偏方法,将实体token映射为高斯分布以选择性压缩实体特定信息、保留上下文语义,在通用/金融/生物医学三个领域的关系抽取数据集上均取得SOTA,特别是在OOD场景下BioRED提升5.3个F1点。

Active LLMs for Multi-hop Question Answering

本文提出一种主动式大语言模型框架,通过让LLM主动决定何时需要检索外部信息、何时可以直接推理,从而在多跳问答任务中实现更高效、更准确的推理过程。

Adapting Psycholinguistic Research for LLMs: Gender-Inclusive Language in a Coreference Context

将 Tibblin et al. (2023) 的心理语言学实验从法语适配到英语和德语 LLM,通过测量共指词概率和生成内容分析发现:英语 LLM 基本保持先行词-共指词性别一致但 they 单数几乎不被使用且存在底层男性偏见;德语 Leo Mistral 7B 的男性偏见更强烈(压倒所有 8 种包容策略),但包容策略仍能增加女性/中性性别的出现概率,与心理语言学人类实验结果一致。

Analyzing Political Bias in LLMs via Target-Oriented Sentiment Classification

提出基于目标导向情感分类(TSC)的LLM政治偏差分析框架,通过在450个政治句子中替换1319位政治家名字并用7个模型在6种语言中预测情感,定义了基于熵的不一致性指标来量化偏差,发现LLM对左翼和中间派有正面偏见、对极右翼有负面偏见,且更大模型偏差更强更一致。

Automatic Generation of Inference Making Questions for Reading Comprehension Assessments

开发了一套阅读理解推理题分类法(代词桥接/文本连接/填补空白),用 GPT-4o few-shot 提示自动生成针对特定推理类型的多项选择题;93.8% 的题目质量合格,但仅 42.6% 准确匹配目标推理类型,说明 LLM 在精确推理能力控制上仍有不足。

BELLE: A Bi-Level Multi-Agent Reasoning Framework for Multi-Hop Question Answering

提出 BELLE 双层多智能体辩论框架,先将多跳问题分类为四种类型,再通过双层辩论机制(第一层正反方辩论 + 第二层快/慢辩论者监督)动态规划 CoT、单步检索、迭代检索等算子的组合方案,实现面向问题类型的自适应多跳推理。

BookCoref: Coreference Resolution at Book Scale

提出首个书级别共指消解基准BookCoref,通过角色链接+LLM过滤+窗口扩展的自动标注管线,在50本完整小说上生成高质量银标注数据,平均文档长度超过20万tokens。

BQA: Body Language Question Answering Dataset for Video Large Language Models

基于BoLD数据集通过四步半自动流水线构建了BQA——一个包含7,632个短视频的肢体语言情感识别多选QA基准,评估发现最强VideoLLM(GPT-4o/Gemini)准确率仅约60%远低于人类的85%,同时揭示了模型对面部表情的过度依赖以及针对特定种族群体的显著偏见。

CaLMQA: Exploring Culturally Specific Long-Form Question Answering across 23 Languages

构建了首个多语言长文本问答数据集 CaLMQA(51.7K 问题,23 种语言),通过无翻译方式收集文化特异性问题,发现 LLM 回答文化特异性问题的事实性(45-52%)显著低于文化无关问题(64-71%),低资源语言表现尤其差。

查看全部30篇「NLP 理解」论文 →


✍️ 文本生成 (27)

A Representation Level Analysis of NMT Model Robustness to Grammatical Errors

从表示层面系统分析 NMT 编码器如何处理语法错误——发现编码器先在浅层"检测"错误(GED 探测 F1 上升),再在深层"纠正"错误(CKA 距离下降),并提出 Robustness Heads 概念识别出参与纠正的具体注意力头,在 4 个模型×5 个语言方向上验证了该"检测→纠正"两阶段机制。

Abstractive Snippet Generation

本文提出了一种面向搜索引擎的抽象化片段生成方法,通过查询感知的摘要生成技术,为搜索结果页面生成比传统抽取式片段更简洁、信息量更大的文本摘要,显著提升用户搜索体验。

An Empirical Study of Many-to-Many Summarization with Large Language Models

首次系统研究LLM在多对多摘要(M2MS)任务上的表现,整合8个数据集构建涵盖5个领域6种语言的47.8K样本基准,评测18个LLM发现零样本LLM可媲美微调传统模型,指令微调后显著超越,但事实性问题仍是关键瓶颈。

ATGen: A Framework for Active Text Generation

提出ATGen——首个系统化的NLG主动学习框架,集成SOTA AL策略、人工/LLM标注界面、PEFT高效训练和vLLM推理优化,在TriviaQA/GSM8K等4个NLG任务上验证主动学习可将标注成本降低2-4倍。

Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation

本文提出了一种基于上下文保持前缀树(CP-Trie)的系统性评估框架,通过不依赖概率和参数调优的指标来评估截断采样方法在多样性与风险之间的内在适应能力,并为实际应用中的参数选择提供指导。

CoCoLex: Confidence-guided Copy-based Decoding for Grounded Legal Text Generation

提出 CoCoLex,一种无需训练的解码策略,利用解码过程中隐状态与上下文 token 隐状态的欧氏距离构造复制分布,并通过基于预测熵的置信度分数动态平衡"从上下文复制"与"自由生成"的比例,在五个法律基准上一致提升忠实性和正确性,尤其在长文本生成任务中效果突出。

Context-Aware Hierarchical Merging for Long Document Summarization

提出上下文感知的层次合并(CAHM)方法,通过在层次合并摘要过程中引入源文档的相关上下文(抽取/检索/引用三种方式),有效缓解 LLM 在超长文档(>100K tokens)摘要中的幻觉问题。

Decomposed Opinion Summarization with Verified Aspect-Aware Modules

本文将观点摘要(opinion summarization)任务分解为三个可逐步验证的模块——方面识别、观点汇总、元评论合成,通过 LLM 零样本提示实现领域无关的模块化处理,在科研论文、商业评论和产品评论三个领域生成了更可追溯、更全面的摘要。

Dehumanizing Machines: Mitigating Anthropomorphic Behaviors in Text Generation Systems

通过文献综述和众包研究,系统整理出 21 类干预措施来降低文本生成系统输出的拟人化程度,提出包含干预类型、目标行为、操作化方式和负面影响四个维度的概念框架,为去拟人化研究提供最全面的基础设施。

Document-Level Text Generation with Minimum Bayes Risk Decoding using Optimal Transport

提出 MBR-OT,将最优传输(Wasserstein距离)引入最小贝叶斯风险(MBR)解码,实现用句子级效用函数评估文档级输出质量,在文档级机器翻译、文本简化和密集图像描述任务上显著优于标准 MBR 解码。

查看全部27篇「文本生成」论文 →


🗣️ 对话系统 (18)

DEMO: Reframing Dialogue Interaction with Fine-grained Element Modeling

本文提出对话元素建模(Dialogue Element Modeling)这一新任务,系统定义了对话生命周期中从"前奏"到"尾声"的全面元素体系,构建了包含元素感知和对话智能体交互两大能力的DEMO benchmark,并通过模仿学习训练DEMO agent在域内外任务上均表现优异。

Dialogue Systems for Emotional Support via Value Reinforcement

提出 ES-VR,首个将人类价值观强化融入情感支持对话系统的方法,通过目标价值检测器和参考生成器(均在 Reddit 数据上训练),结合 SFT + DPO 两阶段训练,使支持者模型不仅能缓解求助者的负面情绪,还能探索和强化其积极价值观,实现更深层的内在转变。

Dynamic Label Name Refinement for Few-Shot Dialogue Intent Classification

提出动态标签名称精炼方法,在检索式 ICL 意图分类中,利用 LLM 根据检索到的示例动态生成更具区分性的意图标签名称(如 "Verify PAN" → "Verify PAN card details"),有效降低语义相似意图间的混淆,在 6 个数据集上一致提升 2.07%-7.51% 准确率。

Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System

本文提出赋予聊天机器人"眼睛和耳朵"的沉浸式多模态对话系统,构建了融合视觉与听觉的多会话多方对话数据集 M3C,并设计了包含对话模块和多模态记忆检索模块的对话模型,实现了多说话者共享视听体验的动态长期对话。

Enhancing Goal-oriented Proactive Dialogue Systems via Consistency Reflection and Correction

提出模型无关的两阶段 CRC 框架(一致性反思 + 一致性纠正),通过先让模型反思生成回复与对话上下文之间的不一致之处、再据此纠正回复,显著提升了目标导向主动对话系统中生成回复与对话上下文的一致性。

EnSToM: Enhancing Dialogue Systems with Entropy-Scaled Steering Vectors for Topic Maintenance

提出 EnSToM,一种基于熵缩放转向向量的轻量级方法,通过利用 LLM 内部层级熵分布差异来动态调整转向强度,在不修改模型参数的情况下提升任务导向对话系统的主题维持能力。

Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles

本文提出 USP(User Simulator with Implicit Profiles)框架,通过从人机对话中提取隐式用户画像,并结合条件监督微调和基于循环一致性的强化学习,在真实性、一致性和多样性三个维度上显著超越基线方法,语义相似度和风格相似度分别提升约 34% 和 43%。

Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling

本文提出面向任务型对话系统的 Accountability Model,在 LLM 中加入额外的 accountability head 作为二分类器预测对话状态中各 slot 的概率,从而检测并自校正假阳性和假阴性错误,在 MultiWOZ 上将 JGA 从 64.34 提升到 70.51(↑9.6%),达到 SOTA。

KokoroChat: A Japanese Psychological Counseling Dialogue Dataset Collected via Role-Playing by Trained Counselors

提出 KokoroChat,一个通过训练有素的咨询师角色扮演收集的日语心理咨询对话数据集,包含 6,589 段长对话及详细的客户反馈评分,用于提升 LLM 的心理咨询回复生成和对话评估能力。

Exploring Persona Sentiment Sensitivity in Personalized Dialogue Generation

大规模分析发现 LLM 生成的个性化对话质量对人物画像的情感极性高度敏感——负面画像导致过度强调人设引发矛盾,正面画像则选择性融入人设产生更高质量对话——基于此提出结合轮次生成、画像排序和情感感知提示的改进方法。

查看全部18篇「对话系统」论文 →


🌐 多语言/翻译 (86)

A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs

系统评估 LLM 在三种古典语言(梵语、古希腊语、拉丁语)上的零样本跨语言泛化能力,涵盖 NER、机器翻译和问答三个 NLU 任务,同时贡献 1501 对梵语问答数据集并验证 RAG 策略的有效性,揭示模型规模是跨语言泛化的决定性因素。

Accessible Machine Translation Evaluation For Low-Resource Languages

本文针对低资源语言的机器翻译评估困境,提出了一套不依赖高质量参考翻译和大规模标注数据的可访问评估框架,使得资源匮乏的语言可以有效评估翻译质量。

Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation

提出 DCSQE 框架,通过约束波束搜索生成更真实的合成翻译、利用独立的标注模型纠正标签偏差、以及 SPCE 算法将 token 级标签聚合为短语级标签,有效缓解合成 QE 数据的分布偏移问题,在有监督和无监督设置下均超越 CometKiwi 等 SOTA 基线。

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)

本文介绍 HPLT v2,一个从 4.5 PB 的 Internet Archive 和 Common Crawl 数据中提取的大规模多语言数据集,包含覆盖 193 种语言的 8 万亿 token 单语数据和覆盖 51 种语言的 3.8 亿句对平行数据,并通过改进的数据处理管线显著提升了数据质量。

Are Rules Meant to be Broken? Understanding Multilingual Moral Reasoning as a Computational Pipeline with UniMoral

提出UniMoral——一个跨6种语言的统一道德推理数据集,将道德推理建模为包含行为预测、道德类型分类、因素归因和后果生成的计算流水线,对3个LLM的基准测试揭示隐式道德语境能增强模型道德推理能力但仍需专门化方法。

AskQE: Question Answering as Automatic Evaluation for Machine Translation

提出 AskQE——基于问答的机器翻译质量估计框架,通过对源文本生成问题、分别在源文本和回译输出上回答、对比答案差异来检测翻译错误,帮助不懂目标语言的用户判断翻译是否可接受,在 BioMQM 数据集上 Kendall's τ 相关和决策准确率均优于现有 QE 指标。

7 Points to Tsinghua but 10 Points to 清华? Assessing Agentic Large Language Models in Multilingual National Bias

首次系统研究LLM作为多语言智能建议agent在推理型决策任务中的国籍偏见,通过大学申请/旅行/搬迁三类场景+Thurstone比较法量化GPT-3.5/GPT-4/Claude Sonnet在6种语言下的评分偏差,发现"本地语言偏见"(local language bias)普遍存在,且CoT推理在非英语语言中反而加剧偏见。

Beyond N-Grams: Rethinking Evaluation Metrics and Strategies for Multilingual Abstractive Summarization

系统评估了 n-gram 和神经网络评估指标在 8 种语言(4 个形态类型族)上与人类判断的相关性,发现 n-gram 指标在高融合语言(阿拉伯语、希伯来语)上与人类判断负相关,而专门训练的神经指标 COMET 在所有语言类型上一致优于其他方法。

Blessing of Multilinguality: A Systematic Analysis of Multilingual In-Context Learning

系统分析多语言 ICL 策略,发现在 prompt 中混合多种高资源语言(HRL)的 demonstrations 一致性优于纯英文 demonstrations,尤其在低资源语言(LRL)上提升显著(Llama3.1 上 LRL 平均准确率提升 8.9~12.6%),甚至仅在 prompt 中加入不相关的非英语句子也能带来可测量的增益,揭示了"多语言暴露本身即有效"的现象。

Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention

本文提出INCLINE(Inference-Time Cross-Lingual Intervention),一种无需微调的推理时框架,通过学习对齐矩阵将低性能语言的内部表示变换到高性能语言的表示空间,在9个基准和5个LLM上显著提升多语言性能。

查看全部86篇「多语言/翻译」论文 →


🔍 信息检索/RAG (84)

A Reality Check on Context Utilisation for Retrieval-Augmented Generation

提出DRUID真实世界事实验证数据集和ACU评估指标,揭示合成数据集(CounterFact、ConflictQA)夸大了上下文特征的影响,导致对LLM上下文利用能力的过度乐观评估,呼吁使用真实检索数据研究RAG。

A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens

揭示 LLM 文本嵌入的有趣现象:将嵌入向量通过解码层映射回词表空间后,解码概率最高的 token 与输入文本的关键词高度对齐;进一步通过谱分析发现这一现象主要受第一主成分控制,并据此提出一种简洁的稀疏检索方法,达到原密集检索 80%+ 的效果。

Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps

提出 IDR²,一种模型无关的自适应RAG加速框架,通过消除多轮检索间重叠文档的冗余表示并利用检索内容指导并行解码,实现端到端约2倍加速且不损失生成质量。

AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark

提出AIR-Bench——首个利用LLM自动生成测试数据的异构IR基准,覆盖2个任务(QA/长文档)、9个领域、13种语言共69个数据集,三阶段质量控制管线确保生成数据与人工标注高度一致,解决了传统IR基准领域覆盖有限和更新成本高的问题。

Any Information Is Just Worth One Single Screenshot: Unifying Search With Visualized Information Retrieval

本文正式定义了可视化信息检索(Vis-IR)范式——将多模态信息统一渲染为截图(Screenshot)进行检索,构建了包含1300万截图的VIRA数据集、UniSE检索模型家族和MVRB基准测试,为统一搜索引擎奠定基础。

ARise: Towards Knowledge-Augmented Reasoning via Risk-Adaptive Search

提出 ARise 框架,将贝叶斯风险评估与动态 RAG 集成到蒙特卡洛树搜索中,解决知识增强推理中的错误传播和验证瓶颈问题,在多跳QA任务上平均准确率超 SOTA KAR 方法 23.10%,超 RAG-equipped 推理模型(DeepSeek-R1)25.37%。

Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models

Astute RAG 提出了一种对不完美检索具有鲁棒性的 RAG 方法,通过自适应生成 LLM 内部知识作为补充、带有来源标注的知识整合、以及基于可靠性的答案生成三个步骤,在 Gemini 和 Claude 上显著优于现有鲁棒 RAG 方法,且是唯一在最坏情况下(检索全部无用)不劣于无 RAG 基线的方法。

Atomic LLM: A Fine-Grained Information Retrieval Evaluation Benchmark for Language Models

本文提出Atomic LLM基准,通过将信息检索评估分解为原子级别(Atomic Level)的事实检索任务,从事实精确性、来源归因、粒度覆盖等多个维度对LLM的信息检索能力进行细粒度评估,揭示了现有LLM在精确事实提取方面的系统性不足。

Automatic Benchmark Generation from Scientific Papers via Retrieval-Augmented LLMs

本文提出一种基于检索增强LLM的自动基准生成方法,从科学论文中自动抽取可测试的知识点并生成高质量的评估题目,在NLP、机器学习、生物信息学等领域验证了方法的有效性,为领域特定LLM评估基准的快速构建提供了新范式。

Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims

提出 ClaimSpect 框架,将复杂声明自动分解为层次化的方面(aspect)树,并通过区分性检索从语料库中发现各方面的支持/中立/反对观点及其共识程度。

查看全部84篇「信息检索/RAG」论文 →


💻 代码智能 (28)

LongCodeU: Benchmarking Long-Context Language Models on Long Code Understanding

提出 LongCodeU 基准,从代码单元感知、单元内理解、单元间关系理解和长文档理解四个维度设计 8 个任务,评估 9 个长上下文语言模型在真实仓库级长代码上的理解能力,揭示 32K token 是当前 LCLM 长代码理解的实际上限。

Beyond Sequences: Two-dimensional Representation and Dependency Encoding for Code Generation

本文提出超越传统一维序列表示的二维代码表示方法,通过显式编码代码的结构依赖关系(如语法树结构和变量依赖),显著提升了代码生成的准确性和结构正确性。

CoCo-Bench: A Comprehensive Code Benchmark for Multi-task Large Language Model Evaluation

提出 CoCo-Bench(Comprehensive Code Benchmark),一个覆盖代码理解、代码生成、代码修改和代码审查四个维度的综合代码基准,支持多编程语言和多难度等级,通过严格的人工审核确保数据质量,揭示了现有 LLM 在代码能力上的不均衡表现。

CodeDPO: Aligning Code Models with Self Generated and Verified Source Code

提出 CodeDPO,通过 PageRank 启发的自验证评分机制从自生成代码中构造高质量偏好对(93K 正确性 + 21K 效率),DPO 训练后在 8 个代码模型上 HumanEval 平均提升 10+ 分,同时提升代码执行效率 1.25-1.45×。

CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation

提出 CodeIF,第一个系统性评估 LLM 在代码生成中指令遵循能力的基准,含 8 大类 50 个细粒度约束指令、4 种新评估指标,并对 35 个 SOTA 模型进行全面评估。

CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models

提出 CodeReviewQA 基准,将代码审查自动修正(ACR)任务分解为三个中间推理步骤——变更类型识别(CTR)、变更定位(CL)、解决方案识别(SI),各自设计为不同难度的多选题探测,在 900 个人工验证的高质量样例(9 种语言)上评测 72 个 LLM,揭示了模型在代码审查理解中的具体弱点。

CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System

提出 CompileAgent,首个面向仓库级代码编译的 LLM Agent 框架,集成五种专用工具和流程化 Agent 策略,在 100 个 C/C++ 真实项目的 CompileAgentBench 上将编译成功率最高提升 71%,平均每个项目仅需 $0.22。

CoRet: Improved Retriever for Code Editing

提出 CoRet,一个面向代码编辑任务的稠密检索模型,通过整合代码语义、仓库文件层级结构和调用图依赖关系,并使用针对仓库级检索设计的对数似然损失函数,在 SWE-bench 和 Long Code Arena 上比现有模型的 Recall 至少提升 15 个百分点。

DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal

本文提出 DARS(动态动作重采样),一种针对编程智能体的推理时计算扩展方法,在智能体做出次优决策的关键节点上动态分支并尝试替代动作,在 SWE-Bench Lite 上以 Claude 3.5 Sonnet V2 实现 55% 的 pass@k 和 47% 的 pass@1,超越当时开源 SOTA 框架。

DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation

提出 DynaCode,一个动态复杂度感知的代码生成基准,通过将代码问题按圈复杂度分类并用调用图(Call Graph)组合嵌套,生成约 1.89 亿个唯一问题,有效缓解数据污染并系统评估 LLM 在不同复杂度下的代码生成能力。

查看全部28篇「代码智能」论文 →


🎨 图像生成 (9)

A Unified Agentic Framework for Evaluating Conditional Image Generation

提出 CIGEval,一个基于大型多模态模型(LMM)的统一 Agent 评估框架,通过工具集成(Grounding、Highlight、Difference、Scene Graph)和分而治之的评估策略,在 7 种条件图像生成任务上达到与人类标注者相当的相关性(0.4625 vs 人类间 0.47),且仅用 2.3K 训练数据微调 7B 模型即超越 GPT-4o 版 SOTA。

D-GEN: Automatic Distractor Generation and Evaluation for Reliable Assessment of Generative Models

提出 D-GEN——首个开源干扰项生成模型(LLaMA微调,8B/70B),自动将开放式评测题转为多选题格式,配套排名对齐+熵分析两种评估方法验证干扰项质量,在 MMLU 上 Spearman's ρ=0.99 保持模型排名一致性。

Planning with Diffusion Models for Target-Oriented Dialogue Systems

DiffTOD 将对话规划建模为轨迹生成问题,利用掩码扩散语言模型实现非顺序对话规划,并设计三种引导机制(词级/语义级/搜索级)灵活控制对话朝目标推进,在谈判/推荐/闲聊三种场景上显著超越基线。

FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation

将整流流(Rectified Flow)引入文本转音频生成,通过双焦采样器优化时间步分布、不混溶流减少数据-噪声总距离、锚定优化修正 CFG 引导误差,实现单步生成 FAD=1.49 超越百步扩散模型,生成速度达实时 400 倍。

Generating Pedagogically Meaningful Visuals for Math Word Problems: A New Benchmark and Analysis of Text-to-Image Models

Math2Visual 提出了一个从数学应用题(MWP)文本描述自动生成教学可视化图像的框架,定义了基于教师访谈的视觉语言和设计空间,构建了 1,903 张标注数据集,并评估和微调了多个 TTI 模型,揭示了当前模型在数学关系表示上的关键不足。

Multimodal Pragmatic Jailbreak on Text-to-image Models

提出"多模态语用越狱"(Multimodal Pragmatic Jailbreak)新型攻击方式,通过让T2I模型生成包含视觉文字的图像,使得图像内容和文字内容单独看都安全但组合后产生不安全内容,揭示了所有测试模型(包括DALL·E 3)均受此攻击影响。

OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching

提出OZSpeech,首个将最优传输条件流匹配(OT-CFM)与学习先验分布相结合实现单步采样的零样本TTS系统,在内容准确性(WER)、推理速度和模型大小上均大幅领先现有方法。

R-VC: Rhythm Controllable and Efficient Zero-Shot Voice Conversion via Shortcut Flow Matching

R-VC 是首个实现节奏可控的零样本语音转换系统,通过 Mask Transformer 时长模型建模目标说话人的节奏风格,结合 Shortcut Flow Matching 的 DiT 解码器实现仅 2 步采样的高效高质量语音生成,在 LibriSpeech 上 WER 3.51、说话人相似度 0.930。

Synthia: Novel Concept Design with Affordance Composition

Synthia 提出了一种基于 affordance(功能可供性)组合的新颖概念设计框架,通过层次化概念本体、affordance 采样策略和课程学习微调 T2I 模型,生成既视觉新颖又功能连贯的创新设计。


🎬 视频生成 (2)

Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval

Q2E 提出了一种零样本的查询到事件分解方法,利用 LLM 和 VLM 的参数化世界知识将简单查询分解为前因/当前/后果事件,并结合视频的视觉描述和语音转录,通过逆熵融合排序实现 SOTA 的多语言文本到视频检索性能。

VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation

提出 VidCapBench,首个专为可控文生视频(T2V)设计的视频描述评估 benchmark,从美学/内容/运动/物理规律四个维度评估 caption 质量,643 个视频+10,644 个 QA 对,实验证明 VidCapBench 分数与 T2V 生成质量高度正相关。


🧩 多模态 VLM (111)

A Parameter-Efficient and Fine-Grained Prompt Learning for Vision-Language Models

本文提出 DoPL(Detail-oriented Prompt Learning)方法,通过低熵信息集中理论发现文本-视觉兴趣共享 token,并以此构建对齐权重增强文本和视觉提示,仅用 0.25M(0.12%)可训练参数即实现细粒度多模态语义对齐,在六个基准上超越全参数微调方法。

Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and Inference

本文发现 LLM 中存在类似人脑视觉皮层的"视觉区域"——稀疏且均匀分布的层集合,仅更新 25% 的层即可保留 99% 的视觉性能,同时保持甚至提升语言能力,并据此提出了高效的视觉区域定向训练和剪枝范式。

Adaptive Linguistic Prompting (ALP) Enhances Phishing Webpage Detection in Multimodal Large Language Models

提出 Adaptive Linguistic Prompting (ALP),一种 8-shot 结构化提示方法,引导多模态 LLM 从 HTML 文本、截图和 URL 三个维度联合推理,检测钓鱼网页,在 GPT-4o 上组合分析达到 F1=0.93,超过传统零样本基线。

Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

提出MAC基准和diversity-promoting自训练方法,通过让LLM生成欺骗性文本来系统暴露CLIP等预训练多模态表征的组合性漏洞,在图像/视频/音频三个模态上均显著超越已有方法。

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents

本文提出Agent-RewardBench,首个评估多模态LLM作为agent奖励模型能力的基准,覆盖感知/规划/安全三个维度和7个真实场景,包含1,136条高质量step-level样本,实验揭示即使最强模型GPT-4o也仅达61.4%准确率,且强模型在安全维度反而表现更差。

AGRI-CM3: A Chinese Massive Multi-Modal Multi-Level Benchmark for Agricultural Understanding

本文提出AGRI-CM3,一个面向农业领域的中文大规模多模态多层次评测基准,涵盖作物识别、病虫害诊断、农事操作理解等多个农业子任务,用于系统评估VLM在农业垂直领域的能力。

AkaCE: A Multimodal Multi-party Dataset for Emotion Recognition in Movie Dialogues

构建 AkaCE——首个非洲语言多模态对话情感识别数据集,覆盖阿坎语(加纳主要语言,约 2000 万使用者),含 385 段对话 6162 条发言(音频+视觉+文本三模态)、308 名说话人(性别平衡 155男/153女),并提供首个非洲语言词级韵律突出标注。

Aligning VLM Assistants with Personalized Situated Cognition

基于社会学"角色集合"(Role-Set) 概念刻画用户多样性,提出 PCogAlign 框架,通过认知感知的动作导向奖励模型来为 VLM 助手生成个性化回复,使不同角色的用户在相同视觉场景下获得最适合自身需求的建议。

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

提出 AlignMMBench,首个面向中文视觉上下文的多模态对齐评测基准,涵盖 3 大类 13 项任务、1054 张图像和 4978 个 QA 对(含单轮/多轮对话),并训练了基于 ChatGLM3-6B 的评估器 CritiqueVLM,其评估一致性超过 GPT-4。

Aria-UI: Visual Grounding for GUI Instructions

提出 Aria-UI,一个专为 GUI 视觉定位设计的纯视觉多模态模型,通过可扩展的指令合成数据管线和文本-图像交错的动作历史机制,在离线和在线 Agent 基准上均达到 SOTA,包括 AndroidWorld 第1名(44.8%)和 OSWorld 第3名(15.2%)。

查看全部111篇「多模态 VLM」论文 →


🧠 VLM Reasoning (18)

AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness

提出AdamMeme——一个基于多智能体协作的自适应评估框架,通过迭代生成更具挑战性的meme样本来探测多模态大语言模型(mLLM)在有害内容理解上的推理能力和特定弱点。

Answering Complex Geographic Questions by Adaptive Reasoning with Visual Context and External Commonsense Knowledge

本文提出一种面向复杂地理问题的自适应推理框架,结合视觉上下文(如地图、卫星图像)和外部常识知识库进行多步推理,根据问题复杂度动态选择推理路径,在地理VQA任务上显著超越直接端到端回答的方法。

Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning

本文构建了一个系统性评测基准来评估大型视觉语言模型(LVLM)在基础视觉图结构理解与推理上的能力,发现现有模型在此类任务上表现欠佳,并提出了针对性的改进方法。

Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

本文提出一种将LLM的推理能力迁移到VLM的方法,通过改进图表表示预训练、构造大规模合成推理数据集和多任务微调,使5B参数的PaLI-3在ChartQA上超越10倍大的模型。

FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning

构建了金融领域跨模态多跳推理基准 FCMR,包含文本、表格和图表三种模态,分 Easy/Medium/Hard 三个难度等级,最强模型 Claude 3.5 Sonnet 在 Hard 级别仅达 30.4% 准确率,揭示了 MLLM 在信息检索阶段的关键瓶颈。

FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

构建了一个包含 11,000+ 高质量金融多模态样本的评估基准 FinMME,涵盖 18 个金融领域和 10 种图表类型,提出了融合幻觉惩罚和领域归一化的 FinScore 评估体系,实验表明即使 GPT-4o 也仅得 47 分,揭示了 MLLM 在金融领域的显著不足。

Judging the Judges: Can Large Vision-Language Models Fairly Evaluate Chart Comprehension and Reasoning?

系统评估了 13 个开源小型 LVLM(≤9B 参数)作为图表理解和推理任务的评判者,发现部分开源模型(如 LLaVA-Critic-7B)可达到接近 GPT-4 水平的评判能力(约 80% 一致率),但位置偏差和长度偏差等问题仍然普遍存在。

LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating

提出 LongDocURL 基准,覆盖理解/数值推理/跨元素定位三大任务类别共 20 个子任务,包含 2325 个高质量 QA 对、覆盖 33000+ 页文档,系统评估 26 种模型配置暴露了当前 LVLM 在长文档理解上的关键性能差距。

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

提出一种可扩展、低成本的方法,仅使用开源模型构建含 1200 万条富含中间推理过程 (CoT) 的多模态指令微调数据集 MAmmoTH-VL-Instruct,训练的 MAmmoTH-VL-8B 在推理基准上达到 SOTA(MathVerse +8.1%, MMMU-Pro +7%, MuirBench +13.3%)。

MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

提出利用代码作为跨模态对齐的监督信号,构建860万图像-代码对数据集ImgCode-8.6M和300万多模态数学指令微调数据集MM-MathInstruct-3M,训练的MathCoder-VL在开源模型中达到多模态数学推理SOTA,在几何问题上超越GPT-4o和Claude 3.5 Sonnet。

查看全部18篇「VLM Reasoning」论文 →


⚡ VLM Efficiency (8)

EffiVLM-Bench: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models

提出 EffiVLM-Bench 统一评估框架,从性能、泛化性、忠实度和效率四个维度系统评估 LVLM 免训练加速方法(token 压缩 + 参数压缩),覆盖 3 个前沿模型和 17 个基准任务,揭示各方法在不同压缩率下的 Pareto 最优权衡。

Hierarchical Safety Realignment: Lightweight Restoration of Safety in Pruned Large Vision-Language Models

提出层次化安全重对齐方法HSR,通过先识别安全关键注意力头、再在这些头中定位并恢复被剪枝的安全关键神经元,以极低参数开销(万分之几)显著恢复被剪枝LVLM丢失的安全性能。

HotelMatch-LLM: Joint Multi-Task Training of Small and Large Language Models for Efficient Multimodal Hotel Retrieval

提出 HotelMatch-LLM,用 SLM 编码 query + LLM 编码酒店文档的非对称架构,配合三目标多任务优化(检索对齐 + MLM地理预测 + 视觉设施识别)和 patch 级 mean pooling 多图处理,在旅行领域多模态检索任务上显著超过 MARVEL/VISTA 等 SOTA。

MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference

本文提出MadaKV,一种模态感知的KV缓存逐出策略,通过模态偏好自适应(MPA)和层级压缩补偿(HCC)两个组件,在保持多模态长上下文任务性能的同时,显著降低KV缓存内存占用(80-95%)和解码延迟(1.3-1.5倍加速)。

OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval

提出OMGM——一个面向知识密集型视觉问答(KB-VQA)的多模态RAG系统,通过粗到细三步检索策略协调查询与知识库在不同粒度和模态间的匹配,在InfoSeek和E-VQA上取得SOTA检索性能和极具竞争力的问答结果。

RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs

提出 RedundancyLens 框架,系统揭示了 decoder-only MLLM 中视觉 token 在自注意力和 FFN 操作上存在大量结构化、聚簇式冗余,并利用这一发现实现免训练推理加速,与现有 token 压缩方法正交且可组合。

Sharper and Faster mean Better: Towards More Efficient Vision-Language Model for Hour-scale Long Video Understanding

提出Sophia模型处理小时级长视频:通过Shot-adaptive Frame Pruning(基于镜头分割的两阶段帧剪枝)精准选择查询相关帧,结合O(N)复杂度的Hierarchical Attention替代全注意力,在8个长视频benchmark中6个SOTA,且注意力FLOPs仅为InternVL2的1/8.5。

Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

通过大规模基准实验揭示了当前MLLM视觉token剪枝方法的多个根本性问题:精心设计的剪枝策略(FastV、SparseVLM)在多数基准上甚至不如随机选择和池化等朴素方法,原因在于注意力评分的位置偏差、对语言信息的误用、重要性与冗余性的失衡以及评估指标的不可靠。


🎵 音频/语音 (46)

Finding A Voice: Exploring the Potential of African American Dialect and Voice Generation for Chatbots

对文本和语音两种模态下将非裔美式英语(AAE)融入聊天机器人进行系统研究,发现文本AAE反而损害用户体验,但配合非裔口音的语音机器人受到AAE使用者青睐,揭示了语言个性化中模态选择的关键作用。

Acoustic Individual Identification of White-Faced Capuchin Monkeys Using Joint Multi-Species Embeddings

本文探索利用来自鸟类和人类的跨物种声学预训练嵌入来识别白面卷尾猴的个体叫声,发现联合多物种表征能进一步提升识别性能,为数据极度稀缺的野生动物个体识别提供了新的迁移学习范式。

Advancing Zero-shot Text-to-Speech Intelligibility across Diverse Domains via Preference Alignment

提出INTP(Intelligibility Preference Speech Dataset)数据集和面向多种TTS架构的DPO扩展方法,通过偏好对齐显著提升零样本TTS系统在绕口令、重复词、中英混合、跨语言等挑战场景下的可懂度,并验证了弱模型到强模型的泛化能力。

AI4Reading: Chinese Audiobook Interpretation System Based on Multi-Agent Collaboration

提出 AI4Reading,一个基于 11 个专业化 LLM Agent 协作的中文有声书解读系统,通过主题分析、案例扩展、编辑润色、口语化改写和整合修订等阶段自动生成解读稿,并用 TTS 合成音频,在解读脚本质量(简洁性、完整性、准确性、连贯性)上超过专业人工解读平台樊登读书。

Amplifying Trans and Nonbinary Voices: A Community-Centred Harm Taxonomy for LLMs

本文采用社区导向(community-centred)的研究方法,通过与跨性别和非二元性别(Trans and Nonbinary, TNB)群体的深入合作,构建了一套专门针对LLM输出中对TNB群体伤害的分类体系(harm taxonomy),揭示了现有LLM安全评估未覆盖的TNB特有伤害类型。

ATRI: Mitigating Multilingual Audio Text Retrieval Inconsistencies by Reducing Data Distribution Errors

从理论上分析多语言音频文本检索(ML-ATR)中跨语言不一致性的根本原因是训练数据分布误差,并提出 1-to-K 对比学习(KCL)和音频-英语共锚对比学习(CACL)两种策略来减少该误差,在召回率和一致性上达到 SOTA。

Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models

本文提出 ADU-Bench,一个包含 4 个子数据集(通用对话、技能、多语言、歧义处理)共 20,000+ 开放式音频对话的综合基准,系统评估 16 个大型音频语言模型(LALM)在音频对话理解上的能力,揭示现有模型在数学公式理解、角色扮演、多语言和语音歧义处理上的显著不足。

Analyzing and Mitigating Inconsistency in Discrete Audio Tokens for Neural Codec Language Models

本文揭示并量化分析了神经音频编解码器中的离散表示不一致性(DRI)问题——相同音频片段因上下文不同被编码为不同离散token序列,提出切片一致性和扰动一致性两种约束方法,将一致性平均提升21-36%,并在VALL-E语音生成中将WER降低3.72%。

Autoregressive Speech Synthesis without Vector Quantization

MELLE 提出了一种基于连续 mel-spectrogram 帧的自回归语言模型 TTS 方法,通过回归损失 + 变分推断采样模块 + spectrogram flux loss 直接预测连续频谱帧,避免了向量量化带来的保真度损失和采样鲁棒性问题,单阶段模型即可达到与人类水平相当的语音合成质量。

Chain-Talker: Chain Understanding and Rendering for Empathetic Conversational Speech Synthesis

提出 Chain-Talker,通过三阶段链式建模(情感理解→语义理解→共情渲染)实现可解释的共情对话语音合成,并开发 CSS-EmCap 自动标注管道为对话语音生成情感描述。

查看全部46篇「音频/语音」论文 →


🔎 AIGC 检测 (15)

A Rose by Any Other Name: LLM-Generated Explanations Are Good Proxies for Human Explanations to Collect Label Distributions on NLI

提出用 LLM 生成的 NLI 解释替代昂贵的人工解释来近似人工判断分布(HJD),实验表明在提供人工标签引导的条件下,LLM 生成的解释与人工解释在 KL 散度、JSD 等指标上效果相当,并可推广到无人工解释的数据集(MNLI)和域外测试集(ANLI)。

Are We in the AI-Generated Text World Already? Quantifying and Monitoring AIGT on Social Media

首次大规模量化社交媒体上 AI 生成文本(AIGT)的占比变化——收集 Medium/Quora/Reddit 上 240 万帖子,构建 AIGTBench 训练最佳检测器 OSM-Det,发现 2022-2024 年间 Medium 和 Quora 的 AIGT 占比从~2% 飙升至~37-39%,而 Reddit 仅从 1.3% 增至 2.5%。

An Empirical Study on Detecting AI-Generated Text in Financial Reports

本文针对金融报告这一高监管领域,系统评估了多种AI生成文本检测方法(统计特征、神经网络分类器、水印检测等)在识别金融文档中AI生成内容方面的表现,揭示了领域特异性对检测效果的显著影响。

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

通过 1,740 条标注实验发现,经常使用 LLM 进行写作任务的人类标注者可以极高精度(5人投票仅错 1/300)检测 AI 生成文本,即使面对改写和人性化逃逸策略也显著优于大多数自动检测器。

ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data

本文提出 ChemActor,一个经过完全微调的 LLM 化学执行器,通过序列化 LLM 生成数据框架和分布散度数据筛选模块来解决化学合成动作提取中的数据稀缺问题,在 R2D 和 D2A 任务上超越基线模型 10%。

Cognitive Framework for Detecting AI-Generated Fiction

本文提出一种基于认知语言学特征的AI生成小说/虚构文本检测框架,通过建模人类创意写作中的认知模式(如叙事节奏、情感弧线、隐喻密度)来区分人类和AI创作的虚构文本,在长文本场景下显著优于现有检测方法。

Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training

提出 GREATER 对抗训练框架,同步训练对抗攻击器(Greater-A)和 MGT 检测器(Greater-D),对抗器通过代理模型梯度识别关键 token 并在嵌入空间扰动生成对抗样本,检测器从课程式对抗样本中学习泛化防御,在 16 种攻击下 ASR 降至 5.53%(SOTA 为 6.20%),攻击效率比 SOTA 快 4 倍。

HACo-Det: A Study Towards Fine-Grained Machine-Generated Text Detection under Human-AI Coauthoring

提出面向人机协作写作场景的细粒度机器生成文本(MGT)检测基准 HACo-Det,通过多轮局部改写流水线自动构建带词级归属标注的 11,200 篇人机共创文本,并将七种主流检测器改造为词级序列标注模式进行系统评估,揭示当前方法在细粒度检测上的巨大改进空间。

KatFishNet: Detecting LLM-Generated Korean Text through Linguistic Feature Analysis

本文构建了首个韩语 LLM 生成文本检测基准 KatFish(涵盖三种文体、四种 LLM),通过分析词间距、词性多样性和逗号使用三类韩语语言学特征,提出 KatFishNet 检测方法,在 OOD(未见过的 LLM)设置下平均 AUROC 比最佳基线高 19.78%。

Learning to Rewrite: Generalized LLM-Generated Text Detection

提出Learning2Rewrite(L2R)框架,通过微调LLM的改写模型来放大人写文本和AI生成文本在改写编辑距离上的差异,从而实现跨领域高度泛化的AI文本检测——在21个独立领域上平均AUROC达0.9009,域外测试超越RAIDAR达4.67%、超越直接分类微调达51.35%。

查看全部15篇「AIGC 检测」论文 →


🤖 机器人/具身智能 (7)

CHEER-Ekman: Fine-grained Embodied Emotion Classification

本文提出CHEER-Ekman数据集,将CHEER数据集的二元具身情感标注扩展为Ekman六类基础情绪,并采用基于LLM的自动Best-Worst Scaling(BWS)技术实现无需任务特定训练的细粒度情感分类,性能超越有监督BERT。

Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context

提出 DICE 数据集(2066 句,402 个习语),通过严格控制习语形式一致的对比评测,揭示 LLM 在需要上下文理解才能消歧习语(字面 vs 比喻义)时存在系统性缺陷。

Do Emotions Really Affect Argument Convincingness? A Dynamic Approach with LLM-based Manipulation Checks

提出一种受心理学操控检验启发的动态框架,利用LLM调节论证的情感强度,系统考察情感对论证说服力的因果影响,发现超过半数情况下人类的说服力判断不受情感变化影响,而当情感有影响时更多是增强而非削弱说服力。

DRAE: Dynamic Retrieval-Augmented Expert Networks for Lifelong Learning and Task Adaptation in Robotics

提出 DRAE 框架,整合动态 MoE 路由、参数化 RAG(P-RAG)、三层认知控制架构(ReflexNet-SchemaPlanner-HyperOptima)和 DPMM 终身知识保留,在机器人操作和自动驾驶任务上平均成功率达 82.5%,有效缓解灾难性遗忘。

Task-aware MoILE: Hierarchical-Task-Aware Multi-modal Mixture of Incremental LoRA Experts for Embodied Continual Learning

提出层次化具身持续学习设置(HEC),将 agent 学习分为高层指令和低层动作两级,并设计 Task-aware MoILE 方法——通过跨模态聚类识别任务、双路由器选择 LoRA 专家、SVD 正交训练保留旧知识,在 5 种增量学习场景中遗忘率降至 3.37%(vs 前 SOTA 7.44%)。

SELF-PERCEPT: Introspection Improves LLMs' Detection of Multi-Person Mental Manipulation in Conversations

提出 SELF-PERCEPT 两阶段 prompting 框架,借鉴心理学自我知觉理论(Self-Perception Theory),引导 LLM 先观察对话参与者的行为线索再推断内在态度,显著提升多人多轮对话中心理操纵的检测效果。

Vulnerability of LLMs to Vertically Aligned Text Manipulations

本文系统揭示了LLM对垂直排列文本输入的严重脆弱性:仅将少量关键词垂直排列即可导致文本分类准确率下降25-45个百分点,CoT推理无法缓解此问题,但精心设计的few-shot learning可有效恢复性能。


🎮 强化学习 (8)

Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback

本文提出 Align-SLM 框架,首次将偏好优化(DPO + RLAIF)应用于纯语音语言模型(无文本注入),通过 LLM 自动评估生成的语音续写质量构建偏好数据,结合课程学习迭代提升 SLM 的语义理解能力,在 ZeroSpeech 和 StoryCloze 等基准上达到 SLM 的 SOTA。

Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient

本文提出一种基于策略梯度的LLM结构化剪枝方法,通过在概率空间中学习伯努利剪枝掩码来直接优化剪枝模型的损失函数,全程无需对LLM本身进行反向传播,仅需前向推理即可完成剪枝优化。

An Efficient Task-Oriented Dialogue Policy: Evolutionary Reinforcement Learning Injected by Elite Individuals

首次将进化强化学习(ERL)应用于任务导向对话策略任务,提出 EIERL 方法结合 EA 的全局探索与 DRL 的局部优化,并通过精英个体注入(EII)机制解决 EA 在自然语言大搜索空间中进化缓慢的问题,在 4 个数据集上实现了更高效的探索-利用平衡。

Learning to Generate Structured Output with Schema Reinforcement Learning

提出 SchemaBench 基准(约4万条 JSON schema)和 Schema Reinforcement Learning (SRL) 训练框架,通过细粒度 schema 验证器提供密集奖励信号,结合 Thoughts of Structure (ToS) 推理机制,将 LLM 的复杂 JSON 生成准确率提升高达16%,同时不损害通用推理能力。

LLM-Enhanced Self-Evolving Reinforcement Learning for Multi-Step E-Commerce Payment Fraud Risk Detection

将电商支付欺诈检测建模为多步 MDP,用 LLM(Mixtral/LLaMA/Gemma)通过进化算法自动生成和优化 RL 奖励函数,在 eBay 真实交易数据上比人工设计奖励函数和传统 SL 基线显著提升 dollar-wise precision。

MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning

提出 MAPoRL——一种基于多智能体强化学习的后训练范式,通过让多个 LLM 在辩论框架中共同训练(co-training),配合验证器评分和协作激励机制,显著提升多 LLM 协作的效果,并展现出跨任务的泛化能力。

Prompt-based Personality Profiling: Reinforcement Learning for Relevance Filtering

提出RL-Profiler方法,用强化学习训练一个帖子相关性过滤器(SelNet),从用户Profile的大量帖子中筛选出与人格特征相关的少量帖子,再交给LLM零样本预测人格,在大幅减少上下文长度的同时保持接近使用全部帖子的预测效果。

TreeRL: LLM Reinforcement Learning with On-Policy Tree Search

提出 TreeRL,将基于熵引导的树搜索(EPTree)直接集成到 LLM 的 on-policy 强化学习训练中,通过在高不确定性 token 处分叉来扩展推理路径多样性,并利用树结构提供的全局+局部优势作为过程监督信号,在数学和代码推理任务上超过传统的多链采样 RL。


🎁 推荐系统 (7)

Beyond Single Labels: Improving Conversational Recommendation through LLM-Powered Data Augmentation

针对对话推荐系统中的假阴性问题(用户可能喜欢的item被错误标记为负样本),提出基于LLM的数据增强框架,通过语义检索+相关性打分生成合成标签,再通过两阶段训练策略平衡语义相关性和协同信息。

Laser: Bi-Tuning with Collaborative Information for Controllable LLM-Based Sequential Recommendation

本文提出Laser框架,通过在LLM输入的前缀和后缀分别插入可训练虚拟token(Bi-Tuning),将用户-物品协同信息注入冻结的LLM,并设计基于MoE的M-Former来捕获不同类型用户的差异化特征,实现参数高效的序列推荐。

CoVE: Compressed Vocabulary Expansion Makes Better LLM-based Recommender Systems

提出 CoVE 框架,通过扩展 LLM 词表为每个物品分配唯一 token ID 和嵌入,将序列推荐任务转化为 next-token prediction,相比现有方法推荐准确率提升最高 62%,推理速度提升约 100 倍,并通过哈希嵌入压缩解决大规模场景的内存问题。

GRAM: Generative Recommendation via Semantic-aware Multi-granular Late Fusion

提出 GRAM 生成式推荐框架,通过语义到词汇翻译将隐式物品层次/协同关系编码到 LLM 词汇空间,并用多粒度迟融合独立编码不同粒度提示再在解码端融合,在四个基准上 Recall@5 提升 11.5–16.0%、NDCG@5 提升 5.3–13.6%。

KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models

提出 KERL 统一食品推荐系统,结合 FoodKG 知识图谱和 Phi-3-mini 多 LoRA 微调,实现个性化食谱推荐(F1=0.973)、食谱生成和微量营养素估算三个功能,大幅超越基线 LLM 和传统嵌入方法。

LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences

提出 LOTUS 排行榜,从描述质量(对齐性、描述性、语言复杂度)、副作用(幻觉、有害性)和社会偏见(性别、肤色)三个维度统一评估大型视觉语言模型的详细图像描述能力,并支持基于用户偏好的定制化评估。

RecLM: Recommendation Instruction Tuning

提出 RecLM,一个模型无关的推荐指令微调框架,通过两轮对话式指令微调将协同过滤信号注入 LLM 生成的用户/商品画像,再用 RLHF(PPO)精炼画像质量,在 MIND/Netflix/工业数据集上作为即插即用组件为 BiasMF/NCF/LightGCN/SGL/SimGCL 一致带来提升,尤其在冷启动场景效果显著。


🔄 自监督/表示学习 (7)

AnalyticKWS: Towards Exemplar-Free Analytic Class Incremental Learning for Small-footprint Keyword Spotting

提出 AnalyticKWS,一种无需存储历史样本的关键词检测增量学习方法,通过冻结特征提取器 + 递归最小二乘解析解更新分类器,在 GSC 和 SC-100 数据集上超过了所有基于样本回放的方法,且训练时间和内存开销极低。

Improving Low-Resource Morphological Inflection via Self-Supervised Objectives

系统探索 13 种自监督辅助目标(自编码、CMLM、T5-style 等)在极低资源形态变化任务中的效果,发现无标注数据极少时自编码最优,数据增多后字符级 MLM 更好,按形态素边界采样掩码是最有前景的方向。

Contrastive Learning on LLM Back Generation Treebank for Cross-domain Constituency Parsing

提出 LLM 反向生成 (LLM Back Generation) 方法,将不完整的跨领域句法树作为输入让 LLM 补全缺失词生成 treebank,并设计 span 级别对比学习预训练策略,实现跨领域成分句法分析的 SOTA 性能。

Magnet: Augmenting Generative Decoders with Representation Learning and Infilling Capabilities

提出 Magnet 方法,通过混合注意力机制(双向+因果)和三个自监督目标(掩码预测+对比学习+缺失片段生成),将纯解码器 LLM 同时增强为文本编码器和填充模型,在 token 级和句子级表示学习任务上超越 LLM2Vec 等专用方法,同时避免了双向化带来的严重文本重复问题。

QAEncoder: Towards Aligned Representation Learning in Question Answering Systems

提出 QAEncoder,一种免训练方法通过蒙特卡洛采样估计文档对应查询的期望嵌入作为文档表示的代理,配合文档指纹保持区分性,在 BEIR 上将 bge-large 从 58.5 提升到 61.8 NDCG@10,零额外存储和延迟开销。

SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction

提出 SHuBERT(Sign Hidden-Unit BERT),将语音自监督学习模型 HuBERT 的 masked cluster prediction 范式迁移到手语视频——对手部、面部、身体姿态四个流分别聚类并同时预测 masked 帧的聚类标签,在约 984 小时 ASL 视频上预训练后,在翻译/孤立识别/指拼检测多任务上达到公开数据 SOTA。

WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning

提出 WhiSPA,通过对比学习将 Whisper 音频编码器的潜在空间与 SBERT 语义表征和心理学维度(情感、人格)对齐,消除语音处理中对额外文本 LM 的依赖,在心理学评估任务上误差降低 73-84%。


🔗 因果推理 (10)

Causal Graph based Event Reasoning using Semantic Relation Experts

提出基于四类语义关系专家(时间、篇章、条件、常识)多轮协作讨论的因果事件图生成框架,在零样本设置下于事件预测、事件预报等多个下游任务上取得与微调模型竞争的结果,并提供可解释的因果事件链。

CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation

提出 CausalRAG,将因果图集成到 RAG 的检索过程中——从文档构建文本图并识别因果关系,在查询时通过因果路径发现和因果摘要生成来检索上下文,在文档问答中显著提升上下文精度(92.86%)和检索召回率。

CoA-Reasoning: Explorations on Counterfactual Analysis in Physical Reasoning of LVLMs

本文提出CoA-Reasoning框架,通过构造反事实场景来系统性地评估和增强大型视觉语言模型(LVLMs)在物理世界推理中的因果理解能力,揭示了现有模型在反事实物理推理上的显著不足。

Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models

本文提出了一种反事实一致性提示(Counterfactual-Consistency Prompting)方法,通过生成反事实问题并施加集体约束来解决大语言模型在时序推理中的不一致性问题,在多个时序理解数据集上取得了显著改进。

Counterfactual Explanations for Aspect-Based Sentiment Analysis

本文提出一种为方面级情感分析(ABSA)生成反事实解释的方法,通过找到能翻转特定方面情感极性的最小文本修改,为 ABSA 模型的预测提供直观的因果解释。

FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation

提出 FitCF 框架,利用 BERT 特征归因方法(LIME/IG/SHAP等)提取重要词来引导 LLM 在 zero-shot 下生成反事实样本(ZeroCF),再经标签翻转验证筛选后作为 few-shot 示例,在新闻分类和情感分析任务上一致性超越 Polyjuice、BAE、FIZLE 三种基线。

IRIS: An Iterative and Integrated Framework for Verifiable Causal Discovery

提出 IRIS 框架——仅需一组初始变量名作为输入,即可自动检索文档、提取变量值构建结构化数据、通过混合因果发现(GES 统计算法 + LLM 因果关系验证)构建因果图,并通过缺失变量提议组件迭代扩展变量集合,放松了传统方法的无环和因果充分性假设,在 Cancer、Diabetes、Obesity、ADNI、Insurance 等 6 个数据集上 F1 全面超越 0-shot/CoT/RAG 基线。

Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning

本文将变异理论(Variation Theory)引入反事实数据增强(CDA)框架,通过保留神经符号模式的方式使用LLM生成反事实样本,并结合三级过滤流水线筛选高质量数据,用于优化主动学习中的少样本文本分类,在多个数据集上取得显著F1提升。

On the Reliability of Large Language Models for Causal Discovery

利用开源 LLM(OLMo、BLOOM)可访问的预训练语料库,实证验证了"因果鹦鹉"假说——LLM 识别因果关系的能力与预训练数据中该关系的出现频率高度相关(Spearman r=0.9),且错误因果关系的存在和上下文变化都会显著影响预测可靠性。

Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation

提出 COVER(COunterfactual VidEo Reasoning),一个多维度视频反事实推理 benchmark,将评估任务按抽象-具体和感知-认知两个维度分为四象限共 13 类任务,并通过将复杂问题分解为子问题(必要条件)来揭示——子问题准确率与反事实推理能力强相关,提升推理能力是改善视频理解鲁棒性的关键。


🔬 可解释性 (22)

A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability

提出一个双视角 NLG 元评估框架,将传统的人-指标相关性分解为全局视角(序数分类,判断粗粒度质量等级)和局部视角(相邻对比,区分细粒度质量差异),并通过自动化基准构建方法避免人工标注和数据污染,在 16 个 LLM 评估器上实验发现 Qwen-2.5-72B 全局最优、DeepSeek-V3 局部最优。

An Empirical Study of Mechanistic Interpretability Approaches for Factual Recall

本文系统性地比较了多种机理可解释性方法(因果追踪、激活修补、探针分析等)在定位和解释LLM事实回忆机制方面的表现,揭示了不同方法的一致性、分歧点和各自的适用场景。

Around the World in 24 Hours: Probing LLM Knowledge of Time and Place

本文提出 GeoTemp 数据集(320k 提示,覆盖 289 个城市和 37 个时区),首次评估 LLM 联合时间和空间推理的能力,发现模型能独立处理时间计算和地理知识,但在需要结合两者时性能急剧下降。

Bias Attribution in Filipino Language Models: Extending a Bias Interpretability Metric for Application on Agglutinative Languages

将信息论偏见归因分数指标扩展到黏着语(菲律宾语),通过对子词分数取均值来处理复杂词素结构,在 4 个多语言 PLM 上揭示菲律宾语模型的偏见由实体类主题词(人物/物品/关系)驱动,与英语中动作类主题词(犯罪/性行为)形成鲜明对比。

CLEME2.0: Towards Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction

本文提出 CLEME2.0,一种可解释的 GEC 参考评估指标,通过将编辑解耦为四类(正确纠正 TP、错误纠正 FPne、欠纠正 FN、过纠正 FPun)并结合编辑加权技术,在 GJG15 和 SEEDA 两个人工评判数据集上达到了与人工判断最高相关性的 SOTA 结果。

Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models

本文从结构和功能双重角度重新定义了LLM中的退化知识神经元(DKN),提出神经拓扑聚类方法获取任意数量和结构的DKN,并通过34个实验揭示了DKN与LLM鲁棒性、可进化性和复杂性的内在关联。

EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations

本文提出 EXPERT,一种基于 VLM 微调的无参考图像描述评估指标,通过构建大规模结构化解释数据集并设计两阶段评估模板,在多个基准数据集上达到 SOTA 的同时,提供基于流畅度、相关性、描述性三个维度的高质量结构化解释。

IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory

IRT-Router 借鉴心理测量学的项目反应理论(IRT),将 LLM 视为"考生"、query 视为"考题",学习多维能力向量和难度/区分度参数实现可解释的多 LLM 路由,在 OOD 场景下达 87%+ 准确率且成本仅为 GPT-4o 的 1/30。

Llama See, Llama Do: A Mechanistic Perspective on Contextual Entrainment and Distraction in LLMs

本文发现并定义了"上下文夹带"(contextual entrainment)现象——LLM会对上下文中出现过的任意token赋予更高概率,并通过可微掩码方法定位了负责该现象的entrainment heads,关闭这些头后可显著抑制干扰效应。

Mechanistic Interpretability of Emotion Inference in Large Language Models

通过 probing、activation patching 和 generation steering 三种机制可解释性技术,发现 LLM 的情感表征功能性地定位于中间层的 MHSA 单元,并基于认知评估理论(appraisal theory)证明这些表征具有心理学合理性,成功通过干预评估概念(如 self-agency、pleasantness)引导情感输出。

查看全部22篇「可解释性」论文 →


📦 模型压缩 (78)

500xCompressor: Generalized Prompt Compression for Large Language Models

提出 500xCompressor,将最多约 500 个自然语言 token 压缩为最少 1 个特殊 token 的 KV 值,实现 6x 到 480x 的压缩比,仅增加约 0.25% 的参数,LLM 在压缩后保留 62.26%-72.89% 的原始能力,显著超越 ICAE 基线。

Accurate KV Cache Quantization with Outlier Tokens Tracing

发现 KV Cache 的 outlier channel 中存在少量异常 token 偏离先前假设的均匀分布,提出 OTT(Outlier Tokens Tracing)方法,在量化过程中动态追踪并排除这些 token,在 2-bit 量化下实现 6.4x 内存压缩和 2.3x 吞吐提升,同时显著提高精度。

AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation

AlignDistil 证明了 RLHF 目标函数与 token 级蒸馏过程的理论等价性,并据此设计了一种简单的蒸馏方法:用 DPO 模型和反向 DPO 模型的 logit 分布线性组合构造教师分布,配合 token 自适应外推机制实现 token 级奖励优化,在 AlpacaEval 2.0、MT-Bench 和 Arena-Hard 上优于现有方法且收敛更快。

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

APB 提出了一种分布式长上下文推理框架,通过在序列并行框架中引入本地 KV cache 压缩和跨 GPU 传递压缩上下文块的机制,在不损失任务性能的前提下实现了相比 FlashAttn/RingAttn/StarAttn 分别高达 9.2x/4.2x/1.6x 的 prefill 加速。

Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition

提出ODLRI (Outlier-Driven Low-Rank Initialization),为联合量化+低秩优化(Q+LR)框架中的低秩分量赋予明确角色——捕获激活异常值敏感权重,使量化分量处理更平滑的残差,在Llama2/3和Mistral的2-bit极端量化场景下持续降低困惑度和提升零样本精度。

Basic Reading Distillation

本文提出基础阅读蒸馏(BRD),通过让教师LLM在通用语料上生成基础阅读行为数据(包括NER和问答),训练小型学生模型模仿这些行为,使564M参数的小模型在不接触下游任务数据的情况下就能在多种NLP任务上达到或超过20倍大的教师模型性能。

BeamLoRA: Beam-Constraint Low-Rank Adaptation

BeamLoRA 发现 LoRA 模块中不同 rank 的重要性存在显著差异且随训练动态演变,受 beam search 启发,提出在训练过程中动态评估 rank 重要性、剪枝不重要的 rank 并将参数空间扩展给重要 rank,在固定总 rank 下提升性能,在三个基座模型的 12 个数据集上持续优于 LoRA 及其变体。

Beyond Logits: Aligning Feature Dynamics for Effective Knowledge Distillation

本文提出一种超越 logit 匹配的知识蒸馏方法,通过对齐教师和学生模型在训练过程中的特征变化动态(而非静态特征快照),实现更有效的知识转移,显著提升了 NLP 任务上的蒸馏效果。

Beyond Text Compression: Evaluating Tokenizers Across Scales

本文系统评估了 6 种 tokenizer 在 350M 和 2.7B 参数模型上的影响,发现 tokenizer 选择对英文任务影响极小但对多语言任务(如机器翻译)有显著且跨尺度一致的影响,并提出了基于 Zipf 定律的新型内在评估指标,比文本压缩率能更好地预测多语言场景下的下游性能。

"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

这是迄今最全面的 LLM 量化实证研究,在 Llama-3.1 全系列(8B/70B/405B)上对 FP8/INT8/INT4 进行了超过 50 万次评估,发现 FP8 几乎无损、INT8 仅降 1-3%、INT4 出奇地有竞争力,并给出了不同部署场景的量化格式选择建议。

查看全部78篇「模型压缩」论文 →


🕸️ 图学习 (24)

A Generative Adaptive Replay Continual Learning Model for Temporal Knowledge Graph Reasoning

本文提出深度生成自适应重放(DGAR)方法,利用预训练扩散模型生成历史实体分布表示、通过增强历史分布与当前分布的共同特征来缓解分布冲突,并设计逐层自适应重放机制整合历史与当前知识,在时序知识图谱推理的持续学习场景中显著缓解了灾难性遗忘问题。

A Mutual Information Perspective on Knowledge Graph Embedding

本文提出基于互信息最大化的知识图谱嵌入(KGE)框架,通过最大化三元组不同组成部分之间的互信息来提升实体和关系的语义表示能力,在复杂关系模式(1-N、N-1等)上取得一致性能提升。

Agent Steerable Search for Knowledge Graph Question Answering

本文提出一种基于智能体的可控知识图谱搜索框架,让LLM Agent能够根据问题类型和推理需求动态调整图搜索策略(如搜索深度、方向、剪枝规则),实现对知识图谱问答过程的精细控制。

Beyond Completion: A Foundation Model for General Knowledge Graph Reasoning

提出 MERRY,一个统一处理 KG 内(零样本 KGC)和 KG 外(KGQA)推理任务的知识图谱基础模型,通过多视角条件消息传递 (CMP) 融合文本和结构信息,在 28 个数据集上超越现有方法。

Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision?

本文提出Morpher,一种多模态提示学习范式,在极弱文本监督(仅几个token的标签名)下,通过同时学习图提示和文本提示将预训练GNN嵌入到LLM的语义空间中,实现跨任务、跨领域的图分类迁移以及首个CLIP风格的GNN零样本分类原型。

Croppable Knowledge Graph Embedding

提出 MED 框架训练"可裁剪"知识图谱嵌入——一次训练同时优化 64 个不同维度的子模型(共享嵌入前缀),通过互学习、进化改进和动态损失权重,各维度子模型直接裁剪使用即超越独立训练和蒸馏方法,训练速度快 10 倍。

Cross-Document Contextual Coreference Resolution in Knowledge Graphs

提出基于知识图谱的跨文档共指消解方法,通过动态链接机制将文本实体提及与知识图谱节点关联,结合上下文嵌入和图消息传递推理提升跨文档实体识别的精度和召回率,在多个基准数据集上超越传统方法。

Disentangled Multi-span Evolutionary Network against Temporal Knowledge Graph Reasoning

提出 DiMNet,通过多跨度演化策略和跨时间解耦机制,分离节点语义的活跃/稳定特征,显著提升时序知识图谱(TKG)外推推理性能,在四个基准数据集上取得 SOTA。

Extending Complex Logical Queries on Uncertain Knowledge Graphs

本文提出"软查询"形式化框架,将复杂逻辑查询扩展到不确定知识图谱(带置信度值),并设计 SRC 方法结合前向推理和后向校准来高效回答软查询,理论证明误差不会灾难性级联。

Fast-and-Frugal Text-Graph Transformers are Effective Link Predictors

提出 Fast-and-Frugal Text-Graph (FnF-TG) Transformer,通过 Transformer 的自注意力机制统一编码文本描述和图结构(ego-graph),在归纳链接预测任务上以小 BERT 模型超越了使用大 BERT+MPNN 的 SOTA,同时首次扩展到完全归纳设置(关系也可归纳)。

查看全部24篇「图学习」论文 →


📈 时间序列 (7)

ANRE: Analogical Replay for Temporal Knowledge Graph Forecasting

本文提出ANRE(Analogical Replay)方法,通过检索历史知识图谱快照中与当前查询结构类似的"类比事件",将其作为推理线索辅助时序知识图谱的未来事件预测,在多个基准数据集上取得了显著的性能提升。

Context-Aware Sentiment Forecasting via LLM-based Multi-Perspective Role-Playing Agents

提出一个基于 LLM 的多视角角色扮演框架(MPR),通过主观 Agent 模拟用户发帖、客观 Agent(微调的"心理学家"LLM)审查行为一致性,以迭代纠正的方式预测社交媒体用户对实时事件的未来情感反应,在宏观和微观层面均大幅超越传统方法。

CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records Analysis

提出 CTPD 框架,利用 Slot Attention 从多模态 EHR 数据(不规则时间序列+临床笔记)中发现跨模态共享的时序原型模式,通过 TP-NCE 对比损失对齐两模态的时序语义,在 MIMIC-III 的死亡率预测和表型分类任务上取得 SOTA。

G2S: A General-to-Specific Learning Framework for Temporal Knowledge Graph Forecasting with Large Language Models

提出 G2S 框架,将时序知识图谱(TKG)预测中的通用模式(时序结构规律)与场景信息(具体实体/关系)解耦,先在匿名化时序结构上学习通用模式,再注入场景信息,有效提升 LLM 在 TKG 预测中的泛化能力。

LETS-C: Leveraging Text Embedding for Time Series Classification

提出 LETS-C——将时间序列数字化为文本字符串后用 text embedding 模型编码,与原始时间序列元素级相加融合后送入轻量 CNN+MLP 分类头,在 UEA 10 个多变量时间序列数据集上以仅 14.5% 的可训练参数量超越 OneFitsAll(GPT-2 微调)等 27 个 baseline 达到 SOTA。

Revisiting LLMs as Zero-Shot Time-Series Forecasters: Small Noise Can Break Large Models

本文系统评估了 LLM 作为零样本时间序列预测器的有效性,发现 LLM 对输入噪声极度敏感——即使少量噪声也会使性能大幅下降,甚至不如简单的领域专用模型(如 DLinear),建议未来应聚焦于对 LLM 进行微调以更好地处理数值序列。

Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement

提出Time-MQA框架和TSQA数据集(~200k QA对),将时间序列的预测、填补、异常检测、分类和开放式推理问答统一到自然语言问答范式下,通过持续预训练LLM使其具备时间序列理解和推理能力。


🩺 医疗 LLM (31)

A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment

本文提出一种将小型语言模型(SLM)高效适配为临床领域模型的模块化框架,包含领域专家预指令微调(在医学语料上训练多个专家模型)、模型合并(将多个专家合并为统一的 MediPhi)、以及基于 250 万条合成指令(MediFlow)的临床任务对齐,最终 3.8B 参数的 MediPhi 在多项临床任务上超越 GPT-4。

A Retrieval-Based Approach to Medical Procedure Matching in Romanian

将罗马尼亚语医疗程序名称匹配建模为检索问题而非分类问题,在 39,097 个标准条目(50% 仅有单样本)的极端长尾场景下,对比 BM25 稀疏检索与 mE5/RoBERT/BioClinicalBERT 三种密集嵌入,通过度量学习微调后 mE5 达到 85.2% Acc@1,真实部署中医生验证 94.7% 准确率且比人工快 1200 倍。

A Survey of Large Language Models in Psychotherapy: Current Landscape and Future Directions

首篇以 APA 三阶段(评估→诊断→治疗)概念分类法系统梳理 LLM 心理治疗研究的综述,覆盖 60+ 篇工作,从症状检测到虚拟治疗师四层面全面分析,揭示障碍覆盖、语言偏差、方法碎片化和理论整合的四重失衡。

Adaptive-VP: A Framework for LLM-Based Virtual Patients that Adapts to Trainees' Dialogue to Facilitate Nurse Communication Training

提出 Adaptive-VP 框架,利用 LLM 构建可根据护理学员沟通质量动态调整行为的虚拟病人(VP),通过多 Agent 评估→动态适应→对话生成→安全监控的四模块管线,在 28 名护理专家的 between-subjects 实验中显著提升了 VP 交互的感知真实感(角色保真度 \(\eta_p^2 = 0.151\),对话真实感 \(\eta_p^2 = 0.254\))。

AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset

构建首个大规模泛非洲医学问答基准 AfriMed-QA(15,275 题,16 国 60+ 医学院校、32 个专科),系统评估 30 个 LLM 并发现非洲医疗场景下存在显著的地域性能差距和生物医学模型反不如通用模型的反直觉现象。

Are LLMs Effective Psychological Assessors? Leveraging Adaptive RAG for Interpretable Mental Health Screening through Psychometric Practice

本文提出了一种基于问卷引导的心理健康筛查框架,通过自适应RAG从用户Reddit帖子中检索相关内容,再用LLM代为填写标准化心理量表(如BDI-II),在无需训练数据的情况下匹配或超越有监督方法的性能,同时提供了临床可解释的评估结果。

ArgHiTZ at ArchEHR-QA 2025: A Two-Step Divide and Conquer Approach to Patient Question Answering for Top Factuality

在 ArchEHR-QA 2025 共享任务中提出两阶段"分治"方法:先用重排序模型从电子健康记录中提取关键句子,再用小型医学 LLM 生成回复,在不使用外部知识的情况下取得事实性排名第一、总分第 8/30 的成绩。

Automated Structured Radiology Report Generation

提出结构化放射学报告生成(SRRG)新任务,利用LLM将自由文本报告重构为标准化格式,同时引入55标签的SRR-BERT疾病分类模型和F1-SRR-BERT评估指标,解决传统报告生成中风格多样导致的生成与评估困难。

The Impact of Auxiliary Patient Data on Automated Chest X-Ray Report Generation and How to Incorporate It

本文研究如何将急诊科患者数据(生命体征、药物、分诊信息等)整合到多模态语言模型中用于自动胸部X光报告生成,提出将异构表格数据、文本和图像转化为统一嵌入的方法,在MIMIC-CXR + MIMIC-IV-ED数据集上显著提升了报告的诊断准确性,超越了包括CXRMate-RRG24在内的多个基准模型。

Improving Automatic Evaluation of LLMs in Biomedical Relation Extraction via LLMs-as-the-Judge

本文首次系统研究了 LLM-as-Judge 在生物医学关系抽取评估中的表现,发现其准确率通常低于 50%,并提出结构化输出格式(JSON)和域适应技术来提升约 15% 的评估准确率。

查看全部31篇「医疗 LLM」论文 →


🧬 计算生物 (6)

Align-Pro: Align Protein Representations Through Multi-Modal Learning

Align-Pro通过多模态对比学习框架,将蛋白质的序列、结构和功能描述三种模态的表示对齐到统一的嵌入空间中,从而实现跨模态的蛋白质检索、分类和功能预测。

Concept Bottleneck Language Models For Protein Design

本文将概念瓶颈模型(Concept Bottleneck Model)的可解释性设计理念引入蛋白质语言模型,通过中间层的生物学概念作为瓶颈,实现既能设计功能性蛋白质序列又能提供人类可理解的设计理由的蛋白质生成系统。

A Survey on Foundation Language Models for Single-cell Biology

首篇从语言建模视角系统综述单细胞生物学基础语言模型,将现有工作划分为PLM(从头预训练)和LLM(利用已有大模型)两大类,全面分析tokenization策略、预训练/微调范式以及下游任务体系,并指出当前领域在数据质量、统一评测和scaling law方面的核心挑战。

Enhancing Safe and Controllable Protein Generation via Knowledge Preference Optimization

提出KPO框架,通过构建蛋白质安全知识图谱(PSKG)并结合加权图剪枝策略识别"相似但安全"的蛋白质对,用DPO微调蛋白质语言模型使其远离有害序列空间,同时保持功能性。

LADDER: Language Driven Slice Discovery and Error Rectification in Vision Classifiers

LADDER 把预训练视觉分类器的内部激活"翻译"成自然语言、检索出与错误相关的句子,再让 LLM 据此推理出"模型在缺少哪个属性时会犯错"的可检验假设,从而无需任何属性标注就能发现并缓解任意现成分类器的多重偏见;在 6 个自然/医学数据集、200+ 分类器上一致超过 Domino/Facts/DFR 等基线。

Retrieve to Explain: Evidence-driven Predictions for Explainable Drug Target Identification

提出 R2E (Retrieve to Explain),一种基于检索的架构,通过从文献语料库中检索证据来评分和排序所有候选答案,并利用 Shapley 值将预测忠实地归因到支撑证据,在药物靶点识别任务上超越了遗传学基线和 GPT-4 基线。


👥 社会计算 (28)

A Survey on Proactive Defense Strategies Against Misinformation in Large Language Models

提出从被动检测到主动防御的范式转换,构建知识可信度、推理可靠性、输入鲁棒性"三支柱"框架,将 127 种防御技术系统映射到三支柱中,元分析 48 项基准研究表明主动防御相比传统方法提升 42-63%,同时识别了计算开销和跨域泛化的非平凡权衡。

BanStereoSet: A Dataset to Measure Stereotypical Social Biases in LLMs for Bangla

构建 BanStereoSet,一个包含 1194 条填空式样本、覆盖 9 类偏见(种族/性别/宗教/职业/美貌/年龄/种姓/地区等)的孟加拉语刻板印象偏见数据集,用于评估多语言 LLM 在孟加拉语中的社会偏见,发现 GPT-4o 偏见最高,Mistral 最低。

Beyond Negative Stereotypes -- Non-Negative Abusive Utterances about Identity Groups and Their Semantic Variants

本文研究了一种被忽视的仇恨言论类型——表面上不包含负面刻板印象但实际上针对身份群体的滥用性表达,系统分析了这类"非负面滥用话语"的语义变体,并评估了现有检测模型的处理能力。

BiasGuard: A Reasoning-Enhanced Bias Detection Tool for Large Language Models

提出 BiasGuard,通过显式推理公平性规范来检测 LLM 输出偏见:第一阶段用教师模型生成推理轨迹做 SFT 初始化,第二阶段用 DPO 强化推理质量,在 5 个数据集上超越分类器和 LLM-as-Judge 方法且降低过度公平误判。

Can Community Notes Replace Professional Fact-Checkers?

大规模分析 Twitter/X 社区笔记 66.4 万条,发现社区笔记对专业事实核查的依赖是此前报告的 5 倍(≥5-7%),涉及阴谋论/虚假叙事的内容引用事实核查来源的概率是其他内容的 2 倍,证明高质量社区审核与专业事实核查深度交织、不可替代。

Conspiracy Theories and Where to Find Them on TikTok

首个TikTok阴谋论系统性分析:通过官方API收集美国150万条长视频,利用标签富集和远程监督识别阴谋论内容(每月约1000条新视频),评估TikTok创作者激励计划的影响,并测试开源LLM(Llama3、Mistral、Gemma)在基于音频转录的阴谋论检测上的效果(精确率高达96%但整体水平与微调RoBERTa相当)。

Culture Matters in Toxic Language Detection in Persian

本文系统比较了多种方法(微调、数据增强、零样本/少样本学习、跨语言迁移学习)在波斯语有害语言检测中的效果,揭示了文化相似性是决定跨语言迁移学习成功与否的关键因素——来自文化相近国家的语言数据带来更好的迁移效果。

Detection of Human and Machine-Authored Fake News in Urdu

本文提出了乌尔都语四分类假新闻检测任务(人类假/人类真/机器假/机器真),构建了首个乌尔都语机器生成新闻数据集,并提出层次化检测方法将四分类分解为机器文本检测和假新闻检测两个子任务,在域内和跨域设置中均优于基线。

Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection

借鉴社会心理学中隐式联想测验(IAT)和自我报告评估(SRA),提出自反思评估框架系统研究 LLM 的显式和隐式偏见,发现 LLM 与人类一样存在显式-隐式偏见不一致——显式偏见轻微但隐式偏见强烈,且模型越大/对齐训练越多,这种不一致越严重。

Exploring Gender Bias in Large Language Models: An In-depth Dive into the German Language

本文针对德语场景构建了五个性别偏见评测数据集,并在八个多语言 LLM 上进行系统评估,揭示了德语特有的性别偏见挑战——包括阳性职业名词的歧义解读和看似中性的名词对性别感知的影响。

查看全部28篇「社会计算」论文 →


🛡️ AI 安全 (14)

Building a Long Text Privacy Policy Corpus with Multi-Class Labels

本文构建了一个包含149家公司隐私政策的多维度标注语料库(64个标注维度),涵盖欧盟和美国隐私法规中的争议条款和法律规则,并使用当前大语言模型建立了分类基准。

CENTAUR: Bridging the Impossible Trinity of Privacy, Efficiency, and Performance in Privacy-Preserving Transformer Inference

提出 Centaur 框架,融合随机置换矩阵和安全多方计算(SMPC)来打破隐私保护 Transformer 推理(PPTI)中的"不可能三角"——同时实现强隐私保护、5-30x 加速和明文级别推理精度。

Crafting Privacy-Preserving Adversarial Examples: A Defense Against Membership Inference

本文提出一种通过构造隐私保护型对抗样本来防御成员推理攻击(MIA)的方法,在模型预测输出中注入精心设计的扰动,使攻击者无法判断某条数据是否属于训练集,同时保持模型对正常用户的服务质量。

FairI Tales: Evaluation of Fairness in Indian Contexts with a Focus on Bias and Stereotypes

本文提出 Indic-Bias,首个面向印度多元社会的大规模 LLM 公平性基准,通过 20,000 个人工验证的场景模板在三大评估任务上测试 14 个 LLM,揭示模型对达利特等边缘化群体存在严重负面偏见,且超过 70% 的情况下会强化刻板印象。

Gender Inclusivity Fairness Index (GIFI): A Multilevel Framework

提出 GIFI(Gender Inclusivity Fairness Index),一个涵盖代词识别、情感中立性、毒性、反事实公平性、刻板印象关联、职业公平性和数学推理一致性七个维度的多层次评估框架,在 22 个主流 LLM 上系统量化二元与非二元性别的公平性,揭示新代词在无提示时完全缺席、"she" 过度矫正等深层偏见模式。

Multi-task Adversarial Attacks against Black-box Model with Few-shot Queries

提出 CEMA(Cluster and Ensemble Multi-task Text Adversarial Attack)方法,通过训练"深层替代模型"将复杂的多任务黑盒攻击转化为单任务文本分类攻击,仅需约 100 次查询即可同时攻击分类、翻译、摘要、文生图等多种任务,并在 ChatGPT-4o、百度翻译、Stable Diffusion 等商用模型上验证了有效性。

PrivaCI-Bench: Evaluating Privacy with Contextual Integrity and Legal Compliance

提出 PrivaCI-Bench,基于 Contextual Integrity 理论构建了目前最大的上下文隐私评估基准(154K 实例),涵盖真实法院案例、隐私政策和 EU AI Act 合规检查器合成数据,评估 LLM 在 HIPAA/GDPR/AI Act 下的法律合规能力。

Quantifying Misattribution Unfairness in Authorship Attribution

本文提出MAUI_k指标量化作者归因系统中"错误归因不公平性"——某些作者系统性地更容易被误判为可疑作者,并发现这种不公平与作者嵌入在向量空间中距质心的距离高度相关。

Robust and Minimally Invasive Watermarking for EaaS

提出 ESpeW(Embedding-Specific Watermark),一种嵌入特异性水印方法,通过在每个嵌入向量的不同位置注入独特水印,实现对 Embeddings as a Service (EaaS) 的鲁棒版权保护,抵抗各种水印移除攻击且对嵌入质量的影响小于 1%。

Sandcastles in the Storm: Revisiting Watermarking Impossibility

本文通过大规模实验和人类评估挑战了 "Watermarks in the Sand" (WITS) 的理论不可能性结论:证明随机游走攻击的两个关键假设在实践中不成立——混合(mixing)速度极慢(100% 的攻击文本仍可追溯原始来源)且质量预言机(quality oracle)不可靠(仅 77% 准确率),自动攻击仅 26% 成功率,人类质量审核后降至 10%。

查看全部14篇「AI 安全」论文 →


📂 其他 (184)

Barec: A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment

构建 Barec——首个大规模、平衡、细粒度的阿拉伯语可读性评估语料库(69K+ 句子、100 万+词、19 个等级),由 6 名专业教育者标注,并基准测试了 4 种阿拉伯语 BERT 模型 × 4 种输入变体 × 5 种损失函数,发现形态学分词输入 D3Tok 配合回归损失在 QWK 上达到 84.0%。

A Little Human Data Goes A Long Way

通过在8个事实验证和问答数据集上的大规模实验,证明了在合成数据中混入极少量人工标注数据(甚至仅125个样本)就能显著提升模型性能,替换最后10%的人工数据会导致性能严重下降,且200条人工数据的增益需要数量级更多的合成数据才能匹配。

A Measure of the System Dependence of Automated Metrics

指出机器翻译自动评估指标存在被忽视的"系统依赖性"问题:同一指标分数对不同翻译系统对应不同的人类评分,提出 SysDep 度量来量化这一效应,揭示即使是 WMT23 最佳指标 XCOMET 也存在严重的系统依赖性导致错误排名。

A Multi-Persona Framework for Argument Quality Assessment

本文提出 MPAQ 框架,通过大语言模型模拟多个不同评估者视角(persona),对论点进行多角度质量评估,并设计粗到细的评分策略(先整数再小数),在 IBM-Rank-30k 和 IBM-ArgQ-5.3kArgs 数据集上显著超越现有基线,同时提供了可解释的多视角评估理由。

A New Formulation of Zipf's Meaning-Frequency Law through Contextual Diversity

本文提出将 Zipf 语义-频率定律重新形式化为词频与上下文多样性之间的幂律关系,通过语言模型生成的上下文化词向量方向来量化词义数量,发现该定律在小规模语言模型中不可观测,且自回归 LM 需要比掩码 LM 多得多的参数才能呈现该定律。

A Practical Approach for Building Production-Grade Conversational Agents with Workflow Graphs

提出基于有向无环图(DAG)的工作流框架,通过将LLM agent的复杂业务约束分解到图中不同状态节点,并结合响应掩码微调策略,构建满足生产级要求的电商对话代理,在任务准确率和格式遵循方面均大幅超越GPT-4o基线。

A Spatio-Temporal Point Process for Fine-Grained Modeling of Reading Behavior

本文提出基于标记时空点过程(marked spatio-temporal point process)的阅读行为统一概率模型,同时建模注视何时发生、落在哪里、持续多久,避免传统聚合测量的信息损失,发现 surprisal 对细粒度眼动的预测贡献极其有限。

ACORD: An Expert-Annotated Retrieval Dataset for Legal Contract Clause Retrieval

构建首个面向合同起草的专家标注条款检索基准ACORD(114查询、126K+对、1-5星评分),评估20种检索方法发现BM25+GPT-4o pointwise重排序最优(NDCG@5=76.9%),但高质量条款精度极低(5星precision@5仅17.2%),揭示模型距真实律师需求的巨大差距。

Adaptive Feature-based Low Rank Plus Sparse Decomposition for Subspace Clustering

本文提出一种自适应特征驱动的低秩加稀疏矩阵分解方法,通过在特征空间中自适应学习低秩和稀疏成分的权重,解决子空间聚类中噪声鲁棒性和特征判别力不足的问题。

Adaptive Retrieval without Self-Knowledge? Bringing Uncertainty Back Home

对 35 种自适应检索方法(含 8 种最新方法和 27 种不确定性估计方法)进行了全面评测,发现经典的不确定性估计技术在效率和自知能力方面往往优于复杂的专用流水线,同时保持相当的 QA 性能。

查看全部184篇「其他」论文 →


🗂 其他方向 (25)


🧊 3D 视觉 (1)

Slamming: Training a Speech Language Model on One GPU in a Day

提出 Slam 训练配方,通过系统化的模型初始化、架构选择、合成数据、偏好优化等环节优化,在单张 A5000 GPU 上 24 小时内训练出性能媲美大规模 SLM 的语音语言模型。


🎯 目标检测 (2)

Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice Questions

首次从失败案例角度对GPT-2系列在MCQ中的"锚定偏差"(始终选A)进行机械分析,通过Logit Lens定位到MLP中存储"A"偏好的特定值向量,用极简干预(更新值向量)将MCQ准确率平均提升70%+。

Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning

提出Delora框架,通过引入clean LoRA和noisy LoRA双模块构建噪声标签检测器,将样本选择与模型训练解耦,打破传统"小损失"方法中样本选择与训练互相影响的恶性循环。


✂️ 语义分割 (4)

BERT-like Models for Slavic Morpheme Segmentation

本文探索使用 BERT 类预训练语言模型来完成斯拉夫语系语言的形态素分割任务,通过将形态素分割建模为序列标注问题,在多个斯拉夫语言上取得了优于传统方法的结果。

DEF-DTS: Deductive Reasoning for Open-domain Dialogue Topic Segmentation

提出 DEF-DTS,一种基于 LLM 多步演绎推理的对话话题分割方法——通过双向上下文摘要 → 话语意图分类(5 类) → 演绎话题转移判断三步 pipeline,在 TIAGE、SuperDialseg、Dialseg711 三个数据集上取得无监督/prompt 方法 SOTA,在 Dialseg711 上超越监督方法。

InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning

提出 InstructPart,首个将任务导向指令与部件级分割结合的真实世界 benchmark——2400 张图像、48 类物体、44 类部件、9600 条人工标注的任务指令,评估发现当前 VLM 在指令驱动的部件分割上严重不足,基于 LISA+DINOv2 的 baseline 微调后性能提升约 100%。

Pixel-Level Reasoning Segmentation via Multi-turn Conversations

提出像素级推理分割 (Pixel-level RS) 新任务,通过多轮对话逐步理解用户意图实现细粒度分割,构建了包含 24k 对话轮次的 PRIST 数据集,并设计 MIRAS 框架在分割精度和推理能力上均超越现有基线。


🖼️ 图像恢复 (3)

A Self-Denoising Model for Robust Few-Shot Relation Extraction

本文针对少样本关系抽取中支持集标签噪声问题,提出自去噪模型(SDM),通过标签校正模块和关系分类模块的协同训练,自动修正噪声标签并实现更鲁棒的关系预测,即使在无噪声场景下也显著超越基线。

DiffuseDef: Improved Robustness to Adversarial Attacks via Iterative Denoising

DiffuseDef 在编码器与分类器之间插入一个扩散去噪层,训练时学习预测隐状态噪声,推理时对隐表示加噪→迭代去噪→集成平均,以即插即用的方式大幅提升文本分类模型在黑盒和白盒对抗攻击下的鲁棒性。

PreP-OCR: A Complete Pipeline for Document Image Restoration and Enhanced OCR Accuracy

提出 PreP-OCR 两阶段流水线:先用合成退化数据训练的 ResShift 模型修复历史文档图像(多方向 patch 提取+中值融合),再用 ByT5 做 OCR 后语义纠错,在 13,831 页真实历史文档上降低 CER 63.9-70.3%。


🧑 人体理解 (2)

Beyond Surface Simplicity: Revealing Hidden Reasoning Attributes for Precise Commonsense Diagnosis

本文揭示了常识推理基准中表面简单但实际隐含复杂推理属性的问题,提出了一种基于隐藏推理属性的细粒度诊断框架,能够更精确地分析和评估模型的常识推理能力。

TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments

提出首个系统评估 GUI Agent 迁移性(跨版本/跨平台/跨应用)的 benchmark TransBench,涵盖 81 个中文 App、1459 张截图、22K+ 标注指令,实验表明在旧版本上微调可有效迁移到新版本和其他平台,而跨平台迁移中 Android 数据的泛化性最强。


📹 视频理解 (8)

A Thousand Words Paint a Picture: Multimodal Goal Tracking for Grounded Social Intelligence

本文提出了一个多模态目标追踪框架,通过结合视觉与语言线索来推理社交场景中参与者的隐含目标,从而提升模型对社交情境的理解能力(即"落地的社会智能")。

Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models

首次系统性研究视频语言模型(VLM)在多选题回答中的选项选择偏差问题,通过任务分解分析偏差来源,提出BOLD后处理校准技术,在减少偏差的同时提升模型性能。

Attention-Seeker: Dynamic Self-Attention Scoring for Unsupervised Key-Frame Extraction

本文提出Attention-Seeker方法,通过动态地分析Transformer模型中自注意力层的注意力得分分布,无需任何监督信号即可从视频中提取最具代表性的关键帧,在多个视频摘要基准数据集上超越了现有的无监督方法。

From Teacher to Student: Tracking Memorization Through Model Distillation

系统研究了知识蒸馏(KD)对大语言模型记忆化行为的影响,发现蒸馏不仅能压缩模型,还能显著降低对训练数据的逐字记忆风险——其中反向 KL 蒸馏(RKLD/MiniLLM)将记忆化比例从 SFT 的 65.4% 降至最低 6.0%。

Generative Frame Sampler for Long Video Understanding

提出 GenS,一个基于 VideoLLM 的生成式帧采样模块,用自然语言输出question-aware的相关帧时间段和置信度分数,作为即插即用模块在 LongVideoBench/MLVU/HourVideo 上为多种 VideoLLM 带来 2-4 个点的一致提升。

Improving Dialogue State Tracking through Combinatorial Search for In-Context Examples

提出 CombiSearch 方法,通过组合式评分为对话状态追踪(DST)选择最优 in-context 示例组合,在仅用 5% 训练数据的情况下超越所有使用 100% 数据的 baseline,理想设置下 JGA 上界比传统方法高 12%。

RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning

本文提出RAVEN框架,将课程强化学习与多模态LLM结合,通过分层奖励机制和渐进式训练策略,实现广告视频违规内容的精确时序定位和类别预测,无需显式推理标注数据即可激发涌现推理能力。

Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs

基于Video-LLM中注意力分数的稀疏性观察,提出Sparse-to-Dense (StD)解码策略,用top-K稀疏注意力模型作为draft model快速生成候选token,再用全注意力模型并行验证,实现最高1.94倍的无损加速,且无需额外训练或架构修改。


🚗 自动驾驶 (1)

Embracing Large Language Models in Traffic Flow Forecasting

提出 LEAF 框架,用图分支(pair-wise关系)和超图分支(non-pair-wise关系)的双分支预测器生成候选预测,再用冻结的 LLM 作为选择器(判别而非生成)挑选最优预测,通过 ranking loss 反馈优化预测器,在 PEMS 数据集上取得 SOTA。


📐 优化/理论 (3)

Aligned but Blind: Alignment Increases Implicit Bias by Reducing Awareness of Race

揭示对齐训练的"种族盲视"副作用:对齐使 LLM 在歧义上下文中不再将 black/white 表征为种族概念,安全护栏因此无法激活,导致隐式偏见从 64.1% 飙升至 91.4%;反直觉地,在早期层注入种族感知激活(而非遗忘)可将隐式偏见从 97.3% 降至 42.4%。

AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

提出 AmbiK,一个专门用于厨房环境中歧义指令检测的纯文本数据集,包含 1000 对歧义/非歧义指令,按三种歧义类型(用户偏好/常识/安全)分类标注,并评估了多种基于 conformal prediction 的歧义检测方法,发现现有方法在该基准上表现很差。

ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting

ScaleBiO 提出基于罚函数重构的全一阶双层优化算法,首次将双层优化应用于 30B+ 参数 LLM 的数据源重加权,在 Qwen-2.5-32B 上实现 GSM8K +9%、MATH +5.8% 的提升。


📡 信号/通信 (1)

WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications

本文提出WirelessMathBench,一个包含587道题目的无线通信数学建模基准,从40篇前沿论文中提取,系统评估LLM在领域特定数学推导上的能力,揭示即使最强的DeepSeek-R1平均准确率也仅38.05%,完整公式推导仅7.83%。