跳转至

💬 LLM 其他

💬 ACL2025 · 442 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (3) · 🔬 ICLR2026 (55) · 💬 ACL2026 (61) · 🧪 ICML2026 (39) · 🤖 AAAI2026 (29) · 🧠 NeurIPS2025 (54)

🔥 高频主题: LLM ×174 · 推理 ×34 · 对齐/RLHF ×18 · Agent ×16 · 对抗鲁棒 ×14

Towards Robust ESG Analysis Against Greenwashing Risks: A3CG

提出 A3CG 数据集和方面-行动分析任务(从可持续性声明中提取方面及其行动类型:已实施/计划中/不确定),通过跨类别泛化设置评估 NLP 方法抵御漂绿风险的鲁棒性,发现监督学习(GRACE F1=47.51)优于 LLM(Claude 3.5 F1=42.03)但泛化效率更差。

A Large-Scale Real-World Evaluation of an LLM-Based Virtual Teaching Assistant

在韩国KAIST一门477人研究生AI编程课中部署基于RAG的LLM虚拟助教(VTA),通过三轮问卷(472人)和3869条交互日志的纵向分析,发现VTA显著降低了学生提问心理门槛,高频用户的满意度随使用持续提升,但信任度仍低于人类助教。

A Modular Dataset to Demonstrate LLM Abstraction Capability

提出ArrangementPuzzle拼图数据集并训练LLM激活值分类器,发现分类器以>80%准确率识别推理正确性,揭示LLM在中间-后层Transformer层编码了区分逻辑等价与语义等价的抽象推理概念。

A Semantic-Aware Layer-Freezing Approach to Computation-Efficient Fine-Tuning of Language Models

通过分析LLM推理过程中潜在表征的转移轨迹(transition traces)计算各层语义偏差,结合推导的缩放律公式估计各层对降低损失的贡献,从而确定"在哪些层微调",实现与PEFT正交的高效微调方法。

SSUF: A Semi-supervised Scalable Unified Framework for E-commerce Query Classification

提出电商查询分类统一框架 SSUF,通过三个可插拔模块——标签增强(BERT 语义编码标签)、知识增强(LLM 世界知识 + 后验点击 + 半监督标签生成)、结构增强(共现/语义/层级三图融合 GCN)——解决短查询信息不足和"马太效应"恶性循环问题,在 JD.COM 意图分类和品类分类任务上 Macro F1 分别达到 49.46 和 41.22(均超 SMGCN 等 SOTA),已上线服务带来显著商业价值。

A Survey of Automatic Prompt Optimization with Instruction-focused Heuristic-based Search Algorithm

系统综述 80+ 种基于启发式搜索算法的自动 Prompt 优化方法,提出五维分类体系(Where/What/What criteria/Which operators/Which algorithms)将碎片化研究统一到一个完整的分析框架下。

A Survey of LLM-based Agents in Medicine: How Far Are We from Baymax?

系统综述 LLM-based Agent 在医学中的四层架构(Profile/临床规划/医学推理/外部能力增强)、四大应用场景和评估框架,覆盖 2022-2024 年 60 篇研究,提出四种 Agent 运作范式并识别幻觉管理、多模态整合和伦理等关键挑战。

A Survey on Efficient Large Language Model Training: From Data-centric Perspectives

本文提出首个系统性的"数据高效 LLM 后训练"综述框架,将方法分为数据选择、数据质量增强、合成数据生成、数据蒸馏与压缩、自演化数据生态五大类,构建了完整的"数据价值飞轮"体系。

A Systematic Study of Compositional Syntactic Transformer Language Models

本文提出了一个统一框架,系统性地研究组合句法Transformer语言模型(SLM)的四个关键设计维度(树的形式、线性化策略、组合函数、子成分遮掩),涵盖了已有模型和13个新变体,并通过语言建模、句法泛化、摘要、对话和推理效率五个维度的全方位实验,得出了SLM设计的多条推荐建议。

A Training-free LLM-based Approach to General Chinese Character Error Correction

提出通用中文字符纠错任务C2EC(覆盖替换、缺失、冗余三种错误类型),通过扩展训练无关的CSC方法并结合Levenshtein距离和prompt-based LLM,使14B参数模型在不微调的条件下达到近50倍大模型的纠错性能。

AAD-LLM: Neural Attention-Driven Auditory Scene Understanding

提出意图感知听觉场景理解(II-ASU)范式和 AAD-LLM 原型系统——通过颅内脑电(iEEG)解码听者正在关注哪个说话人,将注意力状态注入听觉 LLM,使模型在多说话人场景中生成与听者感知对齐的回答。

Achieving Certification-by-Design Through Model-Driven Development

本文提出了一种"认证驱动设计"(Certification-by-Design)的模型驱动开发方法,通过在 NLP 系统的设计阶段就嵌入安全认证要求,使得最终系统能够自动满足相关行业标准和法规,减少事后认证的高昂成本。

Acquisition and Application of Novel Knowledge in Large Language Models

本文提出 PermAR 框架,通过排列式语言建模赋予自回归模型双向知识获取能力,同时构建了基于知识图谱生物进化模拟的新知识数据集 NovelHuman,发现知识在句子中的位置显著影响 LLM 的知识获取效果,PermAR 在新知识注入任务上比现有方法提升 3.3%-38%。

ACT: Knowledgeable Agents to Design and Perform Complex Tasks

本文提出 ACT 框架,让多个 LLM 智能体通过协作设计任务并相互获取结构化知识描述,使每个智能体不仅理解自身任务还了解他人的工作方式,从而在创意写作和工具使用等复杂任务上显著超越现有多智能体方法。

AfroBench: How Good are Large Language Models on African Languages?

提出AfroBench——覆盖64种非洲语言、15个NLP任务、22个数据集的综合评测基准,评估12个LLM发现闭源模型(GPT-4o)领先最佳开源模型(Gemma 2 27B)约12分,但所有LLM仍落后于微调基线,与英语的差距在开源模型上超过40分。

AgentDropout: Dynamic Agent Elimination for Token-Efficient and High-Performance LLM-Based Multi-Agent Collaboration

本文提出 AgentDropout,通过在多轮讨论中动态消除冗余 Agent(节点剪枝)和冗余通信边(边剪枝),在降低 21.6% prompt token 消耗的同时提升了 1.14 分的任务性能。

AgentDropout: Dynamic Agent Elimination for Token-Efficient and High-Performance LLM-Based Multi-Agent Collaboration

本文提出AgentDropout,通过在每轮通信中动态删除冗余Agent节点和通信边来优化多智能体系统的通信拓扑,相比SOTA方法平均减少21.6%的prompt token消耗和18.4%的completion token消耗,同时性能提升1.14分。

AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

本文提出AgentGym框架,包含14种交互环境、89类任务、标准化轨迹数据集和评测基准,并提出AgentEvol自我进化算法,让LLM Agent通过跨环境探索和学习实现从模仿到自主进化,性能可达到SOTA模型水平。

AI as a Novel Ethical Agent: Exploring Moral Judgments by Large Language Models

本文系统地探索了大语言模型作为新型伦理主体的道德判断能力,通过构建覆盖多种伦理框架的测试基准,揭示了LLM在道德推理中的偏好模式、一致性缺陷和文化偏差。

AIMSCheck: Leveraging LLMs for AI-Assisted Review of Modern Slavery Statements Across Jurisdictions

提出 AIMSCheck——一个端到端的企业现代奴隶制声明合规评估框架,将评估任务分解为句子级多标签分类、token 级 SHAP 解释和证据状态追踪三个层级,同时构建英国和加拿大两个新标注数据集,验证了在澳大利亚数据上微调的模型能有效跨司法管辖区泛化。

Algorithmic Fidelity of Large Language Models in Generating Synthetic German Public Opinions: A Case Study

基于德国纵向选举调查(GLES)的开放式问题数据,系统评估三个开源LLM(Llama2、Gemma、Mixtral)通过人口统计persona提示生成合成德国公众舆论的算法保真度,发现Llama2在亚群体代表性上表现最佳(JS距离0.28),但所有模型均表现出左倾政治偏见和群体内多样性降低的问题。

Alignment Drift in CEFR-prompted LLMs for Interactive Spanish Tutoring

通过 LLM 模拟师生对话实验,发现基于 CEFR 等级的 system prompting 虽然能初步约束 LLM 输出的西班牙语难度,但随着对话轮次增加,这种约束效果逐渐衰减——作者将此现象命名为"alignment drift",表明仅靠提示工程不足以支撑长期的自适应语言教学。

An Empirical Study of Iterative Refinements for Non-Autoregressive Translation

本文对非自回归翻译(NAT)中的迭代精修方法进行了系统性的实证研究,比较了不同精修策略(如CMLM、DisCo、SUNDAE等)在翻译质量与推理速度之间的权衡,揭示了迭代次数、掩码比例和训练策略对最终性能的关键影响,为NAT研究提供了全面的实践指导。

An Empirical Study of Large Language Models for Automated Review Generation

本文是一项系统性实证研究,评估了多种大语言模型在自动生成学术论文同行评审方面的能力,分析了生成评审的质量、一致性和实用性,并揭示了当前LLM在评审生成任务上的优势、不足和改进方向。

Analyzing and Mitigating Inconsistency in Discrete Speech Tokens for Neural Codec Language Models

本文揭示了神经音频编解码器(如EnCodec)中离散表示不一致性(DRI)现象——相同音频片段在有无上下文时会被编码为不同的token序列,并提出切片一致性和扰动一致性两种约束方法,将一致性提升21-36%,在VALL-E语音生成中实现3.72% WER降低和5.68%说话人相似度提升。

Analyzing the Rapid Generalization of SFT via the Perspective of Attention Head Activation Patterns

本文通过基于梯度的注意力头激活模式分析,揭示了SFT使LLM快速适应下游任务的三个关键机制:选择性激活任务特定的注意力头、复杂任务的激活模式是基础任务的线性组合、少量样本即可显著改变激活模式,并据此提出了利用基础任务数据促进复杂任务学习的实用策略。

APPL: A Prompt Programming Language for Harmonious Integration of Programs and Large Language Model Prompts

本文提出APPL——一种将LLM提示(prompt)无缝嵌入Python程序的提示编程语言,提供Python原生语法、异步并行运行时和可追溯调试模块,简化了复杂LLM工作流的开发与维护。

Revisiting Common Assumptions about Arabic Dialects in NLP

系统性检验了阿拉伯语方言 NLP 中四个被广泛接受但未被量化验证的假设,通过扩展 NADI 2024 数据集(11 个国家级方言、33 名标注者)发现这些假设过度简化了现实,56% 的方言句子跨区域有效、ADI 应建模为多标签分类任务。

Are Optimal Algorithms Still Optimal? Rethinking Sorting in LLM-Based Pairwise Ranking with Batching and Caching

本文重新审视了LLM成对排序提示(PRP)中排序算法的选择问题,提出以LLM推理调用次数(而非比较次数)为核心代价模型,发现经典最优算法Heapsort在引入批处理(batching)和缓存(caching)优化后不再最优,Quicksort在batch size≥2时推理次数减少44%,为PRP排序提供了新的最优选择。

Are Your LLMs Capable of Stable Reasoning?

提出 G-Pass@k 评估指标和 LiveMathBench 动态基准,从"性能上限"和"稳定性"两个维度全面评估LLM的推理能力,揭示了当前LLM在推理一致性上存在巨大提升空间。

Argument Mining in the Age of Large Language Models

本文系统性地研究了大语言模型时代下论辩挖掘(Argument Mining)任务的现状与挑战,通过全面的实验评估了LLM在论证组件识别、论证关系分类、论证质量评估等子任务上的表现,并提出了针对性的改进策略,揭示了LLM在结构化论辩理解方面的优势与不足。

ArithmAttack: Evaluating Robustness of LLMs to Noisy Context in Math Problem Solving

提出 ArithmAttack,通过在数学题上下文中随机插入标点符号(不改变任何单词)来测试 LLM 的鲁棒性,发现八个主流 LLM(包括 Llama3、Mistral、DeepSeek)在面对这种简单噪声时性能都显著下降。

ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution

提出 ASPERA 框架及 Asper-Bench 基准,用于评估 LLM 在自定义助手库约束下执行复杂多步动作规划(程序生成)的能力,揭示了相比自由代码生成,基于自定义 API 库的程序生成对 LLM 构成显著更大的挑战。

Assessing and Enhancing the Causal Reasoning Abilities of Language Models via Faithful Textual Interpretation

本文提出了一个基于忠实文本解释(Faithful Textual Interpretation, FTI)的框架,通过将因果推理任务中的变量关系忠实地转化为自然语言描述,评估并增强LLM的因果推理能力,在多个因果推理基准上取得了显著提升。

Assessing the Vulnerability of LLMs to Cognitive Biases in Scientific Research

本文系统性地评估了大语言模型在科学研究场景中对多种认知偏差的脆弱性,通过构建涵盖确认偏差、锚定效应、可得性偏差等的科学推理测试集,揭示了LLM在辅助科学研究时可能引入的系统性偏差风险,并提出了缓解策略。

ATRIE: Automating Legal Interpretation with LLMs: Retrieval, Generation, and Evaluation

提出 ATRIE 框架,模拟法学专家的教义法学研究流程,利用 LLM 自动从案例库中检索相关信息、生成法律概念解释并评估解释质量,消除对人类法律专家的依赖。

Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models

提出Atlas(Attention-based Targeted Layer Analysis and Scaling),通过分析注意力分数定位LLM中偏见集中的层,然后在这些层进行推理时注意力缩放干预来缓解偏见,在BBQ、CrowS-Pairs和WinoGender三个数据集、四个模型上有效降低偏见,且仅增加0.82%的困惑度。

Attribution Methods in NLP: Navigating a Fragmented Landscape

本文对NLP领域的归因方法(Attribution Methods)进行了全面的综述和系统性比较,针对该领域评估标准碎片化、方法间缺乏公平对比的问题,提出了统一的评估框架,并揭示了不同归因方法在不同任务和模型架构上的适用性规律。

AutoExp: Automatic Experiment Design and Execution by LLMs

本文提出AutoExp框架,利用LLM作为智能代理自动完成NLP实验的全流程——从研究问题分析、实验方案设计、代码生成执行到结果分析解读,在多个标准NLP研究场景中展示了LLM自动化科研实验的可行性与局限性。

AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs

提出AutoGUI自动标注管线——通过模拟交互比较UI状态变化+LLM推断元素功能+双LLM验证过滤,构建704K高质量UI功能标注数据集,标注正确率96.7%可比人类,显著提升VLM的UI grounding能力且展现数据扩展效应。

LLM-AT: Automatic Transmission for LLM Tiers Optimizing Cost and Accuracy

提出 LLM-AT 框架,通过 Starter(基于历史推理记录的准确率估计器选择初始 LLM 层级)→ Generator(生成回答)→ Judge(评估有效性,无效则自动升级到更高层级)的无训练迭代流程,在 MATH 上以 o1 单次推理 59.37% 的成本达到接近的准确率,在 MCQA 上以 o1 成本的 12% 实现近似性能。

Awes, Laws, and Flaws From Today's LLM Research

对引用 GPT-3/GPT-4 的 2,054 篇 LLM 研究论文(2020-2024)进行 14 维标注与统计分析,揭示领域存在系统性方法论退化——仅 25% 论文含统计检验、伦理声明比例持续下降、LLM 评估器急增 15% 但缺乏元评估——同时用数据验证了会议强制检查清单(如 ACL 的 limitations 要求)的确有效遏制退化趋势。

AXIS: Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents

提出 AXIS 框架,通过让 LLM Agent 优先调用 API 而非模拟人类 UI 操作来完成应用任务,在 Microsoft Word 实验中将任务完成时间缩短 65-70%,认知负荷降低 38-53%,同时保持 97-98% 的准确率。

OPTS: Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers

首次提出 prompt 设计策略的显式选择机制 OPTS,将 11 种策略(CoT、角色提示、情感提示等)建模为多臂老虎机的臂,用 Thompson 采样自动选择最合适的策略并集成到 EvoPrompt 优化器中,在 BIG-Bench Hard 的 23 个任务上用 GPT-4o mini 实现最高 50% 的性能提升。

Binary Classifier Optimization for Large Language Model Alignment

提出 BCO(Binary Classifier Optimization),从数学上证明二元交叉熵损失是 DPO 损失的上界,使 LLM 对齐仅需"点赞/踩"二元反馈而非成对偏好数据,并通过新颖的 reward shift 技术收紧上界,在配对偏好数据集上与 DPO 持平,在真实 Likert-5 标注数据上优于 DPO 和 KTO。

Behavioral Analysis of Information Salience in Large Language Models

提出一个可解释的分析框架,通过长度受控的摘要生成行为探针和 Questions Under Discussion(QUD)的可回答性追踪,系统推导并研究 LLM 内化的信息显著性(salience)概念,发现 LLM 具有层次化的一致显著性观念,但这一观念无法通过内省获取且与人类感知仅弱相关。

BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models

提出 BehaviorBox,利用性能感知的上下文嵌入(performance-aware contextual embeddings)自动发现两个语言模型之间细粒度的性能差异特征,如"条件语气中的'were'"或"情感句后的感叹号"等具体上下文模式。

Better Embeddings with Coupled Adam

从理论上证明 Adam 优化器的逐 token 二阶矩是导致 LLM 词嵌入各向异性(均值偏移)的根因,提出 Coupled Adam——对嵌入层的二阶矩取词汇平均——消除了各向异性问题,并在大规模实验中提升了嵌入质量和下游性能。

Beyond Demographics: Fine-tuning Large Language Models to Predict Individuals' Subjective Text Perceptions

本文系统研究了 LLM 能否通过社会人口学属性(年龄、性别、种族、教育)来预测个体标注者的主观文本感知,发现微调后的改进主要来自学习个体标注者行为而非社会人口学模式,质疑了用 LLM 模拟社会人口学差异的可行性。

Beyond Dialogue: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model

提出 Beyond Dialogue 框架,通过 Profile-Dialogue 对齐消除角色扮演训练中 profile 与对话之间的偏差,并引入句子级细粒度对齐任务,使模型更好地理解和表现角色特质。

Beyond In-Context Learning: Aligning Long-form Generation of LLMs via Task-Inherent Attribute Guidelines

从理论和实验两方面证明 ICL 示例无法充分传递任务的语言和格式属性,提出 LongGuide 算法从少量训练数据中自动学习 Metric Guideline (MG) 和 Output Constraint Guideline (OCG) 两类指导规则,在 7 个长文本生成任务上平均提升超过 5% ROUGE-L。

Beyond Output Matching: Bidirectional Alignment for Enhanced In-Context Learning

提出 Bidirectional Alignment (BiAlign),在传统知识蒸馏仅对齐输出分布的基础上,新增输入偏好对齐——通过 ranking loss 让学生模型学习教师模型对不同 ICL 示例的偏好排序,在语言理解、推理和代码 5 个任务上一致优于基线,GSM8K 提升 20%、LogiQA 提升 18%。

Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs

提出 CharacterBot,通过 4 个训练任务(视角重建预训练 + 选择题/生成式QA/风格迁移微调)和 CharLoRA 参数更新机制,从鲁迅 17 部杂文集中学习其语言风格和深层思想模式,在语言准确性和观点理解上显著超越各基线。

Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms

提出 STA(Steering Target Atoms),利用稀疏自编码器 (SAE) 将 LLM 的表示解耦为原子知识组件,通过激活幅度和频率筛选目标原子并操控,实现比提示工程更鲁棒、更精细的行为控制,在安全解毒和推理控制任务上效果优于现有 steering 方法。

BFS-Prover: Scalable Best-First Tree Search for LLM-Based Automatic Theorem Proving

本文挑战了"自动定理证明需要复杂搜索方法(如MCTS或价值函数)"的传统认知,提出BFS-Prover系统,通过三项关键创新(数据过滤的专家迭代、基于编译器反馈的DPO、长度归一化)将简单的最佳优先搜索(BFS)扩展为高性能的定理证明器,在MiniF2F测试集上达到72.95%的SOTA成绩。

Bias in Language Models: Beyond Trick Tests and Towards RUTEd Evaluation

通过对比标准偏见基准("trick tests")与基于真实使用场景的 RUTEd 评估,发现标准偏见基准与真实场景中的偏见表现无显著相关性,主张偏见评估应面向具体应用场景。

Biased LLMs Can Influence Political Decision-Making

通过两项大规模交互实验(N=299),本文首次实证证明带有党派偏见的LLM可以显著影响人类的政治观点和预算分配决策,且这种影响甚至跨越党派——民主党人会被保守偏见的LLM说服,共和党人也会被自由偏见的LLM影响。

BIG-Bench Extra Hard

为应对 BIG-Bench Hard 被前沿模型饱和的问题,Google DeepMind 推出 BIG-Bench Extra Hard (BBEH),用 23 个更难的任务替换 BBH 中的对应任务,最强通用模型仅达 9.8%(调和平均)、最强推理模型达 44.8%,揭示了 LLM 在通用推理上的巨大差距。

Big5-Chat: Shaping LLM Personalities Through Training on Human-Grounded Data

提出了 Big5-Chat 数据集(10万条对话),通过 SFT 和 DPO 训练方法将真实人类大五人格特质嵌入 LLM,效果显著优于基于提示的方法,且发现高尽责性/宜人性、低外向性/神经质的人格配置能提升模型推理能力。

Bilingual Zero-Shot Stance Detection

本文针对零样本立场检测任务的跨语言挑战,提出一种双语联合框架,通过共享语义空间的构建和跨语言知识迁移,实现在目标语言上未见过标注数据的情况下准确判断文本对特定话题的立场(支持/反对/中立)。

BIPro: Zero-shot Chinese Poem Generation via Block Inverse Prompting Constrained Generation Framework

提出 BIPro 框架,利用块生成模型(Block Generative Model)的中间文本生成能力,通过"修订(revise)"和"重写(rewrite)"两种块逆提示方法,在无需领域特定训练的情况下使弱模型 GLM-10B 在开放式传统中国诗歌生成任务中超越 GPT-4 和最佳专用系统。

Bitnet.cpp: Efficient Edge Inference for Ternary LLMs

本文提出Bitnet.cpp推理系统,通过两种创新的混合精度矩阵乘法核心——基于元素级查找表的TL和基于Int2+Scale的I2_S——实现了三值LLM(如BitNet b1.58)在边缘设备上的高效无损推理,相比全精度基线加速最高6.25倍,相比低比特基线加速最高2.32倍。

Boosting LLM's Molecular Structure Elucidation with Knowledge Enhanced Tree Search Reasoning

提出 K-MSE(Knowledge-enhanced Molecular Structure Elucidation)框架,构建分子子结构知识库扩展 LLM 的化学结构空间覆盖,设计专用分子-光谱打分器替代 LLM 自身评估,结合蒙特卡洛树搜索(MCTS)实现测试时推理缩放,在 MolPuzzle 基准上分别将 GPT-4o-mini 和 GPT-4o 的准确率从 3.7% 和 27.8% 提升至 27.3% 和 39.8%。

Brevity is the soul of sustainability: Characterizing LLM response lengths

系统研究 12 个 LLM 在 5 个数据集上的响应长度行为,发现 LLM 普遍生成远超必要的冗长回复(核心答案仅占 42%),并提出多种提示策略将响应长度缩短 25-88%、推理能耗降低 25-60%,同时保持甚至提升 ROUGE-L F1 质量。

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

本文构建了覆盖28种语言的多标签情感标注数据集BRIGHTER,重点覆盖非洲、亚洲、东欧和拉美的低资源语言,由母语使用者标注,并在单语和跨语言情感识别任务上建立了基准实验结果。

Can Large Language Models Understand Internet Buzzwords Through User-Generated Content

本文构建了首个中文网络流行语数据集 Cheer(1127 条),并提出 Ress 方法——通过模拟儿童语言习得的六维理解技能引导 LLM 从用户生成内容中产出更准确的流行语定义,在语义准确度上平均提升 2.51%。

C²LEVA: Toward Comprehensive and Contamination-Free Language Model Evaluation

提出 C²LEVA,一个包含22个任务的中英双语综合评测基准,通过全自动的测试数据更新和数据保护机制来系统性地防止数据污染,在15个开源和闭源模型上验证了其有效性。

Automated CAD Modeling Sequence Generation from Text Descriptions via Transformer-Based Large Language Models

本文提出了一个从文本描述自动生成 CAD 建模序列的框架,包含半自动标注流水线、双通道 Transformer 生成器 TCADGen 和 LLM 增强模块 CADLLM,最终将 CAD 命令准确率从 84% 提升到 96.6%,Chamfer Distance 从 120.99 降至 3.12。

Can Input Attributions Explain Inductive Reasoning in In-Context Learning?

设计受控的合成归纳推理任务评估 4 种输入归因方法解释 ICL 的能力,发现最简单的梯度范数常常最好,但所有方法在不同任务和模型规模上表现不一致且不稳定——ICL 的可解释性比预期更难。

Can Language Models Reason about Individualistic Human Values and Preferences?

提出"个体价值对齐"范式,构建 IndieValueCatalog 数据集(基于世界价值观调查 WVS 的 9.3 万真人数据),评估并训练语言模型根据个人价值表达陈述推理其在新情境下的价值判断,揭示前沿 LM 仅达 55%-65% 准确率且存在显著的跨群体不公平性。

Can Language Models Replace Programmers for Coding? RepoCod Says 'Not Yet'

构建了 RepoCod——一个包含980个来自11个大型 Python 项目的复杂代码生成任务的基准,具有真实的仓库级依赖和平均314个开发者测试用例,揭示了即使最先进的 LLM 也仅能达到不到30%的 Pass@1,远未能替代程序员完成真实编码任务。

Can Large Language Models Accurately Generate Answer Keys for Health-related Questions?

本文探索使用LLM自动生成医学问答的答案关键点(information nuggets),对比多种生成方法与人类专家标注的一致性,发现提供示例+从答案中提取nugget的方法效果最好,但LLM提取原子事实的能力仍然有限,其中Llama 3.3表现最佳。

Can Large Language Models Address Open-Target Stance Detection?

提出开放目标立场检测(OTSD)任务——目标在训练时未见且不作为输入提供,系统评估了 GPT、Gemini、LLaMA、Mistral 四个系列共 8 个 LLM 在目标生成和立场检测两阶段的表现,发现 LLM 整体优于现有 TSE 方法,但在目标未显式出现时表现明显下降。

Can LLMs Ground when they (Don't) Know: A Study on Direct and Loaded Political Questions

本文研究LLM在政治领域中处理直接知识问题和暗含错误预设的"loaded question"的能力,评估LLM是否能进行主动的对话基础(conversational grounding)来纠正用户的虚假信念,发现LLM在拒绝虚假预设和维护知识准确性方面存在重大缺陷。

Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs

本文提出半自动化文献分析管线,利用LLM从arXiv论文中自动抽取实验结果构建可持续更新的LLMEvalDB数据集(18127条记录/1737篇论文),并通过该数据集复现并扩展了关于CoT和ICL提示策略在不同任务类型上有效性的关键发现。

Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers

提出 LimitGen 基准,系统评估 LLM 识别科研论文局限性的能力,包含合成数据集(通过受控扰动创建)和人类标注数据集(ICLR 2025 评审),并通过 RAG 增强文献检索来提升 LLM 生成更具体和建设性反馈的能力。

Can LLMs Interpret and Leverage Structured Linguistic Representations? A Case Study with AMRs

本文系统评估了 LLM 利用抽象语义表示(AMR)进行下游任务的能力,发现 AMR 增强的 prompt 在长上下文任务(如对话摘要)中显著提升 Llama 3.1 零样本性能(余弦相似度从 66% 提升至 76%),但在短上下文任务中通常会降低性能。

Can LLMs Interpret and Leverage Structured Linguistic Representations? A Case Study with AMRs

系统评估LLM解释和利用抽象语义表示(AMR)的能力,发现AMR增强提示在长上下文任务(如对话摘要)中可显著提升性能(Llama3.1零样本余弦相似度从66%提升至76%),但在短上下文任务中通常会降低表现。

Can LLMs Reason About Program Semantics? A Comprehensive Evaluation of LLMs on Formal Specification Inference

提出 FormalBench 基准,通过形式化程序规格(formal specifications)推断任务系统评估LLM的程序语义推理能力,发现LLM在简单控制流上表现良好但在循环等复杂结构上挣扎,并设计了自修复提示(self-repair prompts)将成功率提升25%。

Can LLMs Simulate L2-English Dialogue? An Information-Theoretic Analysis of L1-Dependent Biases

本文评估LLM模拟非母语英语使用者(L2学习者)对话的能力,通过信息论和分布密度度量分析LLM生成的L2英语是否能复现人类L2学习者的母语依赖性偏差(如时态一致性错误、回避行为等),发现现代LLM确实能复现部分L1依赖模式。

Can LLMs Understand Unvoiced Speech? Exploring EMG-to-Text Conversion with LLMs

Can Third-parties Read Our Emotions?

本文通过人类被试实验,系统比较了第三方标注者(人类标注者和LLM)与第一方(作者自标注)在情感识别任务中的对齐程度,发现第三方标注与作者真实情感之间存在显著差距,LLM虽优于人类标注者,但仍表现不佳;人口统计学相似性可提升标注质量。

Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks

本文提出CR-Planner框架,通过微调的批判模型(critic model)引导推理和检索过程的规划,结合蒙特卡洛树搜索(MCTS)来训练critic,在竞赛编程、定理驱动的数学推理和复杂领域检索问题上显著优于基线方法。

Can we Retrieve Everything All at Once? ARM: An Alignment-Oriented LLM-based Retrieval Method

提出 ARM(Alignment-oriented Retrieval Method),通过在 LLM 解码过程中融合信息对齐(N-gram 约束解码)、结构对齐(MIP 求解器推理数据对象间关系)和自验证聚合三个模块,实现"一次检索所有"所需数据对象,在 Bird 和 OTT-QA 数据集上显著优于标准 RAG(最高 +5.2pt)和 agentic RAG/ReAct(最高 +19.3pt)。

Can You Share Your Story? Modeling Clients' Metacognition and Openness for LLM Therapist Evaluation

本文提出 MindVoyager 框架,通过构建具有动态元认知和开放性的客户模拟器来评估 LLM 心理治疗师的探索能力,解决了现有评估方法中客户模拟器过于"配合"的问题。

Catching Shortcuts: A Framework for Evaluating Shortcuts in Large Language Models

本文提出了一个系统化的框架来检测和评估大语言模型中的捷径学习(shortcut learning)现象,通过构造对比测试集和诊断指标,揭示LLM在多个NLP任务上依赖虚假相关而非真正理解语义的问题。

CER: Confidence Enhanced Reasoning in LLMs

提出置信度增强推理框架 CER——在 CoT 推理的每个中间步骤中量化关键 token(数学任务的数值/开放域的专有名词)的置信度,用步间置信度乘积评估整条推理链的可靠性,用置信度加权聚合替代简单多数投票,在数学和开放域任务上比 self-consistency 分别提升最高 7.4% 和 5.8%。

Enhancing Character-Level Understanding in LLMs through Token Internal Structure Learning

提出 TIPA(Token Internal Position Awareness)方法,通过在 tokenizer 词汇表上进行逆序字符预测训练,增强 LLM 对 token 内部字符结构和位置的感知能力,显著提升中文拼写纠错等字符级任务的表现。

ChartLens: Fine-Grained Visual Attribution in Charts

提出图表的事后细粒度视觉归因(Post-Hoc Fine-grained Visual Attribution)任务,设计 ChartLens 算法利用分割技术标记图表元素并通过 Set-of-Marks 提示多模态 LLM 进行精确归因,同时构建 ChartVA-Eval 基准,在三类图表上取得 26-66% 的 F1 提升。

Cheaper and Better Diffusion Language Model via Task-Specific Training

本文提出通过任务特定的训练策略优化扩散语言模型,在保持生成质量的同时大幅降低训练和推理成本,使扩散模型在文本生成任务上更具实用性。

ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events

提出 ChronoSense 基准,首次完整覆盖 Allen 区间代数全部 13 种时间关系并加入 3 类时间算术任务,通过对 7 个 LLM 在 0-shot / few-shot / CoT 下的系统评估,揭示模型时间理解能力普遍薄弱且严重依赖预训练记忆。

Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models

通过在 PCFG SET 数据集上识别 10 个组合性字符串编辑操作的电路(circuits),研究 Transformer 中功能相关电路之间的模块化关系,发现功能相似的电路具有显著的节点重叠和跨任务忠实度,且电路可以通过集合运算(并集)组合以表示超出单个电路能力的更复杂功能。

Circuit Stability Characterizes Language Model Generalization

本文提出"电路稳定性"作为评估语言模型泛化能力的新方法,通过数学形式化定义软电路和电路等价性,在算术推理、布尔表达式和体育理解三个案例研究中证明电路稳定性可以预测和刻画泛化行为。

Classifying Unreliable Narrators with Large Language Models

借鉴文学叙事学理论,定义三种不同层次的不可靠叙事者(intra-narrational / inter-narrational / inter-textual),构建专家标注数据集 TUNa,系统评估 LLM 在分类不可靠叙事者任务上的表现。

Clue Guided Re-Assessment to Improve Reasoning in Large Language Models

本文提出"线索引导的重新评估"(Clue Guided Re-Assessment)方法,通过在LLM推理过程中提取关键线索并引导模型对初始推理进行反思和修正,显著提升了多步骤推理任务的准确率。

CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision

提出 CodeTool,一种逐步代码生成框架,通过即时奖励(On-the-spot Reward)和潜在奖励(Latent Reward)两种过程奖励机制引导 LLM 选择最优的工具调用路径,在 StableToolBench 和 RestBench-TMDB 上显著超越现有方法。

CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models

借鉴法律领域间接证据认定标准,提出分层评估框架和 CogniBench 数据集,首次系统性地定义和评估 LLM 在认知性陈述(推理、评价、解释)中的忠实度问题,并训练 CogniDet 检测器实现事实与认知幻觉的同时检测。

CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models

利用认知科学中的眼动数据分析 LLM 各层行为,发现中间层与人类注视相关性最高且最适合语义干预,提出 CogSteer 框架——仅微调最优单层(约 3% 参数)即可达到或超过全层微调的效果,在 GLUE/毒性控制任务上有效。

Enough Coin Flips Can Make LLMs Act Bayesian

通过抛硬币这一受控随机过程,系统研究LLM是否在in-context learning中执行贝叶斯推理,发现LLM通常具有偏置先验,但随着上下文证据增加会以近似贝叶斯更新的方式修正后验估计,偏差主要源于校准不良的先验而非错误的更新机制。

Collaborative Performance Prediction for Large Language Models

本文提出协同性能预测框架CPP,利用多个LLM在多个任务上的历史性能数据及模型/任务的设计因素进行协同过滤式预测,突破了传统Scaling Law仅限单模型族预测的限制,能跨模型族准确预测LLM的下游性能。

Combining the Best of Both Worlds: A Method for Hybrid NMT and LLM Translation

提出基于源句特征的NMT与LLM混合翻译调度策略(PPLT与JDM),在保持翻译质量最优的同时将LLM调用比例降至约25-30%,大幅减少计算开销。

ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development

提出 ComfyUI-Copilot,一个基于 LLM 的层次化多 agent 框架,作为 ComfyUI 插件提供智能节点/模型推荐和一键式工作流构建,覆盖 7K 节点、62K 模型和 9K 工作流的知识库,在线服务 22 国的 19K 用户并处理了 85K+ 查询。

Commonsense Reasoning in Arab Culture

提出 ArabCulture 数据集(3482 个 MSA 问题,覆盖 13 个阿拉伯国家/4 个区域/54 个文化子领域),系统评估多个 LLM 的阿拉伯文化常识推理能力,发现即使 GPT-4o 也仅达 90%、大部分模型在 40-80% 之间,揭示了 LLM 在非西方文化理解上的显著不足。

Comparing Large Language Models in Extracting Subjective Information from Political News

本文系统比较了多种大语言模型在政治新闻中提取主观信息(情感倾向、立场、偏见、框架效应等)的能力,发现不同LLM在不同维度的主观信息提取上表现差异显著,并揭示了LLM自身的政治偏见对提取结果的影响。

Comparing Linguistic Acceptability Judgments of Autoregressive Language Models

本文比较了多种自回归语言模型(GPT系列、Llama系列等)在语言可接受性判断任务上的表现,通过系统实验揭示了模型规模、训练数据和架构对语法判断能力的影响,并探讨了模型的语法知识是否与人类语言直觉一致。

Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability

提出 Ordered CommonGen 基准,通过要求 LLM 按指定顺序生成包含所有概念的句子,同时评估组合泛化与指令遵循能力,在 36 个 LLM 上发现即使最强模型也仅能达到约 75% 的有序覆盖率。

Computation Mechanism Behind LLM Position Generalization

揭示 LLM 注意力 logit 学习了位置相关性和语义重要性的近似算术加法解耦(\(W_{i,j} \approx f(\mathbf{q}, i-j) + g(\mathbf{q}, \mathbf{k})\),线性相关 0.959),发现了使这种解耦成立的中间表示模式,并用此解释了 LLM 的位置排列容忍性和长度泛化能力。

ConceptCarve: Dynamic Realization of Evidence

提出 ConceptCarve 框架,利用 LLM 动态构建概念树来表征证据在不同社区中的具体实现方式,在处理推理鸿沟和领域敏感性方面显著优于传统检索系统。

How Humans and LLMs Organize Conceptual Knowledge: Exploring Subordinate Categories in Italian

通过构建首个意大利语下位类别心理语言学数据集(187 个基本类别),系统对比了人类和 LLM 在下位概念层级上的类别组织结构,发现两者的对齐度较低但在不同语义领域存在显著差异。

Concreteness Versus Abstractness: A Selectivity Analysis in LLMs

本文探究大语言模型中具体概念(如"苹果")和抽象概念(如"自由")的处理差异,通过选择性分析(selectivity analysis)发现LLM内部存在对具体性/抽象性具有选择性响应的神经元群体,揭示了LLM的语义表示与人类认知理论中的"具体性效应"(concreteness effect)之间的有趣对应。

Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement

Condor 提出了一个两阶段合成数据生成框架,通过 World Knowledge Tree 构建多样化标签驱动的问题生成、再用 Self-Reflection Refinement 迭代优化回答质量,仅用 20K 合成样本即可让基座模型在对话对齐任务上超越同等规模的对手,并在最大 72B 模型上验证了迭代自我改进的有效性。

Conformity in Large Language Models

将心理学中的 Asch 从众实验范式迁移到 LLM 上,系统研究了 LLM 的从众行为(conformity),发现所有模型都会受多数意见影响改变答案,且不确定性越高越容易从众,并提出 Devil's Advocate 和 Question Distillation 两种干预方法有效缓解从众效应。

ConSim: Measuring Concept-Based Explanations' Effectiveness with Automated Simulatability

ConSim 提出用 LLM 作为"模拟器"来自动评估概念解释(concept-based explanation)的有效性——通过检测 LLM 能否仅凭解释来预测被解释模型的输出,从而同时衡量概念空间的质量和解释的可理解性,实现了可扩展、一致且全面的解释方法评估。

ConsistencyChecker: Tree-based Evaluation of LLM Generalization Capabilities

ConsistencyChecker 提出基于自一致性树(self-consistency tree)的无参考 LLM 评估框架,通过构建可逆变换的树状多步路径(如多语言往返翻译、代码等价重写),量化模型在迭代变换中的语义/功能保持能力,动态生成 benchmark 从根源消除数据泄露,且与 WMT 2024 权威排名的相关性 r > 0.7,证明无需配对数据即可可靠评估 LLM 泛化能力。

Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models

提出基于原型对比困惑度(Contrastive Perplexity, CP)的框架,通过构造语义相似但毒性属性不同的正负样本对,在困惑度空间中进行对比学习来微调 LLM,实现显著的毒性降低(Mistral-7b 毒性从 33.1% 降至 4.3%)且几乎不影响下游任务性能。

Contrastive Prompting Enhances Sentence Embeddings in LLMs through Inference-Time Steering

提出对比提示(Contrastive Prompting, CP)方法,通过构造辅助提示编码句子的非核心信息,在推理时将正常提示与辅助提示的隐层激活值做"语义减法",过滤停用词等无关语义,使 LLM 句子嵌入更聚焦核心语义,即插即用地一致提升 PromptEOL/CoT/Knowledge 等多种提示方法在 STS 和分类任务上的表现。

Controlling Politeness in Multi-Turn Dialogues Through Pre-Phrase Augmentation

本文提出一种基于前缀短语增强(Pre-Phrase Augmentation)的方法,通过在对话生成过程中自动添加礼貌性调控前缀,实现多轮对话中礼貌程度的细粒度控制,同时保持对话内容的连贯性和信息完整性。

Conversational Quality Assessment: A Large-Scale Corpus and Comprehensive Study

本文构建了一个大规模多维度对话质量评估语料库,涵盖流畅性、一致性、信息量、参与度等多个质量维度,并基于此语料库对现有对话评估方法进行了全面的基准测试和分析。

Convert Language Model into a Value-based Strategic Planner

提出 straQ* 框架,将 LLM 的 next-token prediction 转化为 next-strategy prediction,用 Bellman 方程训练 LLM 作为策略级 Q 网络,在情感支持对话(ESC)中根据长期回报规划最优支持策略,以即插即用的轻量规划器引导对话 LLM 生成高质量回复。

Cool-Fusion: Fuse Large Language Models without Training

提出 Cool-Fusion,一种无需任何训练即可融合异构 LLM 的方法,通过在文本段粒度上让多个模型互相评估和重排序生成内容,在 GSM8K 上相对最强源模型提升 17.4% 准确率。

Cooperating and Competing Through Natural Language

本文研究 LLM 智能体在自然语言交互环境中的合作与竞争行为,通过设计多人博弈场景,分析语言策略(如说服、欺骗、协商)如何影响博弈结果,揭示了 LLM 在社会交互中的策略涌现能力和局限性。

COSMIC: Generalized Refusal Direction Identification in LLM Activations

提出 COSMIC 框架,利用余弦相似度在激活空间中自动选择拒绝引导方向,完全不依赖模型输出 token 或预定义拒绝模板,在标准设置下匹配已有方法性能,并首次在对抗性完全拒绝和弱对齐模型中成功提取有效的拒绝方向。

Cross-Modal Alignment for LLM-Enhanced Spoken Language Understanding

本文提出一种跨模态对齐框架,通过将语音表示与LLM的文本语义空间显式对齐,实现了LLM增强的口语理解(SLU),在意图识别和槽位填充任务上取得SOTA性能。

Cross-model Transferability among Large Language Models on the Platonic Representations of Concepts

提出 L-Cross Modulation 方法,通过简单线性变换将一个 LLM 的概念方向向量(steering vectors)迁移到另一个 LLM 中实现行为控制,发现三个关键结论:(1) 跨模型 SV 迁移有效;(2) 不同概念共享同一变换矩阵;(3) 小模型的 SV 可以控制大模型(弱到强迁移)。

Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

本文提出 Next Tokens Extraction (NTE) 范式,将 LLM 预训练数据中的下一个 token 预测转化为 BIO 标注的抽取任务,利用 C4 和 TuluV3 共 1.026 亿实例预训练 RoBERTa 标注器(Cuckoo),在少样本信息抽取任务上全面超越现有 IE 预训练模型。

Cultural Learning-Based Culture Adaptation of Language Models

提出 CLCA 框架,借鉴文化学习理论,通过模拟社会交互生成文化适配对话数据,结合意图理解进行多任务训练,在 World Values Survey 上显著提升多种 LLM 的文化价值观对齐。

Culture is Not Trivia: Sociocultural Theory for Cultural NLP

本文从社会文化语言学理论出发,指出当前文化 NLP 的方法论局限(粗粒度国家边界、静态基准、缺乏统一文化定义),论证文化是动态建构的过程而非静态知识,并提出"本地化"作为更可行的研究框架。

DeAL: Decoding-time Alignment for Large Language Models

DeAL 将 LLM 对齐问题重新形式化为解码时的启发式搜索问题,在推理阶段利用可定制的奖励函数(包括程序化约束和参数化 reward model)引导 token 选择,实现了灵活的多目标对齐且可与 RLHF 互补叠加。

When People are Floods: Analyzing Dehumanizing Metaphors in Immigration Discourse with Large Language Models

提出结合 LLM 词级隐喻检测与 SBERT 篇章级语义关联的计算框架,在 40 万条美国移民推文上揭示保守派更多使用去人化隐喻、但生物类隐喻对自由派的用户互动效应更强的复杂图景。

Déjà Vu? Decoding Repeated Reading from Eye Movements

首次提出从眼动模式自动判断读者是否曾经阅读过某文本的预测任务,通过基于特征的 XGBoost 和神经网络 RoBERTEye 模型,在单次试验中达到 ~70% 准确率、配对试验中达到 ~91% 准确率,并引入 E-Z Reader 认知模型生成的合成扫视路径作为辅助参考信号来增强预测。

DenseLoRA: Dense Low-Rank Adaptation of Large Language Models

本文提出DenseLoRA,通过引入跨层共享的Encoder-Decoder进行隐藏表示的压缩与重建,用一个稠密的小型低秩矩阵替代LoRA中两个冗余的低秩矩阵来进行适配,仅用0.01%可训练参数在LLaMA3-8B上达到83.8%准确率,超越了LoRA用0.70%参数达到的80.8%。

Deontological Keyword Bias: The Impact of Modal Expressions on Normative Judgments of Language Models

本文揭示LLM存在"义务论关键词偏见"(DKB)——当提示中包含"must"、"ought to"等模态义务表达时,模型会将超过90%的常识场景误判为义务,并提出基于少样本示例与推理提示的去偏策略。

Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

发现标准安全微调数据存在"拒绝位置偏差"——模型只学会在回答开头拒绝,中途发现不安全时无法中断。提出 DeRTa(Decoupled Refusal Training),通过"有害前缀+安全拒绝"的 MLE 训练和在每个位置模拟"从有害到安全"转换的 RTO 训练,让 LLM 能在回答的任何位置感知到不安全时拒绝,在六种攻击场景下超越 GPT-4 和 LLaMA3-Instruct。

Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models

本文将视觉对话中的指称表达检测建模为自回归 token 预测任务,通过对 Llama 3.1-8B 进行参数高效微调 (QLoRA),证明仅使用文本上下文即可有效检测视觉对话中的 mention span,在 AGOS 和 PhotoBook 数据集上 F1 达 0.90 和 0.94。

DICE-Bench: Evaluating the Tool-Use Capabilities of Large Language Models in Multi-Round, Multi-Party Dialogues

提出 DICE-Bench,一个面向多轮多方对话场景的函数调用评测基准,包含 1607 条高质量对话实例和量化信息分散度的 DICE-Score 指标,揭示当前 LLM 在复杂对话中工具调用能力的不足。

DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models

DiffLM 提出基于 VAE + 潜在扩散 + 冻结 LLM 解码器的可控数据合成框架,通过在潜在空间引入扩散过程来精确建模真实数据分布,并以 soft prompt 方式将分布信息注入 LLM,在表格、代码和工具三类结构化数据上合成质量超越真实数据 2%-7%。

Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence In Large Language Models

提出 Direct Confidence Alignment (DCA),利用 DPO 将 LLM 的文字表达置信度(verbalized confidence)与内部 token 概率置信度(internal confidence)对齐,提升模型置信度表达的一致性和透明度。

DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services

提出 DiSCo,一个端-云协同的 LLM 推理调度器,通过成本感知的请求分发和 token 级迁移机制,在成本约束下优化用户的首 token 延迟 (TTFT) 和 token 间延迟 (TBT)。

Disentangling Memory and Reasoning Ability in Large Language Models

提出将 LLM 的推理过程显式分解为"记忆回忆"和"逻辑推理"两个步骤——引入 <memory><reason> 两个可学习特殊 token 标记每步是知识回忆还是逻辑推理,用双 LLM 框架生成训练数据后 LoRA 微调,在 StrategyQA/CommonsenseQA/TruthfulQA 上提升性能并增强可解释性,8B 模型在 TruthfulQA 上超越 GPT-4o。

Diversity-oriented Data Augmentation with Large Language Models

提出 DoAug 框架,通过 SFT+DPO 微调 LLM 释义器并结合核心集选择与多样性采样,在保持语义一致性的同时显著提升增强数据集的多样性,在 12 个数据集上平均性能提升 10.52%,超出次优基线 3.76 个百分点。

Do Language Models Mirror Human Confidence? Exploring Psychological Insights to Address Overconfidence in LLMs

从心理学过度自信理论出发,揭示 LLM 的置信度估计对任务难度不敏感且会受角色扮演偏见影响(如专家角色过度自信、女性/亚裔角色低自信但实际准确率不变),提出 Answer-Free Confidence Estimation(AFCE)方法将信心估计与答案生成解耦,在高难度任务上将 GPT-4o 的 ECE 降低 58.4%。

Do Language Models Understand Honorific Systems in Javanese?

构建首个爪哇语敬语语料库 Unggah-Ungguh(4,024 句,覆盖四个敬语层级),通过分类/风格转换/跨语言翻译/对话生成四个任务系统评估 LLM 对爪哇语敬语系统的理解能力,发现即使最强闭源模型(GPT-4o)的零样本分类准确率也仅 53.5%,且普遍偏向特定敬语层级。

Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm

通过 N-back 范式系统分析多个 LLM 的认知任务表现,发现性能低下的主因是任务理解不足和任务集维持失败,而非工作记忆容量限制,最佳模型(Llama 3.1 70b)在课程学习辅助下甚至能完成 10-back 任务(准确率 84.75%)。

Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?

构建无快捷方式的评估数据集 SOCRATES,系统评估 41 个 LLM 在潜在多跳推理中的真实能力,发现模型在国家类桥接实体上可达 80% 组合率,但年份类仅约 5%。

Do LLMs Give Psychometrically Plausible Responses in Educational Assessments?

从心理测量学(经典测试理论 CTT 和项目反应理论 IRT)的角度评估 18 个指令微调 LLM 在教育评估中的"类人性",发现即使经过温度缩放校准,LLM 的响应分布与人类仍有本质差异——大模型过度自信,且无法预测人类被干扰项吸引的模式,零样本 LLM 不适合替代人类进行测试预试验。

Does Time Have Its Place? Temporal Heads Where Language Models Recall Time-specific Information

通过 EAP-IG 电路分析在 Llama-2/Qwen/Phi-3 中发现了专门处理时间条件知识的"时间头"(Temporal Heads),消融这些头只降低时间知识准确率(降 3-9%)而不影响时间无关知识和通用 QA,并展示了通过注入时间头激活值实现选择性时间知识编辑的可能性。

Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting

提出 Dolphin,一个轻量级(322M)的文档图像解析模型,采用"先分析后解析"(analyze-then-parse)两阶段范式——先进行页面级布局分析生成阅读顺序的元素序列,再利用异构锚点提示(heterogeneous anchor prompting)并行解析各元素内容,以仅 322M 参数在页面级和元素级解析任务上超越 7B+ 模型和商业系统。

Divide-Then-Aggregate: An Efficient Tool Learning Method via Parallel Tool Invocation

提出 DTA-Llama,将传统树搜索的串行工具调用路径转换为有向无环图(DAG)结构实现并行调用,设计 Process/Thread 推理框架使 LLM 在每轮中可分解任务并并行执行多个工具,在 StableToolBench 上使 Llama2-7B 达到 GPT-3.5 Parallel Function Calling 的水平。

Dynamic Knowledge Integration for Evidence-Driven Counter-Argument Generation with Large Language Models

提出动态网络知识检索框架来增强 LLM 的反驳论证生成质量,构建了长度适中的新评估数据集(150对),并用 LLM-as-a-Judge 评估方法取代传统参考度量,实验证明外部知识集成显著提升了生成质量的相关性、说服力和事实性。

Dynamic Parallel Tree Search for Efficient LLM Reasoning

提出DPTS(Dynamic Parallel Tree Search)框架,通过并行流水线(Parallelism Streamline)解决树搜索中路径频繁切换难以并行化的问题,通过搜索与转换机制(Search and Transition Mechanism)的早停和深度搜索策略减少对低置信度路径的冗余探索,在Qwen-2.5和Llama-3上实现2-4倍推理加速,同时保持或超越MCTS等现有算法的推理准确率。

ECLM: Entity Level Language Model for Spoken Language Understanding with Chain of Intent

提出 ECLM 框架,将 LLM 应用于多意图口语理解:通过将 token 级槽填充转化为实体识别任务解决序列对齐问题,引入"意图链"(Chain of Intent)实现逐步多意图识别,在 MixATIS 和 MixSNIPS 上大幅超越 SOTA 基线。

EdiText: Controllable Coarse-to-Fine Text Editing with Diffusion Language Models

提出 EdiText,一种基于嵌入扩散模型的可控文本编辑方法,结合 SDEdit 粗粒度编辑和 self-conditioning 细粒度编辑,实现从轻微修改到大幅改写的多尺度文本编辑控制。

Educators' Perceptions of Large Language Models as Tutors: Comparing Human and AI Tutors in a Blind Text-only Setting

本文通过盲测实验让有教学经验的人类标注者对比评估 LLM 辅导员与人类辅导员在小学数学应用题场景下的表现,在参与度、共情能力、支架式教学和简洁性四个维度上 LLM 均被评为优于人类辅导员,其中共情维度最突出——80% 的标注者更偏好 LLM。

Efficient Ensemble for Fine-tuning Language Models on Multiple Datasets

提出 EnsembleLoRA——一种面向多数据集微调的高效集成方法,利用一阶 Taylor 近似快速估计任务亲和度将数据集分组,为每组训练一个 adapter 后加权组合,在 10 个 SuperGLUE 任务上以仅 9% 额外计算代价将 QLoRA 的平均测试准确率提升 10%。

ELI-Why: Evaluating the Pedagogical Utility of Language Model Explanations

构建了包含 13.4K "Why" 问题的 ELI-Why 基准,通过两项人类研究发现 GPT-4 生成的面向不同教育水平的解释仅 50% 能匹配目标年级(人工策划达 79%),且对学习者信息需求的满足度比人类答案低 20%。

Enabling LLM Knowledge Analysis via Extensive Materialization

本文提出通过递归查询和结果整合将 LLM 的事实知识大规模物化为知识库的方法论,构建了包含 1.01 亿三元组、290 万实体的 GPTKB,首次全面分析了 GPT-4o-mini 知识的规模、准确性、偏见、时效性和一致性。

Enhancing Conversational Agents with Theory of Mind: Aligning Beliefs, Desires, and Intentions for Human-Like Interaction

本文探索了从开源 LLM(LLaMA)内部表征中提取心智理论(ToM)相关信息的可行性,并利用 BDI(信念-愿望-意图)框架操纵这些表征来生成更符合人类社交认知的对话回复,ToM 对齐后的模型在 3B 和 8B 上分别达到 67% 和 63% 的胜率。

Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding

Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues

提出将手势动作序列(3D 人体运动数据)通过 VQ-VAE 编码为离散 gesture token,再经特征对齐映射到语言模型输入空间,用于增强口语篇章建模;在三类篇章标记(话语连接词、量词、立场标记)的文本填充任务上验证了手势信息对口语篇章理解的互补价值。

Enhancing the Comprehensibility of Text Explanations via Unsupervised Concept Discovery

提出 ECO-Concept 框架,通过 slot attention 机制自动提取文本概念,并利用 LLM 作为人类代理评估概念的可理解性,用可理解性反馈损失指导模型微调,在无概念标注的情况下实现了兼具高分类精度和人类可理解性的概念解释。

Enhancing Transformation from Natural Language to Signal Temporal Logic Using LLMs with Diverse External Knowledge

提出 STL-DivEn 数据集(16K样本)和 KGST(知识引导的 STL 转换)框架,通过"生成-精炼"两阶段流程将自然语言转换为信号时序逻辑(STL),在 STL Formula Accuracy 上达到 0.5587,显著超过 GPT-4(0.4733)和 DeepSeek(0.4790)。

EnigmaToM: Improve LLMs' Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity States

提出 EnigmaToM 神经符号框架,通过构建实体状态的神经知识库(Enigma)来生成空间场景图用于信念追踪,并结合心理学启发的迭代遮蔽机制实现准确的视角切换,在 ToMi、HiToM 和 FANToM 三个基准上显著提升了 LLM 的心智理论推理能力,尤其在高阶推理场景中表现突出。

Entity Framing and Role Portrayal in the News

本文构建了一个包含 5 种语言、1378 篇新闻文章、5800+ 实体标注的多语言层次化实体框架语料库,提出含 22 种精细角色的叙事角色分类体系(主角 / 反派 / 无辜者三大框架下),并在微调多语言 Transformer 和 LLM 层次零样本学习上建立了基准。

Growing Through Experience: Scaling Episodic Grounding in Language Models

提出一个 weak-to-strong episodic grounding 框架,利用 MCTS 收集结构化经验数据,通过行为比率蒸馏将小模型的 episodic grounding 能力迁移到大模型,结合 DPO 优化实现从成功和失败经验中学习,在物理规划任务上超越 GPT-4o 等 SOTA 模型 3.45%。

Efficient and Accurate Prompt Optimization: the Benefit of Memory in Exemplar-Guided Reflection

提出 ERM 方法,通过指导性元提示生成带详细解题过程的 exemplar 来增强 feedback 质量,并引入 Feedback Memory 和 Exemplar Factory 两种长期记忆机制来高效存储和复用历史反馈与示例,在多个任务上以约一半的优化步数超越了 SOTA prompt 优化方法。

EscapeBench: Towards Advancing Creative Intelligence of Language Model Agents

本文推出 EscapeBench——基于密室逃脱游戏的 LLM Agent 创意智能评测基准(36 个场景、3 个难度),揭示当前模型在创造性工具使用和隐式目标推断上的严重不足,并提出 EscapeAgent(Foresight + Reflection)将提示依赖降低近 50%。

Evaluating Implicit Bias in Large Language Models by Attacking from a Psychometric Perspective

借鉴认知与社会心理学中的三种心理测量学原理(目标转移、认知协调、模仿学习),设计 Disguise/Deception/Teaching 三类攻击方法来诱发 LLM 的隐式偏见,构建了双语基准 BUMBLE(12.7K 条目覆盖 9 类偏见),揭示所有主流 LLM 均存在可被激发的系统性隐式偏见。

Evaluating Language Models as Synthetic Data Generators

提出 AgoraBench 基准,系统评估 6 个 LLM 在 3 个领域×3 种数据生成方式下的数据生成能力,通过训练 99 个学生模型发现:LLM 的数据生成能力与问题求解能力不直接相关,GPT-4o 在实例生成上最强而 Claude-3.5-Sonnet 在质量增强上最强。

ExpeTrans: LLMs Are Experiential Transfer Learners

ExpeTrans 提出了一个自主经验迁移框架,让 LLM 模仿人类认知智能,将已有源任务的解题经验自动迁移到新遇到的目标任务上,在 13 个数据集上有效提升了 LLM 性能,无需为每个新任务人工收集经验。

Explain-then-Process: Using Grammar Prompting to Enhance Grammatical Acceptability Judgments

提出 grammar prompting 的 explain-then-process 范式——先让 LLM 生成目标语法现象的解释,再将该解释作为上下文反馈给目标模型(LLM 或 SLM)辅助最小对语法判断。在英语 BLiMP、中文 SLING、俄语 RuBLiMP 三个跨语言基准上显著提升准确率,SLM 搭配 GP+CoT 将 LLM-SLM 平均差距从 13.0pp 缩小到 5.8pp(缩小 56%)。

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models

提出 ExpliCa 数据集(4800 条问题,含因果和时间连接词),首次整合因果和时间关系评估并配以众包人类评分,发现即使顶级模型准确率也难超 0.80,且模型系统性地将时间关系误判为因果关系。

Explicit and Implicit Data Augmentation for Social Event Detection

本文提出SED-Aug,一个结合显式(LLM文本增强)和隐式(特征空间扰动)的双重数据增强框架用于社交事件检测,在Twitter2012和Twitter2018上分别超越最优基线17.67%和15.57%的平均F1。

Exploring Explanations Improves the Robustness of In-Context Learning

提出 X²-ICL 框架,通过在上下文学习的示例中为所有可能的标签(而非仅观测标签)生成解释推理路径,系统性地探索隐变量推理空间,从而显著提升 ICL 在分布外(OOD)数据上的鲁棒性——在 5 个 LLM 上的 8 个 OOD 数据集中,X²-ICL 在 6-8 个上超越 ICL 和 X-ICL。

Exploring Graph Representations of Logical Forms for Language Modeling

提出 GFoLDS,一种在 DMRS 逻辑形式图表示上预训练的图 Transformer 语言模型,并提出"语言知识催化假说"(LKCH):逻辑形式语言模型几乎立刻学会基础语言现象,进而加速复杂模式学习,在相同数据量下大幅超越 BERT。

HiCUPID: Exploring the Potential of LLMs as Personalized Assistants

提出HiCUPID——首个全面满足个性化AI助手五大需求(用户信息遵循/隐含信息理解/多信息推理/长上下文建模/主动性回复)的开源基准,含1500用户×40个对话+QA对+Llama-3.2自动评估模型。

Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations

发布 TimeStress 数据集(521K 陈述,2003 条时间事实),评估 18 个 LLM 在时间上下文变化下的事实知识鲁棒性,发现最好的模型仅对 11% 的事实实现完美鲁棒,且存在人类不会犯的关键错误。

FEAT: A Preference Feedback Dataset through a Cost-Effective Auto-Generation and Labeling Framework for English AI Tutoring

提出 FEAT 框架,通过 LLM 自动生成和标注教师反馈偏好数据集用于英语辅导系统,发现仅混入 5-10% 人工标注数据就能超越 100% 人工数据的排序性能。

FoodTaxo: Generating Food Taxonomies with Large Language Models

提出 FoodTaxo,基于 Llama-3 的迭代自底向上分类法生成与补全算法,利用 CoT 提示 + RAG 检索 + NLI 验证三阶段流程,从已知叶节点概念出发逐步构建层次化 taxonomy;在五个基准数据集上与 TacoPrompt 等 SOTA 方法竞争,同时通过 reference-free 指标和消融实验揭示了非叶节点放置这一根本性瓶颈。

From Data to Knowledge: Evaluating How Efficiently Language Models Learn Facts

首次直接研究事实在预训练数据中出现频次与 LLM 能否回忆该事实之间的关系,提出两种样本效率指标,发现不同架构/规模的模型在高频事实上表现相似但在低频事实上差异显著——低频事实的学习能力是区分模型样本效率的关键。

From Neurons to Semantics: Evaluating Cross-Linguistic Alignment Capabilities of Large Language Models via Neurons Alignment

提出基于神经元激活状态的跨语言对齐评估框架 NeuronXA,利用 FFN 层神经元状态作为语言的内在表征来衡量多语言 LLM 的跨语言对齐能力,仅需 100 对平行句子即可实现与下游任务性能 0.9556 的皮尔逊相关。

From Selection to Generation: A Survey of LLM-based Active Learning

首篇系统综述 LLM 时代主动学习(Active Learning)的全景图谱,提出以 Querying(选择 + 生成)× Annotation(人工 + LLM + 混合)为两轴的分类体系,完整梳理了 LLM 如何在五步 AL 循环的每个环节中替代或增强传统方法,并拓展到 ICL、SFT、RLHF、知识蒸馏等四大 LLM 学习范式。

Game Development as Human-LLM Interaction

本文提出 Chat Game Engine(ChatGE),一个基于 LLM 的对话式游戏引擎,通过自然语言交互让用户无需编程知识即可开发定制游戏,并设计了数据合成流水线和三阶段渐进式训练策略将对话模型转化为游戏引擎。

GAMEBoT: Transparent Assessment of LLM Reasoning in Games

本文提出 GAMEBoT,一个基于游戏的 LLM 推理评测平台,通过将游戏中的复杂推理分解为预定义的模块化子问题,结合基于规则的 ground truth 验证,实现对 17 个主流 LLM 的透明化推理能力评估。

Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models

提出GAPO,一种基于梯度自适应缩放的多目标策略优化方法,利用多梯度下降算法(MGDA)结合梯度归一化,平衡LLM在帮助性和无害性等冲突目标间的权衡,并通过P-GAPO支持用户偏好驱动的Pareto前沿生成。

GAPO: Learning Preferential Prompt through Generative Adversarial Policy Optimization

提出 GAPO(Generative Adversarial Policy Optimization)框架,将 GAN 的对抗训练机制与 PPO 结合,使用 encoder-only 奖励模型替代传统 decoder-only 架构,通过"Preferential Prompt"(修改 prompt 中的约束而非 response)的新范式来增强 LLM 对细粒度约束的理解和遵循能力,在 IFEval 和产品描述生成任务上大幅超越 DPO/KTO/SimPO 等基线。

Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models

提出生成式心理词汇方法(GPLA),自动化构建面向LLM的五因素价值体系(社会责任、冒险性、规则遵循、自我效能、理性),在结构效度、安全预测和价值对齐上优于经典Schwartz人类价值体系。

Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models

提出 Genetic-Instruct 算法,借鉴进化算法的交叉和变异操作,从 512 个种子指令扩展生成 750 万+高质量编码指令,使用 Instructor-LLM/Coder-LLM/Judge-LLM 三角色流水线,训练后的模型在代码生成基准上超越 Self-Instruct 和 Evol-Instruct。

GenKnowSub: Improving Modularity and Reusability of LLMs through General Knowledge Subtraction

提出 GenKnowSub(通用知识减法),通过在 Wikipedia 语料上训练通用知识 LoRA 并从任务特定 LoRA 中减去它(\(LoRA_{res}^i = LoRA_{ts}^i - LoRA_g\)),得到更纯净的残差模块;结合 Arrow 路由算法动态选择最相关的模块,在 Phi-3 上零样本迁移平均准确率提升 1.6%,跨语言场景提升更大(德语+3.9%,法语+3.6%)。

Towards Geo-Culturally Grounded LLM Generations

本文系统评估了知识库增强(KB grounding)和搜索增强(search grounding)两种RAG策略对LLM文化感知能力的影响,发现搜索增强显著提升了命题性文化知识但加剧了刻板印象风险,且两种策略均未能改善人类评估中的文化流利度。

Geometric Signatures of Compositionality Across a Language Model's Lifetime

通过将数据集的组合性程度与语言模型表示的非线性内在维度(I_d)和线性有效维度(d)联系起来,揭示了一个形式-意义二分:非线性 I_d 编码有意义的组合语义复杂度,而线性 d 编码表面词形复杂度;该对应关系在训练过程中随语言能力涌现而建立。

GIFT-SW: Gaussian Noise Injected Fine-Tuning of Salient Weights for LLMs

提出 GIFT-SW,一种新型参数高效微调方法:仅更新权重矩阵中的"显著列"(salient columns),同时对非显著列注入高斯噪声,在相同计算预算下超越全参微调和 LoRA/DoRA 等现代 PEFT 方法。

Efficient Universal Goal Hijacking with Semantics-guided Prompt Organization

本文提出POUGH方法,通过高效的渐进式优化算法和两种语义引导的提示组织策略(采样策略+排序策略),实现了对LLM的高效通用目标劫持攻击,在四个开源LLM和十种恶意目标响应上平均攻击成功率达93.41%。

What Makes a Good Natural Language Prompt?

通过元分析150+篇prompting文献,提出包含6个维度21个属性的以属性为中心的prompt质量评估框架,并通过推理任务实验发现:单属性增强常常优于多属性组合,且在属性增强数据上微调可进一步提升模型推理能力。

GORP: Continual Gradient Low-Rank Projection Fine-Tuning for LLMs

GORP 提出将全秩参数和 LoRA 低秩参数的梯度统一投影到低秩梯度子空间中联合更新,利用 Adam 一阶矩隐式构建跨任务共享梯度空间来缓解灾难性遗忘,在 T5 和 LLaMA2 上持续学习性能接近多任务联合训练上界。

GradOT: Training-free Gradient-preserving Offsite-tuning for Large Language Models

从优化理论角度首次系统分析 Offsite-tuning 问题,提出梯度保持压缩分数(GCS),并基于此设计了 GradOT 方法,对 MHA 使用动态秩分解(DRD)、对 MLP 使用选择性通道剪枝(SCP),在免训练条件下同时实现性能保持和隐私保护。

Graph Counselor: Adaptive Graph Exploration via Multi-Agent Synergy to Enhance LLM Reasoning

Graph Counselor 提出了一个多智能体协作的 GraphRAG 推理框架,通过 Planning/Thought/Execution 三个 Agent 自适应提取图结构信息,并引入多视角自反思机制纠正推理偏差,在多个图推理任务上超越现有方法。

Can Graph Descriptive Order Affect Solving Graph Problems with LLMs?

首次系统研究了图描述顺序(BFS、DFS、PageRank、PPR)对LLM解决图推理问题的影响,发现有序描述显著优于随机描述,且不同任务偏好不同的排列策略。

HFT: Half Fine-Tuning for Large Language Models

本文提出Half Fine-Tuning (HFT),在每轮微调中随机冻结一半参数、只更新另一半,不改变模型架构的情况下显著缓解灾难性遗忘问题,同时在下游任务上取得与FFT相当甚至更好的性能,并减少约30%的训练时间。

Hierarchical Attention Generates Better Proofs

提出 Hierarchical Attention 正则化方法,通过建立五层语义层次结构来引导 LLM 的注意力机制,使其与数学推理的自然信息流对齐,在 miniF2F 和 ProofNet 上分别提升证明成功率 2.05% 和 1.69%,同时降低证明复杂度 23.81% 和 16.50%。

Hierarchical Retrieval with Evidence Curation for Open-Domain Financial QA

HiREC 提出分层检索与证据策展框架,先检索相关文档再从中选取段落,并通过过滤无关段落 + 自动生成补充查询来补全缺失信息,在包含 14.5 万篇 SEC 文档的 LOFin 基准上相比最优 RAG 基线提升 13%+ 答案准确率。

How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs

构建 Expert-in-the-Loop 探测管线,通过真值判断/词语补全/开放式因果提问三组认知语言学实验(16篇叙事×30种prompt变体×7个LLM),系统评估LLM对叙事中语法体貌(perfective vs imperfective)的理解能力,发现LLM在非原型体貌条件下准确率仅18%(人类71%),且缺乏远距因果推理能力。

How Numerical Precision Affects Arithmetical Reasoning Capabilities of LLMs

从电路复杂度理论出发,严格证明低精度(如 int4/int8)Transformer 在迭代加法和整数乘法上需要超多项式规模才能求解,而标准精度(float32)Transformer 仅需常数深度+多项式宽度即可高效求解三类算术任务,并在 LLaMA-3.1-8B 上实验验证了精度对算术能力的关键影响。

How to Enable Effective Cooperation Between Humans and NLP Models: A Survey of Principles, Formalizations, and Beyond

首次系统综述人-模型合作(Human-Model Cooperation)的原则、形式化分类和开放挑战,提出基于"谁做最终决策"的三类合作范式分类法(序列/分诊/联合合作),为每种范式梳理角色框架和方法路线。

HumT DumT: Measuring and Controlling Human-like Language in LLMs

提出基于 GPT-2 对数概率比的文本人类化语气度量 HumT 及其社会感知泛化版 SocioT,在 40 万+偏好样本上发现用户普遍偏好更低人类化的 LLM 输出且人类化语气与社交亲近(r=0.87)、低地位(r=-0.80)、女性化(r=0.47)强相关,进而通过仅 500 对偏好数据的 DPO 微调(DumT)有效降低人类化程度而不损模型性能。

HyGenar: An LLM-Driven Hybrid Genetic Algorithm for Few-Shot Grammar Generation

构建 540 个挑战的文法生成数据集,设计 6 种评测指标,提出基于 LLM 驱动的混合遗传算法 HyGenar,显著提升 LLM 从少量示例生成 BNF 文法的能力。

Enhancing Hyperbole and Metaphor Detection with Their Bidirectional Dynamic Interaction and Emotion Knowledge

提出 EmoBi 框架,通过情感分析→情感引导的域映射→双向动态交互三阶段 prompting 流程,利用 LLM 挖掘夸张和隐喻背后的情感线索及二者的互促关系,在四个数据集上大幅超越 SoTA(TroFi 上夸张检测 F1 提升 28.1%,HYPO-L 上隐喻检测 F1 提升 23.1%)。

Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction

提出 RULEARN benchmark(300 个手工交互式文字环境谜题,涵盖三类场景)和 IDEA 框架(溯因假设生成→演绎计划验证→归纳反馈修正的迭代循环),在 GPT-4o 上达到 50.33% 成功率(+7% vs ReAct baseline),但仍远低于人类 63.33%,细粒度人类评估揭示了 LLM 在假设修正阶段的根本瓶颈。

If Eleanor Rigby Had Met ChatGPT: A Study on Loneliness in a Post-LLM World

对 79,951 条 ChatGPT 对话(WildChat 数据集)进行定性和定量分析,研究孤独用户如何使用 LLM 服务,发现孤独用户对话更长(12 vs 5 轮)且 37% 在寻求建议/倾听,但 ChatGPT 在自杀意念等严重场景中回应不当,且孤独对话的有毒内容高达 55%(主语料 20%),其中女性被攻击概率是男性的 22 倍。

The Impossibility of Fair LLMs

系统分析了四种主流技术公平性框架(FTU、多方公平、群体公平/公平表示、公平组合)在通用LLM场景下均存在固有不可克服挑战,论证了严格意义上的公平LLM在原理层面不可行,并提出了三条务实的前进方向。

Improve Language Model and Brain Alignment via Associative Memory

通过模拟联想记忆对文本进行数据增强,以及对 LLM 进行联想记忆指令微调,本文证明两种方式均能显著提升语言模型与人脑在语音理解任务中的对齐程度,尤其在内侧颞叶等联想记忆相关脑区。

Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization

本文发现LLM中的"检索头"(retrieval heads)与长文本问答的上下文忠实度高度相关,据此提出Rhio框架:通过遮蔽检索头生成不忠实样本、引入控制令牌进行忠实度感知调优、再利用对比解码增强忠实度,在7B和13B模型上均超越GPT-4o。

Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes

本文提出使用线性分类探针(classifying probes)结合对比对(contrast pairs)来提取LLM的隐含偏好判断,在LLM-as-Judge任务中持续优于传统的生成式评估方法,且监督探针甚至超越微调评估器,同时保持类似的计算成本。

InductionBench: LLMs Fail in the Simplest Complexity Class

本文提出 InductionBench,一个基于子正则函数层次(subregular hierarchy)的归纳推理基准,揭示即使是最强的 LLM(如 o3-mini)也难以掌握最简单复杂度类的归纳推理任务,暴露了当前 LLM 在从观测数据中归纳规则方面的根本缺陷。

InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Model

提出 InfiniSST,将无界流式语音同声传译建模为 LLM 多轮对话任务,结合鲁棒片段训练数据构造、多延迟增强策略和 Λ-shaped KV cache 管理,在 MuST-C En-Es/De/Zh 三个方向上将计算感知延迟降低 0.5-1 秒而不损失翻译质量。

Information Locality as an Inductive Bias for Neural Language Models

本文提出 \(m\)-local entropy 这一信息论度量来量化语言的局部不确定性,通过在扰动自然语言和概率有限状态自动机(PFSA)定义的语言上的实验,证明了具有更高 \(m\)-local entropy 的语言对 Transformer 和 LSTM 语言模型来说更难学习,揭示了神经语言模型像人类一样对语言的局部统计结构高度敏感。

INJONGO: A Multicultural Intent Detection and Slot-filling Dataset for 16 African Languages

本文引入 Injongo——一个覆盖 16 种非洲语言的多文化意图检测与槽位填充基准数据集,由母语者在银行、旅行、家庭、餐饮等领域原创生成,实验揭示 LLM 在非洲语言上的槽位填充表现极差(GPT-4o 仅 26 F1),意图检测也明显落后于微调基线。

Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs

提出 ID-SPAM,通过在输入 token 嵌入上施加可学习自注意力层并经瓶颈 MLP 生成输入依赖的软提示,仅在单层 Transformer 输入端拼接即可超越多种 Soft Prompt 基线,且具备优秀的零样本跨任务/跨领域迁移能力。

INTERACT: Enabling Interactive, Question-Driven Learning in Large Language Models

提出INTERACT框架,通过模拟师生对话让"学生"LLM通过主动提问向"教师"LLM学习新概念,在1,347个未见过的上下文上实验证明交互式学习最高可提升25%的理解准确率,且仅需5轮对话即可匹配静态学习基线。

Interactive and Expressive Code-Augmented Planning with Large Language Models

本文提出REPL-Plan,通过让LLM与扩展的REPL(Read-Eval-Print Loop)交互,实现既能充分利用代码表达力又能动态纠错和处理模糊子问题的自顶向下规划方法,在ALFWorld、WebShop和真实网页导航任务中取得强劲表现。

Internal and External Impacts of Natural Language Processing Papers

从内部(学术引用)和外部(专利、媒体、政策文档)两个维度系统分析 1979-2024 年 ACL/EMNLP/NAACL 论文的影响力,发现语言建模主题影响力最广,伦理公平主题在政策文档中影响力突出但学术引用较低,且多维外部影响力可高效预测内部高被引论文。

Investigating Context-Faithfulness in Large Language Models: The Roles of Memory Strength and Evidence Style

通过测量 LLM 对同一问题不同释义的回答一致性来量化"记忆强度",发现 LLM 对外部证据的接受度与记忆强度高度负相关,且改写式证据比重复或详细证据更有效。

IPO: Your Language Model is Secretly a Preference Classifier

提出隐式偏好优化(IPO),利用生成式LLM自身作为偏好分类器(通过"Yes/No"token的概率),替代外部奖励模型来获取偏好信号,从而实现低成本的自对齐训练。

Is It JUST Semantics? A Case Study of Discourse Particle Understanding in LLMs

以英语多义语气词 "just" 为案例,通过专家构造数据集和电影字幕标注数据,用两种元语言实验(few-shot 语义标注和成对比较)系统评估 LLM 对语气词细粒度语义的理解能力,发现模型能区分大类(形容词、时间义)但无法充分捕捉语气词的微妙语义差异(排他、轻描淡写、无因、强调义)。

JoPA: Explaining Large Language Model's Generation via Joint Prompt Attribution

提出 JoPA(Joint Prompt Attribution)框架,将 LLM 生成任务的 prompt 归因建模为组合优化问题,用概率搜索算法高效寻找对输出有因果影响的输入 token 组合,解决了现有方法忽略 token 间协同效应的问题。

Just a Scratch: Enhancing LLM Capabilities for Self-Harm Detection through Intent Refinement

提出 SHINES 数据集和 CESM-100 表情符号矩阵,通过区分社交媒体帖子中自伤表达的"随意提及"和"严重意图",结合表情符号语境解读和多任务微调,将 LLM 自伤检测 F1 从 0.74(zero-shot)提升至 0.88(多任务+CESM-100),同时生成可解释的预测理由。

KazMMLU: Evaluating Language Models on Kazakh, Russian, and Regional Knowledge of Kazakhstan

提出 KazMMLU,首个专为哈萨克斯坦设计的 MMLU 风格双语(哈萨克语+俄语)评估基准,包含 23,000 道来自真实教育材料的多选题,覆盖 STEM、人文、社会科学等多学科多教育层次,评估了 27 个多语言 LLM,揭示了当前模型在哈萨克语上的显著不足。

Knockout LLM Assessment: Using Large Language Models for Evaluations through Iterative Pairwise Comparisons

提出 Knockout Assessment——基于淘汰赛制的迭代成对比较 LLM-as-a-Judge 方法,通过多轮锦标赛让回答之间反复对比以建立全局排名视角,在科学考试评分和机器翻译评估上比个体评估方法平均提升 0.07 Pearson 相关系数。

Analyzing LLMs' Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations

通过探测 LLM 内部表示,揭示知识边界认知在多语言间呈线性结构,提出 training-free 对齐方法实现跨语言知识边界感知迁移,并发现"弱到强泛化"现象。

Knowledge Boundary of Large Language Models: A Survey

提出LLM知识边界的形式化定义框架——三层嵌套边界(Outward⊂Parametric⊂Universal)和四类知识分类(PAK/PSK/MSU/MAU),围绕"为何/如何识别/如何缓解"三个问题系统综述相关研究。

Language-Codec: Bridging Discrete Codec Representations and Speech Language Models

提出 Language-Codec,通过掩码通道残差向量量化(MCRVQ)机制和改进的傅里叶变换解码器,弥合离散编解码器表示与下游语音语言模型之间的鸿沟,仅用4个码本通道即实现高质量音频重建。

Language Model Fine-Tuning on Scaled Survey Data for Predicting Distributions of Public Opinions

提出直接在大规模公众意见调查数据(SubPOP,含 3362 道题目、70K 子群体-响应对)上微调 LLM,使其预测不同人口统计子群体的意见分布,相比 prompt engineering 基线将 Wasserstein 距离降低 32-46%,且泛化到未见过的调查和子群体。

Language Models Grow Less Humanlike beyond Phase Transition

本文发现语言模型在预训练过程中与人类阅读行为的对齐(PPP)经历先升后降的拐点现象,通过关联和因果实验证明此拐点由预训练中的相变(specialized attention heads 的快速涌现)导致,且相变并非直接产生有害的注意力模式,而是改变了模型后续的学习动态使其持续偏离人类。

Large Language Models are Good Relational Learners

提出 Rel-LLM 框架,利用 GNN 编码器从关系数据库中提取结构化子图表示,将其作为软提示注入冻结的 LLM,在 RelBench 基准上实现了关系深度学习(RDL)任务的 SOTA 性能,并支持零样本预测。

Large Language Models for Predictive Analysis: How Far Are They?

提出 PredictiQ 基准——首个系统评估 LLM 预测分析能力的综合框架,整合 8 个领域 44 个真实数据集和 1130 条专家设计的查询,从文本分析、代码生成、文本-代码对齐三个维度七个方面评估 12 个主流 LLM,揭示即使最强的 GPT4O3Mini 在深度分析(2.91/4)和数据预处理(51%缺失)上仍存在显著不足。

Large Language Models in Bioinformatics: A Survey

本文系统综述了大语言模型在生物信息学四大领域(DNA/基因组、RNA、蛋白质、单细胞分析)的应用进展,涵盖 30+ 代表性模型的架构、任务和数据集,并讨论了数据稀缺、计算复杂度、跨组学整合等核心挑战和未来方向。

LazyReview: A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews

构建了首个包含 500 条专家标注 + 1276 条银标注的 NLP 同行评审"懒惰思维"细粒度分类数据集 LazyReview,通过三轮迭代标注协议和正例增强将标注一致性翻倍,并证明在该数据集上指令微调 LLM 可将检测性能提升 10-20 个百分点,最终的控制实验表明懒惰思维反馈能显著改善评审质量。

Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery

本文提出DISCOG(DISCOvery Graph)系统,将知识图谱与LLM驱动推理相结合用于法律电子取证(eDiscovery)中的文档检索和分类,在平衡和不平衡数据集上均超越强基线,实际部署中将诉讼文档审查成本降低约98%。

Length Controlled Generation for Black-box LLMs

提出基于 Metropolis-Hastings 算法的迭代采样框架,结合重要性采样加速策略,在不修改模型参数的前提下实现黑盒 LLM 的精确长度控制,在 Llama3.1 上达到100%的长度控制成功率,最多仅需 5 次迭代,且不损害生成质量。

LESA: Learnable LLM Layer Scaling-Up

提出 LESA,一种基于 SVD 发现层间潜在模式并通过神经网络预测中间层参数的可学习深度扩展方法,相比启发式层复制方法获得更好的初始化和更快的收敛速度,训练成本降低一半以上。

Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility

本文利用人类在隐含因果动词(implicit causality verbs)上"代词产出"与"代词解读"之间的已知不对称现象作为测试平台,系统评估了指令微调LLM是否能复现这种人类认知不对称性,发现模型大小和元语言提示的选择是决定性因素。

Leveraging In-Context Learning for Political Bias Testing of LLMs

本文提出"问卷建模"(Questionnaire Modeling, QM)这一新探测任务,利用人类调查数据作为上下文示例来改善LLM政治偏见检测的稳定性,发现指令微调可以改变偏见方向,且更大的模型能更有效地利用上下文示例并展现更小的偏见分数。

Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora

提出利用LLM的语境理解能力来检测和量化有语法性别语言(如西班牙语、巴伦西亚语)训练语料中的性别表征偏差(representation bias),发现严重的男性主导不平衡,并验证了通过反向偏差数据进行持续预训练可有效缓解模型输出偏差。

ReCall: Library-Like Behavior In Language Models is Enhanced by Self-Referencing Causal Cycles

提出"自引用因果循环"(ReCall)概念,揭示 LLM 预训练数据中自然存在的重复 token 序列如何形成循环引用,使自回归模型能够绕过单向因果限制、克服逆向诅咒(reversal curse),并据此设计了两步 ReCall-aware prompting 策略。

On the Limit of Language Models as Planning Formalizers

系统评估"LLM-as-Formalizer"方法论的极限——首次要求 LLM 生成完整 PDDL 表示(而非部分),从不同自然度的文本描述中形式化规划领域,发现最强模型(GPT-4o/o3-mini/DeepSeek-R1)可有效形式化超越直接规划,但描述越自然性能越低,弱模型卡在语法错误而强模型面临语义错误。

Literature Meets Data: A Synergistic Approach to Hypothesis Generation

提出首个将文献驱动和数据驱动假设生成进行协同整合的方法,通过 Refinement 和 Union 两种策略让 LLM 从论文摘要和观测数据中联合生成更具泛化性的假设,在五个社会科学分类任务的 OOD 数据集上比纯数据驱动方法平均提升 3.37%,并首次通过人类实验证明 LLM 生成的假设能显著改善人类决策准确率(+7.44% / +14.19%)。

LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs

提出 LlamaDuo 自动化 LLMOps 流水线,通过服务 LLM 生成合成数据迭代微调小模型,使 2B-8B 本地模型在特定下游任务上逼近甚至匹敌 GPT-4o 等大模型性能,且长期部署成本显著降低。

LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding

系统性地识别并量化了 batch-trained LLM 适配流式场景的三种不匹配(输入注意力 / 输出注意力 / 位置 ID),发现仅输入注意力不匹配才是关键瓶颈(+2.20 BLEU),据此提出组位置编码(Group Position Encoding)——源/目标各自维护连续位置 ID 即可,无需昂贵的 KV cache 重编码,在机器翻译和 ASR 两种跨模态任务上均超越专用流式架构。

LLM Braces: Straightening Out LLM Predictions with Relevant Sub-Updates

LLMBraces 通过计算 FFN 层中各 value 向量与输入的相关性得分,动态调节子更新(sub-update)的贡献权重,用极少参数(比 LoRA 少 75%)同时提升模型预测精度和实现可控文本生成。

LLM as a Broken Telephone: Iterative Generation Distorts Information

以翻译为测试床模拟 LLM 的"传话游戏",发现信息在 100 次迭代翻译后严重失真——一辆卡车司机的罚款新闻经 100 轮英泰互译后变成"小汽车获得赔偿后发生爆炸",而中间语言的选择、链条复杂度和解码温度是失真速度的关键调控因素。

LLM×MapReduce: Simplified Long-Sequence Processing using Large Language Models

提出 LLM×MapReduce,一个无需训练的分治框架,通过结构化信息协议和上下文内置信度校准机制解决长文本分块后的跨块依赖和跨块冲突问题,使 8K 上下文的 LLM 能有效处理超过 100K 甚至 1280K tokens 的长文本,性能超越 GPT-4 等长上下文模型。

LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs?

提出 TSG Bench 基准,系统评估 11 个 LLM 在场景图理解和生成任务上的能力,揭示 LLM 在场景图生成(尤其是多动作分解)方面存在显著瓶颈。

Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options

提出"反思判断力"(Reflective Judgment)概念来衡量 LLM 在所有选项都错误的选择题中拒绝选择的能力,发现对齐后的模型(GPT-4o 等)往往盲目服从指令选择错误选项,而基座模型反而表现更好,且该能力随模型规模增大而涌现。

LLM-Powered Test Case Generation for Detecting Bugs in Plausible Programs

本文提出TrickCatcher,利用LLM生成程序变体和测试输入生成器,结合diversity-driven差分测试来检测通过现有测试套件但仍含隐蔽bug的"plausible programs",在Recall/Precision/F1上分别达到SOTA的1.80×/2.65×/1.66×。

LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

构建包含20个NLP数据集(7万+实例)的 Judge-Bench 基准,系统评估11个LLM作为评判者与人类标注的一致性,发现模型在不同任务/属性/标注者专业水平上表现差异巨大,建议部署前必须针对特定任务做人类标注验证。

LLMs can Perform Multi-Dimensional Analytic Writing Assessments

利用 L2 研究生文献综述语料库,系统评估了 LLM 在多维分析写作评估(评分+评论)上的能力,并提出可解释的反馈质量评估框架 ProEval。

LLMs Can Be Easily Confused by Instructional Distractions

本文发现 LLM 在处理"输入本身也像指令"的场景时会被严重误导(指令干扰),提出 DIM-Bench 基准系统评估该问题,实验证明包括 GPT-4o 在内的主流 LLM 均显著受影响,且现有提示策略无法根本解决。

LLMs Know Their Vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts

提出 ActorBreaker 多轮攻击方法,基于 Latour 的行动者网络理论,利用与有害内容语义相关的良性 prompt(自然分布偏移)绕过安全机制,在 HarmBench 上达到 SOTA 攻击成功率,揭示了预训练数据与安全训练数据之间的语义覆盖差距。

LLMs + Persona-Plug = Personalized LLMs

提出 PPlug 模型,通过轻量级插件式用户嵌入器将用户历史行为压缩为单一个性化嵌入,以 plug-and-play 方式引导 LLM 生成个性化输出,在 LaMP 基准上显著超越检索式和微调式基线,最高提升 35.8%。

Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More

本文证明了 path-star 图搜索任务在 decoder-only LM 上的失败并非 next-token prediction 范式的根本缺陷,而是由"监督污染"(supervision adulteration)导致的——过量的 teacher-forcing 监督信号诱导模型学到 Clever Hans Cheat 捷径,阻碍了子任务分解;通过 token masking、ranking-into-the-future、scratchpad、树形拓扑等六种正交方法均可使任务可学。

Locate-and-Focus: Enhancing Terminology Translation in Speech Language Models

提出Locate-and-Focus方法用于语音LLM的术语翻译:先用滑动窗口检索定位语音中包含术语的片段,再通过音频替换和Tag Cue引导模型聚焦翻译知识,在英中/英德方向上术语翻译成功率大幅提升。

Logical Forms Complement Probability in Understanding Language Model (and Human) Performance

系统研究 LLM 在命题逻辑和模态逻辑推理上的能力,发现除了输入概率(perplexity)外,逻辑形式(modality、argument form)是预测 LLM 表现的重要互补因素,并通过人类行为数据对比揭示人机推理的异同。

LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

提出 LongDPO,通过 MCTS 收集步级偏好对、全局记忆池维护事实一致性、critique 增强低质量候选,再用步级 DPO 进行细粒度优化,在 LongBench-Write 上显著提升长文本生成质量,同时保持通用能力。

Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

本文系统研究了大语言模型在机器翻译中产生翻译腔(translationese)的现象,揭示了监督微调(SFT)数据中的翻译腔偏差是导致LLM翻译不自然的根本原因,并提出了通过润色训练参考译文和过滤不自然训练实例来缓解翻译腔的方法。

LR²Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction Problems

提出 LR²Bench 基准,通过六类约束满足问题(CSP)系统评测 LLM 的长链反思推理能力,发现即使最先进的推理模型如 DeepSeek-R1 和 o1-preview 的平均 Exact Match 也仅为 20.0% 和 23.6%,揭示了当前模型在反思推理方面的巨大改进空间。

Making FETCH! Happen: Finding Emergent Dog Whistles Through Common Habitats

提出 FETCH! 基准和 EarShot 系统,用于在大规模社交媒体语料库中发现新兴的"狗哨"(dog whistle,即具有双重含义的编码表达),利用向量数据库和 LLM 的结合实现了比现有方法高 2-20 个 F-score 百分点的提升。

Mapping 1,000+ Language Models via the Log-Likelihood Vector

提出用对数似然向量(log-likelihood vector)将 1000+ 语言模型映射到一个统一空间,证明向量间欧氏距离近似 KL 散度,可实现模型聚类可视化、基准性能预测(r=0.96)和数据泄漏检测。

MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment

首次建模电商搜索中的"搜索动机"——用户在搜索前的咨询行为蕴含的真实需求,提出MAPS框架融合LLM语义、MoAE池化和双重对齐机制,在真实商业数据上HR@10提升24.4%(从0.5685到0.7071)。

Masking in Multi-hop QA: How LMs Perform with Context Permutation

通过系统性的文档排列实验和注意力权重分析,揭示因果掩码是 decoder-only LLM 在多跳问答中的结构性瓶颈,并证明将因果掩码替换为 prefix mask 可显著提升性能和鲁棒性。

MasRouter: Learning to Route LLMs for Multi-Agent Systems

首次提出多智能体系统路由(MASR)问题,设计 MasRouter 级联控制器网络,依次决定协作模式、角色分配和 LLM 路由,在保持高性能的同时将 MAS 的推理成本降低最高 52%,实现效果与效率的平衡。

MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion

提出 MathFusion 框架,通过三种问题融合策略(顺序/并行/条件融合)将数学问题两两合成新问题,仅用 45K 额外合成数据就在多个基准上实现平均 18 个百分点的数学推理提升。

Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

提出 MathNeuro,一种仅需前向传播的计算高效方法,通过过滤掉对通用语言任务同样重要的参数来定位 LLM 中数学推理专属的参数,剪枝这些参数可删除数学能力,缩放这些参数可提升 4-35% 的数学性能。

MDCure: A Scalable Pipeline for Multi-Document Instruction-Following

提出 MDCure 框架,通过两阶段流程(生成+过滤)自动构建高质量的多文档指令数据,并训练 MDCureRM 多目标奖励模型进行数据过滤,使微调后的 LLM(最高 70B)在多文档和长上下文任务上相比基线提升高达 75.1%,且实现跨任务、跨领域的强泛化能力。

Meaning Beyond Truth Conditions: Evaluating Discourse Level Understanding via Anaphora Accessibility

本文提出自然语言理解能力的三层次层级体系(词汇/句子/篇章),以回指可及性(anaphora accessibility)作为篇章级理解的诊断任务,通过动态语义学启发的评估数据集系统考察了 LLM 在全称量词、否定和析取三种语言结构下的篇章理解能力。

Meaning Beyond Truth Conditions: Evaluating Discourse Level Understanding via Anaphora Accessibility

本文提出语义理解能力的层级框架(词汇/句子/话语),构建了基于照应可及性(anaphora accessibility)的评估数据集,发现 LLM 在某些结构上与人类一致但在其他结构上存在系统性分歧——LLM 依赖词汇线索而非结构化抽象。

MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents

构建了首个同时覆盖参与/观察两种场景、事实/反思两种记忆层次、准确性/召回/容量/效率四种指标的 LLM Agent 记忆能力评估基准 MemBench,在 7 种记忆机制上的评测显示简单的 RetrievalMemory 在大规模记忆(100K token)下表现最佳(准确率 0.833),而复杂机制(MemGPT、GenerativeAgent)未展现优势。

MEraser: An Effective Fingerprint Erasure Approach for Large Language Models

提出 MEraser(Mismatched Eraser),通过两阶段微调策略(错配数据擦除 + 干净数据恢复)以不到 1000 条样本完全移除 LLM 中基于后门的指纹水印,同时保持模型性能,并首创可迁移的 LoRA 擦除适配器。

MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models

提出 MergePrint,首个针对模型合并(model merging)场景的 LLM 黑盒指纹验证方法,通过伪合并模型模拟合并行为并两阶段优化(输入优化 + 参数优化),使嵌入的指纹在合并后仍可被检测,实现高效、无害、抗篡改的所有权验证。

Meta-Reflection: A Feedback-Free Reflection Learning Framework

提出 Meta-Reflection 框架,通过可学习的元反思代码本(codebook)存储和检索反思性洞察,使 LLM 在推理时无需外部反馈和多轮迭代,仅需单次前向传播即可利用历史反思经验来改善输出质量,在编程、数学推理和电商意图检测任务上均取得显著提升。

MExGen: Multi-Level Explanations for Generative Language Models

提出MExGen框架,通过scalarizer将生成模型的文本输出映射为实数值、多粒度语言分割和线性复杂度归因算法(C-LIME/L-SHAP),为上下文驱动的文本生成(摘要、QA)提供比PartitionSHAP和LLM自解释更忠实的输入归因解释。

MHA2MLA: Towards Economical Inference by Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs

MHA2MLA 首次提出将已训练好的 MHA 模型高效迁移到 DeepSeek 的 MLA 架构的方法,通过贡献度感知的 partial-RoPE 移除和联合 SVD 低秩近似,仅用 0.6%-1% 的训练数据即可恢复性能,将 Llama2-7B 的 KV cache 压缩 92.19% 且 LongBench 性能仅下降 1%。

Mind the (Belief) Gap: Group Identity in the World of LLMs

通过多智能体 LLM 框架模拟信念一致性(Belief Congruence)理论,发现 LLM 表现出比人类更强的信念一致性偏向,导致错误信息传播增加和学习能力受损,并提出三种基于社会心理学的缓解策略。

Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy

本文系统研究了提示语的礼貌程度对LLM回答准确率的影响,通过构建5种语气梯度(从"非常礼貌"到"非常粗鲁")的250条多选题提示并在ChatGPT 4o上测试,发现与直觉相反——粗鲁提示的准确率(84.8%)显著高于礼貌提示(80.8%)。

MindRef: Mimicking Human Memory for Hierarchical Reference Retrieval with Fine-Grained Location Awareness

提出 MindRef 框架,模拟人类先回忆文档标题再定位具体段落的两阶段记忆模式,通过 Trie 和 FM-Index 约束解码让 LLM 独立召回参考段落,无需额外检索模型或预分段。

MIRAGE: Exploring How Large Language Models Perform in Complex Social Interactive Environments

本文提出 MIRAGE 评估框架,通过八个精心设计的剧本杀场景和四项指标(信任倾向 TII、线索调查 CIC、交互能力 ICI、剧本合规 SCI)系统评估 LLM 在复杂社交互动环境中的表现,发现即使 GPT-4 也在这些场景中面临严峻挑战。

Mitigate Position Bias in LLMs via Scaling a Single Hidden States Channel

发现 LLM 隐状态中存在编码绝对位置信息的特定通道(positional hidden states),通过缩放这单一通道即可缓解"lost in the middle"位置偏差,在多文档 QA 基准上提升高达 15.2%,且不影响模型其他能力。

Mixture of Small and Large Models for Chinese Spelling Check

本文提出在Beam Search解码阶段动态混合小模型(fine-tuned BERT)和大语言模型(LLM)的概率分布来进行中文拼写纠错,无需微调LLM即可兼顾小模型的精确纠错和LLM的流畅性,在多个CSC数据集上达到SOTA。

Mixtures of In-Context Learners

提出 MoICL 方法,将 ICL 的 demonstration 集合划分为多个子集(专家),通过可学习的权重函数融合各专家的 next-token 分布,在不修改 LLM 参数的前提下显著提升 ICL 的准确率、鲁棒性和效率。

Comparing Moral Values in Western English-speaking Societies and LLMs with Word Associations

提出基于词语联想(word association)而非直接提问的 LLM 道德评估框架,构建人类和 LLM 的全局道德网络(GMN),发现两者在正面道德维度上高度一致,但 LLM 在负面道德概念上系统性地更抽象、更少情感化和具体性。

MOSAIC: Multiple Observers Spotting AI Content

基于信息论中的通用压缩原理,提出 MOSAIC——多 LLM 集成的 AI 生成文本检测方法,通过 Blahut-Arimoto 算法为多个 detector LLM 计算最优组合权重,构建混合分布作为观察者,比较文本的实际 surprisal 与混合模型的期望交叉熵差异来判断是否为 AI 生成,在多个域/语言/生成器上鲁棒优于单模型和双模型(如 Binoculars)方法。

Multi-Prompting Decoder Helps Better Language Understanding

提出 Multi-Prompting Decoder(MPD)框架,通过多提示查询 PLM 获取多组隐状态和类别分数,结合最优传输匹配和校准解码策略,在 MaaS(模型即服务)场景下的 few-shot 分类任务上显著超越现有方法。

Multi-Attribute Steering of Language Models via Targeted Intervention

提出 MAT-Steer,通过属性感知的 token 级 gating 机制和正交性约束,实现推理时对 LLM 多属性(如真实性、毒性、偏见)的同时精准干预,在 QA 和生成任务上全面超越现有 ITI 和微调方法。

Which of These Best Describes Multiple Choice Evaluation with LLMs?

系统论证 MCQA 作为 LLM 标准评估格式存在三大类问题:(1) 格式缺陷——无法测试生成/主观性、不匹配 LLM 真实使用场景、不能充分测试知识深度;(2) 数据集缺陷——泄露、不可回答、捷径和饱和;(3) 模型行为问题——鲁棒性差、选项偏置和不忠实解释。借鉴教育测试学提出 Constructed Response、Explanation MCQA、IRT 分析等系统化修复方案。

"My life is miserable, have to sign 500 autographs everyday": Exposing Humblebragging, the Brags in Disguise

首次将 humblebragging(谦虚式自夸)检测引入计算语言学领域,提出了一个4元组形式化定义,构建了 HB-24 合成数据集,并在 ML/DL/LLM 上进行了全面基准评估,GPT-4o 在 zero-shot+定义 设定下达到 0.88 F1,超越人类标注者。

Natural Language Processing in Support of Evidence-based Medicine: A Scoping Review

基于 PRISMA 指南对 129 篇研究(2019-2024)进行范围综述,以 EBM 五步流程(Ask-Acquire-Appraise-Apply-Assess)为组织框架,全面梳理了 NLP 技术在循证医学中的应用现状、技术演进路径与未来方向。

NeKo: Cross-Modality Post-Recognition Error Correction with Tasks-Guided Mixture-of-Experts Language Model

提出 NeKo,一种基于任务引导 Mixture-of-Experts (MoE) 的多任务后识别纠错语言模型,在 ASR、语音翻译、OCR 等多个跨模态纠错任务上达到 SOTA,零样本场景下超越 GPT-3.5 和 Claude-3.5 Sonnet。

Neural Topic Modeling with Large Language Models in the Loop

提出LLM-ITL框架,将LLM以"in-the-loop"方式集成到神经主题模型(NTM)训练中,通过基于最优传输的主题对齐目标和置信度加权机制,在保持文档表示质量和计算效率的同时显著提升主题可解释性。

NewsInterview: a Dataset and a Playground to Evaluate LLMs' Grounding Gap via Informational Interviews

构建了 4 万条新闻采访对话数据集,发现 LLM 在采访场景中缺乏 acknowledgement(少 50%)和话题转换能力(少 30%),并设计了含说服机制的模拟博弈环境(NewsInterview),证明最优 LLM(gpt-4o)也仅能提取 50.4% 的信息项。

Not Quite Sherlock Holmes: Language Model Predictions Do Not Reliably Differentiate Impossible from Improbable Events

本文通过精心设计的最小对实验,揭示语言模型无法可靠区分"不可能事件"和"不太可能但可能的事件"——在对抗性条件下(可能句含不相关词、不可能句含相关词),包括 Llama 3、Gemma 2、Mistral NeMo 在内的所有 35 个模型均表现低于随机水平。

Nudging: Inference-time Alignment of LLMs via Guided Decoding

提出 Nudging,一种免训练的推理时对齐算法,利用小型对齐模型在基础模型不确定时注入少量"nudging tokens"来引导输出,用 7-14 倍小的模型就能达到甚至超过大型对齐模型的性能。

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

提出OLMoTrace——首个能在实时(平均4.5秒)将语言模型输出逐字追溯到其完整多万亿token训练数据的系统,基于扩展的infini-gram引擎通过后缀数组索引实现高效精确匹配,支持事实核查、创意溯源和数学能力追踪等应用场景。

On Entity Identification in Language Models

提出基于聚类的评估框架(Purity/Inverse Purity)分析 LLM 内部表示中的实体区分能力,发现实体信息在早期层(~归一化位置 0.2)的 20 维子空间中达到线性可分(F1~0.9),且不同大模型收敛到结构同构的实体编码——为"LLM 从纯文本训练中涌现离散知识结构"提供了系统性证据。

On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

本文通过训练受控的小型双语语言模型,使用心理语言学中的结构启动方法(structural priming)研究跨语言语法表征的共享机制,发现跨语言结构启动效应在语言对之间呈不对称性,且对类型学距离较远的语言对(如英语-希腊语)明显减弱。

On the Mutual Influence of Gender and Occupation in LLM Representations

通过在 LLM 嵌入空间中近似性别方向(gender direction),系统研究了名字的性别表征与职业上下文之间的双向影响:职业上下文会偏移名字的性别表征,而名字的性别表征反过来影响 LLM 在职业预测任务中的偏差行为,但二者的相关性仅为中等强度。

On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs

本文系统研究了LLM时代下恶意社交文本检测中的"证据污染"风险,提出13种污染方法和3种防御策略,发现LLM生成的虚假证据可导致检测器性能下降高达14.4%,且现有防御策略面临实际部署挑战。

One for All: Update Parameterized Knowledge Across Multiple Models with Once Edit

提出 OnceEdit,通过编辑一个轻量级插件模型并利用异构模型集成技术将编辑后的知识迁移到多个 LLM,实现"一次编辑,多模型更新",在 ZsRE 和 Counterfact 数据集上显著超越现有方法。

Open-Set Living Need Prediction with Large Language Models

提出 PIGEON 系统,将生活服务平台上的用户需求预测从封闭集分类重新定义为开放集生成问题,通过 GNN 行为嵌入检索历史记录辅助 LLM 预测、马斯洛需求层次引导精化、以及微调文本嵌入模型实现灵活需求到服务的召回,在美团真实数据上平均提升 19.37%。

OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

提出OpenCoder,一个完全开源的代码大语言模型(含1.5B和8B版本),不仅性能达到顶级水平,更作为"open cookbook"开放了可复现的数据处理流水线、预训练数据集、消融实验和训练协议,为代码智能研究提供基础设施。

P3: Prompts Promote Prompting

本文提出 P3 框架,首次同时优化系统提示(system prompt)和用户提示(user prompt),通过离线迭代优化生成高质量的提示模板,再用这些模板进行在线 query-dependent 提示优化,在 Arena-Hard、AlpacaEval、GSM8K、GPQA 等通用和推理任务上均超过仅优化单侧提示的方法。

Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs

由 44 名阿拉伯世界研究者历时一年社区驱动构建的 Palm 数据集,涵盖全部 22 个阿拉伯国家、20 个文化主题、10 种方言,共 17,411 条人工创建的指令对,用于评估和提升 LLM 的阿拉伯文化和方言能力。

Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub

提出OpenAgent系统,通过Search→Setup→Apply→Store四阶段流程自主从GitHub搜索、配置、使用和存储仓库作为工具,解决LLM在金融、化学、生物等专业领域的开放域任务,平均成功率69.4%。

Past Meets Present: Creating Historical Analogy with Large Language Models

本文首次定义了"历史类比获取"任务,系统探索了基于LLM的检索和生成方法,并提出自反思机制来减轻LLM生成历史类比时的幻觉和刻板印象问题,通过人工评估和自动多维评估验证了LLM在历史类比方面的潜力。

Personalized Generation In Large Model Era: A Survey

首篇跨模态个性化生成(PGen)系统综述,提出统一的用户中心视角将 NLP/CV/IR 社区的研究纳入同一框架,覆盖文本/图像/视频/音频/3D/跨模态六大模态。

Perspective Transition of Large Language Models for Solving Subjective Tasks

提出 RPT(Reasoning through Perspective Transition),通过在同一 prompt 中让 LLM 依次探索直接/角色扮演/第三人称三种视角、按置信度排序、选最优视角推理,在 12 个主观任务、4 个模型(GPT-4/GPT-3.5/Llama-3/Qwen-2)上均超越固定视角与集成基线,GPT-3.5 上平均提升 +4.56 点。

Pitfalls of Scale: Investigating the Inverse Task of Redefinition in Large Language Models

通过重新定义物理/数学常量和计量单位(如"令 π=500"),系统研究 LLM 在逆缩放任务中的表现,发现模型规模越大越倾向于锚定记忆中的原始值而拒绝遵循 prompt 的重新定义,且错误信心(拒绝弃权而给出错误答案)随规模上升。

PlanGenLLMs: A Modern Survey of LLM Planning Capabilities

首篇基于经典规划理论 (Kartam & Wilkins 1990) 提出六维评估框架(完整性、可执行性、最优性、表示、泛化性、效率)的 LLM 规划能力综述,系统梳理了从任务分解到搜索算法的基础范式,并指出多智能体规划、幻觉、人类偏好对齐等关键未解决方向。

Planning-Driven Programming: A Large Language Model Programming Workflow

提出 LPW(LLM Programming Workflow),通过"方案生成→计划验证→代码实现→基于计划验证的精准调试"的两阶段工作流,显著提升 LLM 代码生成准确率,在 GPT-4o 上实现 HumanEval 98.2%、MBPP 84.8%、LiveCode 59.3% 的新 SOTA。

PiFi: Plug-in and Fine-tuning: Bridging the Gap between Small Language Models and Large Language Models

提出 PiFi 框架,将 LLM 的单层冻结参数插入到 SLM 中并微调,以极低计算开销显著提升 SLM 在 NLU 和 NLG 任务上的性能。

KoGEM: Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean

提出 KoGEM(韩语语法评估基准),包含 1,524 道基于理论语言学分类的多选题,覆盖音韵/形态/句法/语义/规范 5 大类 16 子类,零样本评估 27 个 LLM 并与人类对比,揭示 LLM 在需要经验知识的语言子类(如发音规则、音韵变化)上远逊人类,而显式补充经验知识(发音文本、语素分解)后可大幅提升。

Only a Little to the Left: A Theory-grounded Measure of Political Bias in LLMs

本文用政治科学中经过验证的 World Values Survey (WVS) 替代缺乏科学基础的 Political Compass Test (PCT),设计 30 种提示变体在 11 个开源/商业 LLM 上收集 88,110 条开放式回复并训练立场分类器自动标注,发现指令微调模型普遍偏左但偏见度量对提示高度敏感,PCT 会夸大特定模型(如 GPT-3.5)的政治偏见。

Pragmatics in the Era of Large Language Models: A Survey on Datasets, Evaluation, Opportunities and Challenges

系统综述 58 篇文献中评估 NLP 模型语用能力的资源,按语用现象(上下文/指示语、隐含义/预设、言语行为、话语连贯、社会语用)分类,梳理任务设计(MCQ/QA/NLI/参照游戏等)和数据构建方法(自底向上/自顶向下),揭示当前评估的核心差距(英语中心偏置、单模态局限、细粒度评估不足),为 LLM 时代的语用评估提供路线图。

PRAISE: Enhancing Product Descriptions with LLM-Driven Structured Insights

提出 PRAISE,一个 4 步 LLM pipeline(属性提取 → 跨产品对比 → 语义分组 → 结构化呈现),使用 Gemini 2.0 Flash 从 Amazon 产品描述中自动生成结构化洞察。在 90 个产品 × 9 个类别上验证,多步 pipeline 显著优于单次生成;效果与产品主观性高度相关(Arts&Crafts F1=0.82 vs Books F1=0.36),每产品仅需 \(2R+1\) 次 API 调用。

Pre³: Enabling Deterministic Pushdown Automata for Faster Structured LLM Generation

提出 Pre³,将 LR(1) 文法转化为确定性下推自动机(DPDA),通过预计算前缀条件边消除运行时非确定性探索,实现结构化 LLM 生成的显著加速——每 token 耗时降低最高 40%,吞吐提升最高 36%。

Prediction Hubs are Context-Informed Frequent Tokens in LLMs

本文首次在自回归LLM中系统分析hubness现象,从理论上证明LLM预测中使用的概率距离不受距离集中效应影响,实证发现预测hub是上下文调制的高频token(属于"良性hub"),但用欧氏距离比较LLM表示时会产生有害的nuisance hub。

Substance over Style: Evaluating Proactive Conversational Coaching Agents

通过健康教练领域的专家访谈和用户研究(31 名参与者、155 段对话),系统评估了五种不同对话风格(Directive、Interrogative、Facilitative)的 LLM 教练 Agent,发现用户高度重视核心功能性(substance)而对缺乏功能性时的风格修饰(style)持负面态度,同时揭示了用户第一人称评价与专家/LLM 第三方评价之间的显著不一致。

Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning

提出一种双阶段框架:先用截断正态分布EM算法将多个LLM的连续道德评分聚合为集体共识概率,再对偏离共识的模型进行道德理论token级嵌入优化,使其与集体意见对齐,实现多LLM间一致的道德推理。

Problem-Solving Logic Guided Curriculum In-Context Learning for LLMs Complex Reasoning

提出基于问题求解逻辑(Problem-Solving Logic)的课程式 ICL 策略,通过分析问题的求解步骤结构来选择和排序 demonstration examples,有效提升 LLM 的复杂推理能力。

ProgCo: Program Helps Self-Correction of Large Language Models

ProgCo 提出用 LLM 自动生成并执行验证伪程序(ProgVe)来检查自身回答的正确性,再通过对回答和验证程序的双重反思与修正(ProgRe)来实现可靠的自我纠正,在指令遵循和数学推理任务上显著提升了纠正成功率。

Psycholinguistic Word Features: A New Approach for the Evaluation of LLMs Alignment with Humans

首次系统提出使用心理语言学词汇规范(Glasgow 5,553词 × 7特征 + Lancaster 39,707词 × 6感知模态,共13种词汇特征)评估LLM与人类对齐,发现GPT-4o在Glasgow情感/概念特征上相关性较高,但所有模型在Lancaster感知觉特征上对齐极差,定量揭示LLM缺乏具身认知的根本局限。

Aligning Large Language Models with Implicit Preferences from User-Generated Content

提出 PUGC 框架,利用非标注用户生成内容(UGC)中的隐式人类偏好来生成偏好数据——将 UGC 转化为查询+参考文本,以此评分模型生成的响应,用 DPO 实现可扩展的领域特定对齐,在 Alpaca Eval 2 上基于 Mistral-7B 达到 35.93% 长度控制胜率 SOTA。

QG-SMS: Enhancing Test Item Analysis via Student Modeling and Simulation

QG-SMS 提出用单个 LLM 模拟不同理解水平的学生群体,通过学生画像生成、表现预测和分析三步流程,弥补了现有 LLM 评估器在考后分析维度(题目难度、区分度、干扰项效率)上的严重不足,在多个数据集上实现了最高一致性准确率。

QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning

本文提出 QualiSpeech,首个包含 11 个维度标注和详细自然语言推理描述的语音质量评估数据集,以及配套的评测基准,证明了微调后的听觉 LLM 能生成关于噪声和失真的详细描述,并展示了推理增强质量评估的潜力。

Quantifying Semantic Emergence in Language Models

提出了 Information Emergence (IE) 这一基于信息论的定量指标,通过比较 Transformer 各层中宏观(序列级)与微观(token级)的互信息差异,量化 LLM 从 token 中提取语义的能力。

Rank, Chunk, and Expand: Lineage-Oriented Reasoning for Taxonomy Expansion

LORex 提出了一个即插即用的分类体系扩展框架,结合判别式排序器 TEMPORA(基于欧拉路径的分类路径语言化)和迭代式 LLM 推理(语义过滤→父节点检索→路径验证),无需微调 LLM,在 4 个基准上实现了 12% 的准确率提升和 5% 的 Wu&P 提升。

Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat

系统性地评估四种排名算法(Elo、Bradley-Terry、Glicko、Markov Chain)在LLM头对头评估中的表现,定义三条核心排名准则(传递性、预测准确率、超参数敏感性),发现广泛使用的 Elo 排名在稳定性和一致性方面存在严重缺陷,推荐 Glicko 用于大规模不均匀数据集、Bradley-Terry 用于小型可控数据集。

Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives

借鉴 Bloom 分类学和知识空间理论,提出 Re-TASK 框架将 LLM 任务从"能力项-技能-知识"三层视角进行重新审视,并设计 Re-TASK prompting 策略通过针对性的知识注入和技能适配来增强 CoT 在领域任务上的表现,在法律任务上最高提升 45%。

Reason from Future: Reverse Thought Chain Enhances LLM Reasoning

提出 Reason from Future(RFF)推理范式,通过交替进行逆向推理(从目标向前分解)和正向推理(从当前状态向目标逼近)实现双向推理,在 Game of 24、GSM8K、MATH-500 等基准上显著超越 CoT、ToT、CR 等方法,同时大幅减少搜索空间。

Recent Advances in Speech Language Models: A Survey

首篇 Speech Language Models (SpeechLMs) 综合综述,系统梳理从"ASR+LLM+TTS"级联架构到端到端语音语言模型的演进,提出按三大组件(speech tokenizer / language model / vocoder)和训练方案分类的分类体系,覆盖下游能力、评估指标、挑战与未来方向。

Reconsidering LLM Uncertainty Estimation Methods in the Wild

本文系统性地考察了19种LLM不确定性估计方法在实际部署中面临的四大挑战(阈值选择敏感性、查询变换鲁棒性、长文本生成适用性、多分数集成策略),揭示了现有方法在真实场景下的显著局限并提出了集成策略作为实用改进方向。

Recurrent Knowledge Identification and Fusion for Language Model Continual Learning

提出Recurrent-KIF持续学习框架,通过内外循环迭代机制动态估计参数重要性分布,利用基于重要性的二值掩码进行知识融合,有效缓解灾难性遗忘并促进知识迁移。

Red-Teaming LLM Multi-Agent Systems via Communication Attacks

提出 Agent-in-the-Middle (AiTM) 攻击,通过拦截和篡改 LLM 多智能体系统中的 agent 间通信消息(而非直接修改 agent 本身),利用一个带反思机制的对抗性 agent 生成上下文感知的恶意指令,在多种框架/通信结构/真实应用上均取得 40%~100% 的攻击成功率。

Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models

首次系统评估了 8 种显著性度量在稀疏参数高效微调(SPEFT)中的效果,发现简单的梯度基方法配合静态掩码即可一致性地超越 LoRA,挑战了"PEFT 需要复杂设计"的常见认知。

Identifying Reliable Evaluation Metrics for Scientific Text Revision

系统分析了传统相似度指标(ROUGE、BERTScore 等)在科学文本修订评估中的局限性,发现它们与编辑距离强相关且惩罚深度修改,提出结合 LLM-as-Judge 和任务特定跨域指标的混合评估方法,在与人类判断的对齐度上显著优于单一指标。

Representation Bending for Large Language Model Safety

提出 RepBend,将 activation steering 的核心思想(安全/不安全表示的向量差异)引入 LoRA 微调的损失函数设计,通过"弯曲"模型的表示空间使安全和不安全状态在潜在空间中远离彼此,在多种越狱攻击基准上实现高达 95% 的攻击成功率降低,且对模型通用能力影响极小。

Representations of Fact, Fiction and Forecast in Large Language Models: Epistemics and Attitudes

通过受控故事任务评估 8 个开源 LLM 对认识情态(may/must、know/believe/doubt)的语义知识,发现 LLM 在生成恰当认知表达方面表现有限且不鲁棒——必然性(must)优于可能性(may),事实陈述优于信念陈述。

RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

提出RetroLLM统一框架,将检索和生成集成为单一自回归解码过程,通过层级FM-Index约束和前瞻式受限解码,使LLM能直接从语料库中生成细粒度证据,同时显著减少token消耗。

Retrospective Learning from Interactions

提出 ReSpect 方法,让多模态 LLM 通过回顾性地解码用户在多轮交互中的隐式反馈信号来自我改进,无需任何外部标注,在数千次人机交互中将任务完成率从 31% 提升至 82%。

Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up

提出 Reversal of Thought (RoT),一个即插即用的推理框架,通过偏好引导的逆向推理预热策略,让 LLM 从示例中反向生成"LLM 口味"的最优 prompt,再通过认知偏好管理器自动区分已知/未知任务,在多种推理任务上超越 CoT/ToT/GoT 等基线。

Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models' Uncertainty?

本文定义了"标记置信度"(marker confidence)概念来衡量 LLM 使用认知标记(如"fairly certain")时的实际准确率,通过 7 个模型和 7 个数据集的系统实验发现:认知标记在分布内场景表现稳定,但在分布外场景下极不可靠。

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

本文发现语言模型不确定性量化(UQ)评估中存在严重的长度偏差问题——UQ 方法和正确性度量函数都受响应长度偏差影响,二者的"互偏差"系统性地扭曲了 AUROC 排名,并在理论和实证上证明了这一点,同时发现 LLM-as-a-Judge 方法是最不受长度偏差影响的评估选择。

RiOT: Efficient Prompt Refinement with Residual Optimization Tree

提出 Residual Optimization Tree(RiOT),一种自动 prompt 优化框架,通过树结构管理优化过程、基于困惑度的节点选择增强多样性、以及文本残差连接缓解语义漂移问题。

Robust Utility-Preserving Text Anonymization Based on Large Language Models

提出RUPTA框架,通过隐私评估器、效用评估器和优化器三个LLM组件协同工作,迭代编辑文本以实现防御LLM重识别攻击的同时保留下游任务效用,并通过DPO蒸馏将匿名化能力迁移到轻量模型。

RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates

提出 RoCoFT,一种极简的参数高效微调方法:仅更新 Transformer 权重矩阵中少量行或列的参数,在 GLUE、QA、摘要生成和常识/数学推理等任务上达到与 LoRA 等 SOTA PEFT 方法相当的精度,同时更省内存和计算,并通过 Neural Tangent Kernel 理论解释了其有效性。

(RSA)²: A Rhetorical-Strategy-Aware Rational Speech Act Framework for Figurative Language Understanding

本文提出 (RSA)² 框架,通过在概率语用学的 RSA 框架中显式建模说话者的修辞策略(如反讽、夸张),使 LLM 能够在不建模说话者动机的情况下正确理解非字面义,在反讽理解数据集 PragMega+ 上达到 SOTA。

Rubrik's Cube: Testing a New Rubric for Evaluating Explanations on the CUBE Dataset

提出 Rubrik——受教育评估启发的解释质量评价量规,基于三层嵌套类型体系(Commentary⊆Justification⊆Argument)+ 8 维质量维度,配套 CUBE 数据集(26K 条由人类和 6 个 LLM 生成的解释),发现 LLM 解释低质主因是缺乏简洁性而非连贯性。

Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts

系统评估了11个LLM裁判在安全领域的鲁棒性,发现道歉前缀等表面文本特征(artifact)可将评估偏好扭曲高达98%,提出基于jury的多模型聚合方案但仍未完全解决该问题。

Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition

本文提出基于最大差异 (MAD) 竞争原则的高效人工评测方法,通过自动选择最能区分 LLM 差异的指令子集来大幅减少人工标注量,用仅 280 条对比即可恢复大规模评测的排名结果。

Beware of Your Po! Measuring and Mitigating AI Safety Risks in Role-Play Fine-Tuning of LLMs

首次系统评估了角色扮演微调(role-play fine-tuning)对 LLM 安全性的影响,发现安全退化程度与角色特质(特别是反派角色)正相关,并提出 SaRFT 框架,通过隐式奖励函数自适应识别对不同角色有害的训练数据子集,配合 KL 散度正则化实现角色表现力与安全性的 Pareto 最优平衡。

SConU: Selective Conformal Uncertainty in Large Language Models

SConU 首次在 LLM 的保形不确定性框架中引入显著性检验,通过构建两种保形 p-value 来识别并过滤违反可交换性假设的不确定性数据异常点,从而在单域和跨域 QA 场景中实现对错误覆盖率(miscoverage rate)的严格管理。

SCoP: Evaluating the Comprehension Process of Large Language Models from a Cognitive View

SCoP 从认知科学视角将 LLM 的文档理解过程分解为五种递进技能(定位、推断、连接、组织、选择),构建了包含 4682 个样本的测试集来评估理解"过程"而非仅仅"答案",发现 LLM 普遍在局部理解(~94%)上远强于全局理解(~31%),且即使答案正确其理解过程也可能是错误的。

SCULPT: Systematic Tuning of Long Prompts

提出 SCULPT 框架,将长提示词优化建模为层次化树结构的迭代修正问题,通过 Critic-Actor 框架对提示词进行结构化的反思和操作级修改,在保持长提示词信息完整性的同时显著提升 LLM 任务性能,并具备对抗扰动的鲁棒性。

SDD: Self-Degraded Defense against Malicious Fine-tuning

SDD通过训练LLM对有害指令生成高质量但无关的良性回复来实现防御:当攻击者进行恶意微调时,模型的通用能力会显著下降,从而无法有效执行恶意指令。

SEE: Strategic Exploration and Exploitation for Cohesive In-Context Prompt Optimization

SEE 是首个将指令(instruction)和示例(examples)作为整体进行联合优化的 prompt 优化框架,采用元启发式优化原则设计四阶段探索-利用策略,配合五种 LLM 算子的自适应选择,在 35 个基准任务上大幅超越 9 种 SOTA 方法。

Stepwise Reasoning Disruption Attack of LLMs

提出 SEED(Stepwise rEasoning Error Disruption)攻击方法,通过在 LLM 的推理链前几步中巧妙注入细微错误(如微调计算数字),让模型在后续推理中自然传播错误得出错误答案,兼容零样本/少样本设置,GPT-4o 检测率低至 0.8%,揭示了 LLM 逐步推理过程的严重安全漏洞。

Segment-Level Diffusion: A Framework for Controllable Long-Form Generation with Diffusion Language Models

提出段落级扩散(Segment-Level Diffusion, SLD),将长文本输出切分为多个段落(如句子/对话轮次),对每个段落的潜在表示进行扩散建模,结合对比学习和对抗训练增强表示鲁棒性,在摘要、故事生成、对话生成等任务上实现了比现有扩散模型更好的长文本生成质量。

Self-Foveate: Enhancing Diversity and Difficulty of Synthesized Instructions from Unsupervised Text via Multi-Level Foveation

提出 Self-Foveate 方法,受人类视觉注视机制启发,通过"微观-散射-宏观"三级注视策略,从无监督文本中系统性提取多粒度信息,合成具有更高多样性和难度的指令数据,用于 LLM 的指令微调。

Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs

提出一种自指导强化学习框架来训练"派生提示生成模型",并将派生提示-响应对作为上下文学习(ICL)示例来增强原始提示的查询,在不修改黑盒 LLM(如 GPT-4)参数的情况下显著提升响应质量。

Self-Training Elicits Concise Reasoning in Large Language Models

发现 LLM 输出分布中天然包含简洁推理路径,提出 FS-BoN(Few-shot 条件化 + Best-of-N 采样)自训练框架,从模型自身分布中筛选短且正确的推理样本进行微调,在 GSM8K 和 MATH 上跨 5 个模型族实现平均 30% token 缩减且不损准确率,效率为先前方法 Rational Metareasoning 的 2.4 倍。

Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching

受费曼学习法启发,提出 Self-Tuning 框架,通过记忆-理解-自省三层自教学策略,显著提升 LLM 从新文档中有效获取和回忆知识的能力。

SelfElicit: Your Language Model Secretly Knows Where is the Relevant Evidence

SelfElicit 发现 LLM 深层注意力分数天然具有定位上下文中关键证据的能力(即使模型回答错误时也是如此),据此提出一种推理时的上下文增强方法:仅需生成一个额外 token 即可自动识别并高亮关键证据句,引导模型给出更准确的回答。

Semantic Exploration with Adaptive Gating for Efficient Problem Solving with Language Models

针对 LLM 树搜索推理中"简单题也做复杂搜索"和"语义重复路径反复扩展"两大浪费问题,提出 SEAG 框架:先用 entropy 门控决定是否启动树搜索,再用语义聚类合并等价推理步骤,最终在准确率平均提升 4.3% 的同时仅需 RAP 31% 的推理开销。

Embracing Imperfection: Simulating Students with Diverse Cognitive Levels Using LLM-based Agents

针对 LLM 难以模拟低水平学生犯错行为的问题,提出基于知识图谱认知原型的 training-free 框架,通过认知状态建模 → 行为预测 → beam search 自精炼三阶段生成逼真的学生解答,在 Student_100 数据集上模拟准确率提升 100%。

SkillAggregation: Reference-free LLM-Dependent Aggregation

本文提出SkillAggregation方法,通过学习上下文相关的LLM评判者技能权重并利用后验估计进行推理,在无需参考标签的情况下有效聚合多个LLM评判者的预测,在多个任务上超越了现有聚合方法。

SkillVerse: Assessing and Enhancing LLMs with Tree Evaluation

提出SkillVerse——一种无监督的树结构LLM诊断框架,通过将LLM-as-Judge的评价反馈组织为层次化的技能树(dendrogram),在任意粒度上揭示模型能力的优劣势,并进一步用于选择更优的few-shot示例(ICL提升25%)和预测未知场景下的模型弱点(55%成功率,比无信息基线高22%)。

SocialEval: Evaluating Social Intelligence of Large Language Models

提出 SocialEval —— 一个基于叙事脚本的双语社会智能基准,通过手工构建 153 个"世界树"将社交互动建模为目标条件 MDP,整合结果导向的目标达成评估(GAE)和过程导向的人际能力评估(IAE),系统评测 LLM 在多回合社交场景中的社会智能及其与人类的差距。

SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition

SongComposer是首个能够同时生成歌词和旋律的音乐专用大语言模型,通过词级对齐的元组格式、基于音乐知识的标量音高初始化、以及渐进式结构感知训练(motif→独立全曲→短语级配对),在歌词配旋律、旋律配歌词、歌曲续写和文本生成歌曲等任务上全面超越GPT-4。

SQLong: Enhanced NL2SQL for Longer Contexts with LLMs

提出 SQLong,一种面向长上下文场景的 NL2SQL 数据增强框架,通过向训练数据中注入采样自其他数据库的合成 CREATE TABLE 语句来扩展上下文长度,使微调后的 LLM 在大规模 Schema 场景下显著提升 SQL 生成准确率。

SR-LLM: Rethinking the Structured Representation in Large Language Model

提出 SR-LLM 框架,通过两种设置(training-free 的自然语言描述转换和 training-dependent 的混合数据微调)将结构化表示(AMR、PST、FOL)有效集成到 LLM 中,在 PAWS 等下游任务上分别取得 3.17% 和 12.38% 的提升,首次证明结构化表示能实质性增强 LLM 推理能力。

Steering off Course: Reliability Challenges in Steering Language Models

本文系统性地评估了三种主流的语言模型引导方法(DoLa、功能向量、任务向量)在多达36个模型上的泛化性,发现这些方法存在严重的脆弱性和高方差问题,并揭示了其底层假设的根本缺陷。

STEM-PoM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing

提出 STEM-PoM 基准数据集(2K+ 数学符号实例),将 Part-of-Math Tagging 与文档解析结合,系统评估 LLM 对数学符号上下文多义性的分类能力,并证明符号分类能力的提升可迁移增强下游数学推理表现。

Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors

通过 DPO 微调将 LLM 的写作风格对齐到人类文本的语言特征分布,生成更难被检测的机器文本,揭示了现有 MGT 检测器对浅层语言线索的过度依赖。

Structural Reasoning Improves Molecular Understanding of LLM

提出 Molecular Structural Reasoning (MSR) 框架,通过显式融入分子的六种关键结构信息(分子式、最长碳链、芳环、环化合物、官能团、手性中心)作为推理中间步骤,显著提升 LLM 在分子理解任务上的表现。

SudoLM: Learning Access Control of Parametric Knowledge with Authorization Alignment

SudoLM 提出了一种 LLM 参数化知识访问控制框架,通过"SUDO key"机制让授权用户解锁受限知识(如医学领域知识),未授权用户则只能访问公开知识,用 DPO 的 authorization alignment 在一个模型内实现了传统需要多版本模型才能完成的分级访问控制。

SynapticRAG: Enhancing Temporal Memory Retrieval in Large Language Models through Synaptic Mechanisms

提出 SynapticRAG,借鉴神经科学中突触传播和漏积分发放(LIF)模型,将时序关联触发与语义相似度融合,在对话记忆检索任务上较 SOTA 提升最高 14.66%。

Synergizing Unsupervised Episode Detection with LLMs for Large-Scale News Events

本文提出 EpiMine,一种无监督的 episode 检测框架,通过判别性词项共现驱动的文章分割与 LLM 协同,从新闻语料中检测关键事件下的 episode(子事件片段),在三个真实数据集上平均提升 59.2%。

Systematic Generalization in Language Models Scales with Information Entropy

证明语言模型的系统泛化能力与训练数据中成分分布的信息熵正相关——高熵训练分布下即使没有内置组合先验的标准 seq2seq 模型也能实现强系统泛化。

T5Score: A Methodology for Automatically Assessing the Quality of LLM Generated Multi-Document Topic Sets

提出 T5Score 方法论,将 LLM 生成的自由文本主题集(FT-topics)的质量分解为五个可量化维度(可解释性、主题覆盖、文档覆盖、非重叠性、内部排序),通过简单标注任务实现高标注者一致性,并验证 LLM 可作为自动评估器替代人工。

TableLoRA: Low-rank Adaptation on Table Structure Understanding for Large Language Models

TableLoRA 提出面向表格任务的专用 LoRA 模块,通过特殊 token 编码器改善表格序列化,并用 2D LoRA 编码单元格的行列位置信息,在参数高效微调设置下相比 vanilla LoRA 在 HiTab 上提升 5.9%,弥合了 LoRA 与全量微调之间 40.56% 的性能差距。

TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora

提出 TaxoAdapt 框架,通过层次分类驱动的深度/宽度扩展和分类感知聚类,将 LLM 生成的多维度分类体系动态对齐到特定科学语料库,在粒度保持和兄弟节点一致性上分别超越最优基线 26.51% 和 50.41%。

Team Anotheroption at SemEval-2025 Task 8: Bridging the Gap Between Open-Source and Proprietary LLMs in Table QA

提出一种面向表格问答的多模型协同管道系统,整合 Text-to-SQL、Text-to-Code(Pandas)、端到端语义理解三条路径,通过 RAG 检索增强上下文 + Llama 3.3-70B 作为 Orchestrator 仲裁最终答案,在 SemEval-2025 Task 8 的开源赛道中以 80% 准确率排名 13/38,开发集上开源组合(88%)显著超越 GPT-4o 单模型(74%)。

Temporal Reasoning for Timeline Summarisation in Social Media

本文提出通过构建新的叙事时序推理数据集 NarrativeReason 来增强 LLM 的时序推理能力,并通过知识蒸馏框架将时序推理知识迁移到小模型中,同时训练其完成时间线摘要任务,在跨域心理健康摘要任务上取得最优效果并显著减少幻觉。

TESS 2: A Large-Scale Generalist Diffusion Language Model

提出 TESS 2,首个从已有自回归模型适配而来的大规模通用指令遵循扩散语言模型,通过 UL2 masking + label shifting + 双向注意力的适配训练方案 + reward guidance 推理引导,在 QA 和指令遵循任务上匹配甚至超越同等 AR 模型。

TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

提出TestCase-Eval基准,包含500道Codeforces竞赛题和10万份人类提交代码,通过Fault Coverage和Fault Exposure两个任务系统评估19个LLM在算法问题测试用例生成方面的能力,发现最强模型Qwen3-32B仅达43.8%暴露率,远低于人类专家的93.3%。

TestNUC: Enhancing Test-Time Computing Approaches and Scaling through Neighboring Unlabeled Data Consistency

TestNUC 提出了一种线性扩展的测试时推理增强方法,通过检索测试样本的近邻无标注数据,让 LLM 同时预测测试样本及其邻居,再通过加权多数投票聚合,稳定提升分类准确率。

The AI Gap: How Socioeconomic Status Affects Language Technology Interactions

通过对1000名不同社会经济地位(SES)用户的大规模调查和6482条真实LLM prompts的分析,揭示了高低SES群体在语言技术使用频率、交互方式和话题选择上存在显著系统性差异,呼吁开发更具包容性的NLP技术以缩小AI鸿沟。

The Nature of NLP: Analyzing Contributions in NLP Papers

提出 NLP 论文贡献的分类体系(知识/工件 × 8 子类),构建 ~2k 人工标注数据集 NLPContributions,训练 SciBERT 自动识别贡献声明,并对 ~29k 篇 ACL Anthology 论文做 50 年纵向趋势分析,揭示 NLP 研究从语言学导向转向方法/模型主导、近年又重拾人文与语言关注的演化轨迹。

The Role of Deductive and Inductive Reasoning in Large Language Models

本文提出 DID(De-In-Ductive)框架,通过动态结合演绎推理和归纳推理来增强 LLM 的推理能力,利用 Littlestone 维度和信息熵组成的双指标复杂度评估系统来指导问题分解策略,在 AIW 基准上达到 70.3% 准确率(超过 ToT 的 62.2%),同时保持更低的计算成本。

Theorem Prover as a Judge for Synthetic Data Generation

提出 TP-as-a-Judge 框架,利用 Lean 定理证明器验证 LLM 生成的中间推理步骤,结合迭代自动形式化和基于定理证明器反馈的强化学习(RLTPF),仅用 3,508 个样本就在多个数学推理基准上取得了显著提升。

A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive

提出并验证了LLM的响应采样理论——采样过程同时受描述性成分(统计规范)和规范性成分(隐式理想值)双重驱动,导致样本系统性地偏离统计平均值向理想值方向偏移,这种偏差在15个模型、500个概念上具有统计显著性,且模型越大偏差越强。

Theory of Mind in Large Language Models: Assessment and Enhancement

系统综述了 LLM 的心智理论(ToM)能力的评估基准(10+ story-based benchmarks)和增强策略(prompt-only 和 fine-tuning 两类方法),指出当前 LLM 在 ToM 推理上仍有显著不足,并提出未来方向。

TigerLLM - A Family of Bangla Large Language Models

针对孟加拉语(全球第5大语言)的 LLM 严重不足问题,构建高质量教科书语料 Bangla-TextBook(10M token)和原生指令数据 Bangla-Instruct(100K),训练的 TigerLLM 家族在六项基准上超越所有开源替代方案并胜过 GPT-3.5。

To Code or not to Code? Adaptive Tool Integration for Math Language Models via Expectation-Maximization

提出基于EM框架的AutoCode方法,让数学LLM自主决定何时使用代码工具辅助推理,通过E-step引导探索高潜力代码触发决策+M-step离线RL优化,7B模型在MATH500上提升11%+。

The Impact of Token Granularity on the Predictive Power of Language Model Surprisal

系统研究子词 token 粒度(词表大小 256~128K)对 LM surprisal 预测人类阅读时间能力的影响,发现 ~8K 词表的中等粒度在自然阅读时间预测上最优(甚至优于 GPT-2),而粗粒度 token 在花园路径句法效应上更敏感,揭示认知建模的最优分词粒度并非 NLP 通用标准。

Token Prepending: A Training-Free Approach for Eliciting Better Sentence Embeddings from LLMs

提出 Token Prepending (TP) 技术,通过在每层将解码得到的句子嵌入前置到句子开头,使因果注意力机制下的早期 token 也能感知完整句子信息,无需训练即可显著提升 LLM 的句子嵌入质量。

Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling

提出 Token Recycling——一种无需额外训练的投机解码方法,将解码过程中被拒绝的候选 token 存入轻量邻接矩阵,通过 BFS 算法构建 draft tree 并用 tree attention 验证,仅需 <2MB 存储即在所有规模 LLM 上实现约 2 倍加速。

ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models

提出 ToolCoder 框架,将工具学习重新定义为代码生成任务,借鉴软件工程原则(需求分析→模块化设计→实现执行→错误调试→代码复用)让 LLM 通过生成和执行 Python 代码来完成多步工具调用,在 RestBench 和 API-Bank 上全面超越 ReAct、CodeAct 等基线方法。

ToolSpectrum: Towards Personalized Tool Utilization for Large Language Models

提出ToolSpectrum基准,首次定义并评估LLM的个性化工具使用能力——根据用户画像和环境因素选择最合适的工具,实验表明个性化显著提升用户体验,但现有LLM在联合推理用户和环境因素时能力有限。

Towards Enhanced Immersion and Agency for LLM-based Interactive Drama

提出沉浸感-代理感(Immersion-Agency)范式来理解LLM交互式戏剧,并设计Playwriting-guided Generation和Plot-based Reflection两种方法分别增强故事生成质量和玩家对故事的影响力。

Towards Harmonized Uncertainty Estimation for Large Language Models

提出 CUE 框架,通过训练一个与目标 LLM 性能对齐的轻量级分类器(Corrector)来校正现有不确定性估计方法的分数,在指示性、精确-召回平衡和校准三个维度上实现协调一致的改进,最高提升达 60%。

Towards Style Alignment in Cross-Cultural Translation

本文首次将"风格对齐"定义为跨文化翻译的核心目标,系统揭示了 LLM 翻译中的风格中性化偏差和英语中心偏差,并提出 RASTA 方法在嵌入空间中学习文化对齐映射来检索风格匹配的少样本示例,在不降低翻译质量的前提下将风格对齐度提升最高 56%。

Training-free LLM Merging for Multi-task Learning

提出Hi-Merging,一种层级迭代式无训练模型合并方法,通过模型级和层级的剪枝与缩放操作,结合贡献度分析来识别和解决参数冲突,将不同任务/语言的专用LLM合并为统一的多任务模型,在大多数场景下超越混合数据微调的基线。

Training Language Model to Critique for Better Refinement

提出 Refinement-oriented Critique Optimization(RCO),以"批判效用"(Critique Utility, CU)——即批判导致的精炼改善比例——作为奖励信号训练 critic 模型,通过 DPO 变体的 MSE 目标函数优化,无需直接评估批判质量;在对话生成、摘要、问答、数学推理、代码生成 5 个任务上,RCO 训练的 7B/13B critic 模型在 CU 和 RQS 指标上显著超过 70B 基线模型和 DPCO 方法。

Transforming Podcast Preview Generation: From Expert Models to LLM-Based Systems

Spotify 提出用 LLM(Gemini 1.5 Pro)替代传统多模型特征工程流水线来生成播客预览片段,在离线人工评估和线上 A/B 测试中均显著优于传统系统,用户互动时长提升 4.6%,处理效率提升 5 倍。

TRATES: Trait-Specific Rubric-Assisted Cross-Prompt Essay Scoring

提出 TRATES 框架,重新定义 LLM 在自动作文评分中的角色——从直接评分者转变为特质特征生成器与提取器,通过 LLM 将评分标准(rubric)自动转化为评估问题(子特质),结合通用写作质量特征和提示特定特征训练回归模型,在 ASAP 数据集 8 个特质上全部达到 SOTA,且首次在 ELLIPSE 数据集上建立跨提示特质评分基线。

TReMu: Towards Neuro-Symbolic Temporal Reasoning for LLM-Agents with Memory in Multi-Session Dialogues

提出TReMu框架,通过时间感知记忆化(时间线摘要)和神经符号时间推理(LLM生成Python代码执行时间计算),将GPT-4o在多会话对话时间推理基准上的准确率从29.83%提升到77.67%。

TrimLLM: Progressive Layer Dropping for Domain-Specific LLMs

提出TrimLLM,基于层级专业化(layer-wise specialization)现象,在领域微调过程中渐进式丢弃对目标领域不重要的层,在50-60%压缩率下无精度损失且获得2.1-5.7倍推理加速,且不依赖专用硬件。

UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable Questions

提出双语不可回答问题数据集UAQFact(13,970题),每个问题附带知识图谱事实知识,定义三个评估任务分别衡量LLM区分不可回答问题(UAQ)与可回答问题(ABQ)、利用内部/外部事实知识处理UAQ的能力,实验揭示即使LLM已存储相关知识也难以有效利用。

Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical Elements

首次系统评估 LLM 对英语指示词(I/you/here/tomorrow)的理解能力,构建 1600 条 2×2 因素设计的评测集,揭示 LLM 在 you/here/tomorrow 上严重依赖无关上下文信息而非语法规则,且引号对不同指示词的影响方向截然相反。

Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?

本文系统研究了长上下文 ICL 中增加示例数量对 LLM 预测不确定性的影响,通过不确定性分解揭示性能提升主要源于认知不确定性(EU)的降低,并从残差流投影角度解释了不确定性减少的内部机制。

Understanding and Meeting Practitioner Needs When Measuring Representational Harms Caused by LLM-Based Systems

通过对 12 位负责评估 LLM 系统表征性伤害(representational harms)的从业者进行半结构化访谈,发现公开可用的测量工具普遍无法满足实践者需求——要么因效度/特异性不足而"不好用"(not useful),要么因组织/制度壁垒而"用不了"(not used),并基于测量理论和实用测量框架提出系统性改进建议。

Understanding Silent Data Corruption in LLM Training

本文首次系统研究了真实世界静默数据损坏(SDC)对LLM训练的影响,通过将不健康节点与健康节点配对并引入同步机制,在子模块计算、单步梯度、累积训练三个层面揭示了SDC的特征和影响模式。

Understanding the Dark Side of LLMs' Intrinsic Self-Correction

本文系统研究了 LLM 内在自我纠错(intrinsic self-correction)的失败现象,提出三种可解释性方法揭示失败原因——简单任务中的答案动摇和提示偏差、复杂任务中的类人认知偏差,并提出问题重复和少样本 SFT 两种简单有效的缓解策略。

Understanding the Repeat Curse in Large Language Models from a Feature Perspective

从机制可解释性角度研究 LLM 重复生成问题(Repeat Curse),用 Sparse Autoencoder 提取单语义特征,定位中间层和最终层的"重复特征",激活它们可诱导重复、关闭它们可缓解重复且不损害模型性能。

Uni-Retrieval: A Multi-Style Retrieval Framework for STEM's Education

本文提出面向 STEM 教育场景的多风格多模态检索任务和数据集 SER(24,000+ 查询对),以及基于 Prompt Bank 的轻量检索模型 Uni-Retrieval,通过原型学习提取查询风格特征并动态选择提示向量来增强不同风格(文本、草图、艺术、低分辨率、语音)的检索性能,在 STEM 教育检索和传统检索数据集上均超越已有方法。

Unintended Harms of Value-Aligned LLMs: Psychological and Empirical Insights

本文首次系统揭示了基于Schwartz价值观对齐的LLM存在非预期安全风险——特定价值维度与特定安全风险类别显著相关,并从心理学视角解释了这些关联的根源,进而提出通过提示抑制相关价值来降低有害行为的缓解策略。

ScaleQuest: Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch

提出 ScaleQuest,通过 Question Fine-Tuning (QFT) + Question Preference Optimization (QPO) 两阶段训练将 7B 解题模型变为出题模型,从零合成 100 万高质量数学问题-解答对,在四个基准上全面超越所有开源数据集,且数据量扩展至 1M 时性能持续提升未见饱和。

Unlocking Recursive Thinking of LLMs: Alignment via Refinement

提出 AvR(Alignment via Refinement)两阶段框架,通过细化感知奖励(refinement-aware reward)和差分学习,让 LLM 学会"批评→改进"的递归思维能力,仅用 10k 数据即在 AlpacaEval 2 上将 LLaMA-3-8B-Instruct 的胜率提升超 26 个百分点。

UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization

提出UnSeenTimeQA——一个基于合成事实(而非真实世界事件)的时间敏感问答基准,通过避免网络可搜索的查询来消除数据污染风险,设计了三类时间推理问题来评估LLM的真实时序推理能力,发现LLM在长程事件依赖和并行事件推理上表现较差。

Unveiling Dual Quality in Product Reviews: An NLP-Based Approach

提出面向产品评论的"双重质量"自动检测任务,通过迭代式主动学习构建首个波兰语DQ数据集(1,957条评论),系统对比SetFit、Transformer编码器和LLM三类方法,发现语言专用编码器与带指令的LLM性能相当(DQ F1 ≈ 80-83%),并验证了跨语言迁移能力。

Value Portrait: Assessing Language Models' Values through Psychometrically and Ecologically Valid Items

提出Value Portrait基准,通过心理测量学验证(每个测试项与真实人类价值观得分的相关性)和生态效度设计(基于真实用户-LLM交互场景),系统评估44个LLM的价值取向,发现模型普遍优先仁慈、安全和自我导向价值,同时揭露了模型对不同人口群体的价值认知偏见。

Veracity Bias and Beyond: Uncovering LLMs' Hidden Beliefs in Problem-Solving Reasoning

揭示了 LLM 在推理任务中存在"真实性偏见"(Veracity Bias)——尽管显式对齐反对刻板印象,LLM 仍系统性地将正确答案归因于特定种族群体(归因偏差),并对相同解答因"作者"种族不同给出不同评价(评估偏差),在数学、编程、常识推理和写作任务中普遍存在。

Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System

提出 VirSci 多 agent 系统,用真实科学家数据构建虚拟科研生态,通过 5 步协作流程和创新的组间+组内讨论机制生成科学 idea,在新颖性和潜在影响力上显著超越单 agent 系统。

WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models

提出 WarriorCoder,通过构建多个专家代码 LLM 之间的竞技场(arena),让攻击者用自身擅长的领域挑战防御者,由裁判评估后用胜者回答训练目标模型,从而无需依赖专有模型或预存数据集即可从零生成高质量、高多样性的代码训练数据,实现 SOTA 性能。

What Happened in LLM Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

本文从梯度的视角系统地研究了 LLM 各层在训练快思考(无/简短 CoT)vs 慢思考(详细 CoT)数据时的行为差异,发现慢思考训练导致梯度在各层间更均匀稳定,而快思考导致更大的梯度和更剧烈的层间波动,且慢思考的梯度模式能区分正确与不相关的推理路径。

When Large Language Models Meet Speech: A Survey on Integration Approaches

系统综述语音与大语言模型的集成方法,将现有工作分为文本级、隐表示级、音频token级三大类,覆盖 ASR/S2TT/S2ST/TTS 等应用场景,并给出各方法的优劣对比与未来挑战。

When to Speak, When to Abstain: Contrastive Decoding with Abstention

提出 CDA(Contrastive Decoding with Abstention),一种免训练解码方法,通过熵校准的不确定性估计让 LLM 在参数/上下文知识可用时生成正确回答、在两者都不可靠时主动弃权,覆盖全部四种知识可用性场景。

Which Demographics Do LLMs Default to During Annotation?

通过对比 LLM 在无人口统计信息(N)、有人口统计(SD)、安慰剂信息(P)三种 prompt 条件下的标注行为,揭示 LLM 在主观标注任务(冒犯性/礼貌性)中默认更接近白人、年轻、高学历群体的标注模式,且人口统计 prompting 确实产生了比安慰剂信息更系统性的影响。

Why Are Positional Encodings Nonessential for Deep Autoregressive Transformers? Revisiting a Petroglyph

重新阐释并溯源一个 pre-LLM 时代已知但被遗忘的结论——多层自回归 Transformer 语言模型无需显式位置编码即可区分排列序列,因为级联的(排列不变的)集合处理器在因果掩码下集体展现出完全位置敏感性;同时反思了 LLM 时代的知识断层和引用偏差。

Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement

发现 LLM 作为判别器时能准确识别越狱请求、但作为生成器时却仍产出有害内容的"判别-生成安全差距",提出免训练的 SAGE(Self-Aware Guard Enhancement)策略,通过判别分析模块和判别响应模块将模型自身的安全鉴别能力桥接到生成行为,在 6 个模型上达到平均 99% 的防御成功率。

Why Prompt Design Matters and Works: A Complexity Analysis of Prompt Search Space in LLMs

从理论角度分析 prompt 在 LLM 推理中的作用机制——证明 prompt 充当"选择器"从隐藏状态中提取任务相关信息并定义答案空间中的轨迹,分析了最优 prompt 搜索空间的复杂度,并通过实验验证了最优 prompt 搜索可带来 50%+ 的推理性能提升。

Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

揭示了安全对齐LLM的一个普遍现象:安全机制过度锚定在chat template区域(TASA),导致越狱攻击可通过干扰template区域的信息处理来绕过安全防线,并提出通过将安全探针从template区域迁移到生成阶段来缓解该漏洞。

X-Turing: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

提出 X-Turing 框架,通过引入 burst 对话模式和伪对话生成技术来增强和高效化图灵测试,能够评估 LLM 在长期对话中的人类模仿能力,发现 LLM 随着对话轮次增加表现显著下降。

Zero-Shot Belief: A Hard Problem for LLMs

本文提出统一式(Unified)和混合式(Hybrid)两种零样本框架用于源-目标信念预测(source-and-target belief prediction),混合方法使用微调 DeBERTa 做事件检测 + LLM 做信念标注,在 FactBank 上以 72.0% Full F1 刷新 SOTA,同时首次报告嵌套信念指标(Nested F1 仅 25.3%),揭示该子任务对当前所有 LLM 仍是极大挑战。