跳转至

📂 其他

💬 ACL2025 · 184 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (105) · 🔬 ICLR2026 (115) · 💬 ACL2026 (3) · 🧪 ICML2026 (70) · 🤖 AAAI2026 (117) · 🧠 NeurIPS2025 (121)

🔥 高频主题: 对话系统 ×9 · 推理 ×8 · 对齐/RLHF ×7 · 少样本学习 ×4 · Agent ×4

Barec: A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment

构建 Barec——首个大规模、平衡、细粒度的阿拉伯语可读性评估语料库(69K+ 句子、100 万+词、19 个等级),由 6 名专业教育者标注,并基准测试了 4 种阿拉伯语 BERT 模型 × 4 种输入变体 × 5 种损失函数,发现形态学分词输入 D3Tok 配合回归损失在 QWK 上达到 84.0%。

A Little Human Data Goes A Long Way

通过在8个事实验证和问答数据集上的大规模实验,证明了在合成数据中混入极少量人工标注数据(甚至仅125个样本)就能显著提升模型性能,替换最后10%的人工数据会导致性能严重下降,且200条人工数据的增益需要数量级更多的合成数据才能匹配。

A Measure of the System Dependence of Automated Metrics

指出机器翻译自动评估指标存在被忽视的"系统依赖性"问题:同一指标分数对不同翻译系统对应不同的人类评分,提出 SysDep 度量来量化这一效应,揭示即使是 WMT23 最佳指标 XCOMET 也存在严重的系统依赖性导致错误排名。

A Multi-Persona Framework for Argument Quality Assessment

本文提出 MPAQ 框架,通过大语言模型模拟多个不同评估者视角(persona),对论点进行多角度质量评估,并设计粗到细的评分策略(先整数再小数),在 IBM-Rank-30k 和 IBM-ArgQ-5.3kArgs 数据集上显著超越现有基线,同时提供了可解释的多视角评估理由。

A New Formulation of Zipf's Meaning-Frequency Law through Contextual Diversity

本文提出将 Zipf 语义-频率定律重新形式化为词频与上下文多样性之间的幂律关系,通过语言模型生成的上下文化词向量方向来量化词义数量,发现该定律在小规模语言模型中不可观测,且自回归 LM 需要比掩码 LM 多得多的参数才能呈现该定律。

A Practical Approach for Building Production-Grade Conversational Agents with Workflow Graphs

提出基于有向无环图(DAG)的工作流框架,通过将LLM agent的复杂业务约束分解到图中不同状态节点,并结合响应掩码微调策略,构建满足生产级要求的电商对话代理,在任务准确率和格式遵循方面均大幅超越GPT-4o基线。

A Spatio-Temporal Point Process for Fine-Grained Modeling of Reading Behavior

本文提出基于标记时空点过程(marked spatio-temporal point process)的阅读行为统一概率模型,同时建模注视何时发生、落在哪里、持续多久,避免传统聚合测量的信息损失,发现 surprisal 对细粒度眼动的预测贡献极其有限。

ACORD: An Expert-Annotated Retrieval Dataset for Legal Contract Clause Retrieval

构建首个面向合同起草的专家标注条款检索基准ACORD(114查询、126K+对、1-5星评分),评估20种检索方法发现BM25+GPT-4o pointwise重排序最优(NDCG@5=76.9%),但高质量条款精度极低(5星precision@5仅17.2%),揭示模型距真实律师需求的巨大差距。

Adaptive Feature-based Low Rank Plus Sparse Decomposition for Subspace Clustering

本文提出一种自适应特征驱动的低秩加稀疏矩阵分解方法,通过在特征空间中自适应学习低秩和稀疏成分的权重,解决子空间聚类中噪声鲁棒性和特征判别力不足的问题。

Adaptive Retrieval without Self-Knowledge? Bringing Uncertainty Back Home

对 35 种自适应检索方法(含 8 种最新方法和 27 种不确定性估计方法)进行了全面评测,发现经典的不确定性估计技术在效率和自知能力方面往往优于复杂的专用流水线,同时保持相当的 QA 性能。

Advancing Sequential Numerical Prediction in Autoregressive Models

提出Numerical Token Integrity Loss (NTIL)——一种双层级数值预测损失函数,在token级别用指数位置加权的EMD替代交叉熵以保持数值有序性,在序列级别通过可微数值构造进行整体数值偏差惩罚,在目标检测、文字检测、数学推理和时钟识别等任务上显著提升自回归模型的数值预测精度。

AIDE: Attribute-Guided Multi-Hop Data Expansion for Data Scarcity in Task-Specific Fine-tuning

提出AIDE框架,通过"属性引导+Persona增强+残差连接"的多跳数据扩展机制,从仅10个种子样本生成约3K条高质量任务特定训练数据,微调Mistral-7B后在zero-shot上平均超越人工标注数据微调6%、超越Evol-Instruct等SOTA方法30%。

ALGEN: Few-Shot Inversion Attacks on Textual Embeddings via Cross-Model Alignment

本文提出ALGEN,一种少样本文本嵌入反转攻击方法,通过将受害者的嵌入空间与攻击者的嵌入空间进行线性对齐,再利用训练好的嵌入到文本生成器重建原始文本,仅需1个泄露样本即可发起部分成功的攻击,1000个样本时Rouge-L达45.75。

An Analysis of Datasets, Metrics and Models in Keyphrase Generation

对关键短语生成(keyphrase generation)领域50+篇论文进行系统性分析,揭示了基准数据集高度相似、评估指标计算不一致导致性能被高估等关键问题,并发布了一个强力PLM-based模型以促进未来研究。

Anything Goes? A Crosslinguistic Study of (Im)possible Language Learning in LMs

在12种语言上训练GPT-2 small,系统性测试语言模型是否能区分可能语言(自然语言)与不可能语言(打乱词序等),发现LM展现出部分类人的学习偏向但并非完美——能在单语言内区分但无法跨语言完全分离,而名词短语词序实验中泛化测试(而非困惑度)能反映类型学偏好。

Are Any-to-Any Models More Consistent Across Modality Transfers Than Specialists?

本文提出 ACON 数据集和三种一致性评估标准(循环一致性、前向等变性、共轭等变性),发现当前 any-to-any 模型在逐点评估中并不比专用模型组合更具跨模态一致性,但通过多编辑操作的分布式分析可以观察到弱一致性。

Attention Entropy is a Key Factor for Parallel Context Encoding

发现并行上下文编码导致 query token 的注意力熵异常升高是性能下降的关键因素,并提出 Attention Sink 共享前缀和 Selective Attention 两种免微调方法有效缓解该问题。

Autalic: A Dataset for Anti-Autistic Ableist Language In Context

提出 Autalic——首个专注于上下文中反自闭症残障歧视语言检测的数据集,包含 2,400 条 Reddit 句子及上下文标注,由神经多样性背景的专家标注,实验揭示当前 LLM(包括 DeepSeek、Llama3、Gemma2、Mistral)在识别反自闭症歧视语言时与人类判断严重不一致(平均 Cohen's Kappa 仅 0.091),凸显该任务的困难性。

AutoMixer: Checkpoint Artifacts as Automatic Data Mixers

提出 AutoMixer 框架,利用训练过程中保存的检查点模型作为"数据混合器",通过聚合多检查点的一阶影响函数近似来重新分组和加权训练数据,在八个推理基准上取得最高 1.93% 的性能提升。

Battling against Tough Resister: Strategy Planning with Adversarial Game for Non-collaborative Dialogues

本文提出一种基于对抗博弈的策略规划框架,用于处理非合作对话(如说服、谈判)中面对顽固对手时的策略选择问题,通过建模对话双方的对抗动态来生成更有效的说服策略。

Behavioural vs. Representational Systematicity in End-to-End Models: An Opinionated Survey

这篇观点性综述区分了行为系统性(模型能否正确泛化到新组合)和表征系统性(模型内部表征是否结构化),用 Hadley 的弱/准/强三级分类审视了语言和视觉领域的主流基准,发现大多数现有基准仅测试弱或准系统性,并呼吁通过机械可解释性方法弥补行为与表征评估的鸿沟。

Beyond Position: the emergence of wavelet-like properties in Transformers

通过频率分析和小波分解,揭示了使用 RoPE 位置编码的 Transformer 模型中注意力头自发涌现出类小波(wavelet-like)的多分辨率处理特性,以弥补 RoPE 在位置精度和频率分辨率之间的固有权衡。

Bregman Conditional Random Fields: Sequence Labeling with Parallelizable Inference

提出 Bregman CRF (Bcrf),一种基于均值正则化(mean regularization)的新型序列标注判别模型,使用迭代 Bregman 投影实现可并行化的推理算法,替代传统 CRF 中固有顺序的 Viterbi/Forward 算法,在 POS/NER/分词任务上性能与标准 CRF 持平但更快,且在有禁止标签转移约束的场景下优于 Mean Field 方法。

CADReview: Automatically Reviewing CAD Programs with Error Detection and Correction

提出 CAD 程序审查任务及 ReCAD 框架,基于参考图像自动检测 CAD 程序中的错误并生成修正反馈,构建了包含 20K+ 样本(8 类错误)的 CADReview 数据集。

Can Uniform Meaning Representation Help GPT-4 Translate from Indigenous Languages?

探索将统一意义表示(UMR)语义图纳入 GPT-4 提示中,翻译三种原住民语言(纳瓦霍语、阿拉帕霍语、库卡马语),发现在大多数情况下 UMR 的加入带来统计显著的性能提升。

Capacity Matters: A Proof-of-Concept for Transformer Memorization on Real-World Data

本文以SNOMED医学知识图谱为数据源,系统研究了decoder-only Transformer在结构化数据上的记忆容量,发现嵌入维度是决定学习速度和容量的主要因素,而增加层数收效甚微,Softmax激活函数表现最稳定。

Causal Estimation of Tokenisation Bias

本文首次将 tokeniser 选择对语言模型输出的影响定义为"分词偏差"(tokenisation bias),并利用因果推断中的断点回归设计(RDD)来量化这一效应——发现当一个 subword 被纳入词表时,其对应字符串的概率最高可提升 17 倍(小模型),揭示分词是语言建模中一个被低估的关键设计选择。

Cautious Next Token Prediction

提出 Cautious Next Token Prediction (CNTP),一种无需训练的自适应解码策略:在模型预测熵较高(不确定)时采样多条候选路径至标点处,选择困惑度最低的路径作为最终续写,从而在不牺牲多样性的前提下显著提升准确性。

ChuLo: Chunk-Level Key Information Representation for Long Document Understanding

ChuLo 的核心不是单纯把长文档切小,而是先在全文范围内找出最关键的语义短语,再把这些关键信息重新注入每个 chunk 的表示里,从而在只用紧凑块表示的前提下,同时保住全局语义和细粒度 token 信息。

CiteEval: Principle-Driven Citation Evaluation for Source Attribution

本文提出 CiteEval,一个基于原则驱动的引用评估框架,通过考虑完整检索上下文、超越检索的多种上下文以及细粒度评价标准,构建了 CiteBench 基准和 CiteEval-Auto 自动指标,在引用质量评估上显著优于基于 NLI 的现有方法。

CLaC at SemEval-2025 Task 6: A Multi-Architecture Approach for Corporate Environmental Promise Verification

本文针对SemEval-2025 Task 6(PromiseEval)的企业ESG报告承诺验证任务,探索了三种递进的模型架构:ESG-BERT基线、语言特征增强版、以及融合注意力池化和多目标学习的联合子任务模型,最终以0.5268的私榜分数略超基线(0.5227),验证了语言特征工程和多任务学习在ESG承诺验证中的有效性。

CoachMe: Decoding Sport Elements with a Reference-Based Coaching Instruction Generation Model

提出 CoachMe,通过对比学习者动作与参考动作的差异(时间+物理两个维度),自动生成运动特异性的教练指导文本,在花样滑冰和拳击上分别超过 GPT-4o 31.6% 和 58.3%(G-Eval)。

CoAM: Corpus of All-Type Multiword Expressions

构建了一个高质量的全类型多词表达(MWE)识别数据集 CoAM(1.3K句),通过多步质量保障流程解决了现有数据集标注不一致的问题,并发现微调大语言模型在 MWE 识别任务上显著优于此前的 SOTA 方法 MWEasWSD。

Code-Switching and Syntax: A Large-Scale Experiment

本文通过大规模、多语言、跨现象的实验,首次系统性验证了"句法信息足以解释语码转换(code-switching)模式"这一语言学共识,仅用句法特征就能达到与双语人类相当的判断准确率,且学到的句法模式可泛化到未见过的语言对。

Completing A Systematic Review in Hours instead of Months with Interactive AI Agents

提出 InsightAgent,一个以人为中心的交互式多 Agent 系统,通过语义聚类分区、多 agent 并行阅读和实时用户交互,将医学系统综述的撰写时间从数月缩短到约 1.5 小时,达到人类撰写质量的 79.7%。

CONFETTI: Conversational Function-Calling Evaluation Through Turn-Level Interactions

CONFETTI 提出了一个面向多轮对话场景的函数调用(function-calling)评测基准,包含 109 段人类模拟对话、313 个用户轮次和 86 个 API,通过 off-policy turn-level 评估和 dialog act 标注系统性地测试 LLM 在复杂对话场景下的工具调用能力,发现即便最强模型(Nova Pro)也仅达 40% 左右,链式调用更是普遍短板。

Consistent Client Simulation for Motivational Interviewing-based Counseling

提出一种面向动机性访谈(MI)心理咨询的一致性客户模拟框架,通过状态转换、行动选择、信息选择和回复生成四个模块,确保模拟客户的行为与其预设的画像(动机、信念、改变计划、配合度)保持一致,在自动和专家评估中均优于基线方法。

Contextual Experience Replay for Self-Improvement of Language Agents

CER(Contextual Experience Replay)提出了一个无需训练的语言 agent 自我改进框架,通过将过去的交互经验累积并合成为动态记忆缓冲区,在推理时让 agent 检索相关知识来增强新任务的决策,在 WebArena 上相对 GPT-4o baseline 提升了 51.0% 的成功率。

CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter

CORAL 通过跨步表示对齐(CSRA)改进多步训练中 draft 模型的特征一致性,并用权重分组机制压缩大词表 LM head 的推理延迟,在 LLaMA3/Qwen2.5 上实现 2.50-4.07× 加速,超越 EAGLE-2 和 HASS。

Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

通过逐样本优化方法将文本压缩到可训练的 [mem] 向量中,发现 Llama-3.1-8B 可以将 1568 个 token 无损压缩到单个输入向量中,揭示了现有方法(约 x10 压缩比)与实际可达极限(x1500+)之间存在两个数量级的差距。

DAPE V2: Process Attention Score as Feature Map for Length Extrapolation

本文将 Transformer 的注意力分数视为特征图,通过在注意力分数上施加卷积操作(而非简单的 key-query 点积)来显著提升 Transformer 在长序列上的长度外推能力,将外推问题转化为经典的图像特征处理问题。

Decoding Reading Goals from Eye Movements

本文首次提出从眼动轨迹中解码读者阅读目标(信息检索 vs. 普通阅读)的任务,通过 12 种模型的系统比较发现基于 Transformer 的扫视路径+语言建模方案(RoBERTa-Eye-F)最优,可在阅读早期即实现高精度实时预测。

DeepRTL2: A Versatile Model for RTL-Related Tasks

DeepRTL2是首个统一处理RTL(寄存器传输级)相关生成任务与嵌入任务的LLM,通过精心构建的数据集和GRIT训练策略,在代码生成、代码理解、自然语言代码搜索、功能等价检查和性能预测五大任务上达到SOTA。

Detecting Sockpuppetry on Wikipedia Using Meta-Learning

本文将元学习(meta-learning)应用于维基百科的恶意马甲账号(sockpuppet)检测任务,通过跨多个马甲组的训练优化模型的快速适应能力,在数据稀缺场景下显著提升了检测精度,并发布了新的马甲调查数据集。

Developmentally-plausible Working Memory Shapes a Critical Period for Language Acquisition

受"Less-is-More"假说启发,本文提出 DynamicLimit-Exp 方法,将人类工作记忆在关键期内的指数增长特征集成到语言模型训练中(通过动态调节 ALiBi 斜率),在 Child-Directed Speech 数据上训练的 GPT-2 模型在句法评估中显著优于无记忆约束和静态约束的基线。

Digital Gatekeepers: Google's Role in Curating Hashtags and Subreddits

本文通过对比 Google 搜索引擎返回的 hashtag 和 subreddit 结果与 Reddit 和 Twitter/X 的非采样数据,揭示了 Google 的算法系统性地压制了与色情、阴谋论、广告和加密货币相关的内容,同时推广高参与度内容,从而充当"数字守门人"影响公众话语。

Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction

本文提出了一个通过成对排序器预测学生选择倾向、再利用DPO训练干扰项生成器的三步流水线,使生成的多选题干扰项更具有迷惑性和区分度。

Do not Abstain! Identify and Solve the Uncertainty

本文提出ConfuseBench基准和基于inquiry answer唯一性判断不确定性来源的方法,并通过InteractDPO在策略训练中动态生成偏好对来提升inquiry质量,使LLM能主动识别并解决不确定性而非简单回避。

Dolphin: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback

提出 Dolphin,一个闭环自动科研框架,包含"想法生成→实验验证→结果反馈"三阶段循环,通过任务属性引导的论文排序和异常回溯引导的调试流程,在 3D 分类等任务上自动提出并验证了接近人类设计 SOTA 的方法。

DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing

发布DREsS大规模标准化评分准则数据集,包含三个子集(DREsS_New真实课堂数据1.7K + DREsS_Std标准化历史数据集6.5K + DREsS_CASE增强数据40.1K),提出基于腐蚀的作文增强策略CASE,将BERT基线的QWK分数从0.471提升至0.685(提升45.44%)。

DRS: Deep Question Reformulation With Structured Output

提出 DRS(Deep Question Reformulation with Structured Output),一种零样本方法,通过实体驱动的 DFS 搜索 + 结构化输出约束,将 GPT-3.5 的问题重构准确率从 23.03% 提升至 70.42%,使 LLM 能有效帮助用户将不可回答的问题转化为可回答的形式。

Enhancing Transformers for Generalizable First-Order Logical Entailment

系统性研究 Transformer 在一阶逻辑蕴涵任务中的泛化推理能力,揭示了查询语法、token 嵌入和 Transformer 架构(特别是位置编码)的影响,并提出 TEGA(Transformer Encoder with Guided Attention)在相对位置编码设定下显著提升逻辑推理性能。

Enhancing Marker Scoring Accuracy through Ordinal Confidence Modelling in Educational Assessments

本文提出了一种基于核加权序数分类交叉熵(KWOCCE)的置信度建模方法,通过利用 CEFR 等级的序数结构和分数分箱策略,实现最高 47% 评分在 100% CEFR 一致性下释放,99% 在 ≥95% 一致性下释放,显著优于无置信度过滤时的约 92%。

Entailed Between the Lines: Incorporating Implication into NLI

形式化定义"隐含蕴涵"(implied entailment)任务,将传统NLI的三分类扩展为四分类(隐式蕴涵/显式蕴涵/中立/矛盾),构建包含10K前提和40K假设的INLI数据集,实验表明微调后的模型能有效识别隐含蕴涵并跨领域泛化。

Entropy-UID: A Method for Optimizing Information Density

提出 Entropy-UID 方法,在自回归语言模型的解码过程中联合最小化熵和 surprisal 的加权组合,以实现信息密度的均匀分布。在 WikiText-2、OpenWebText 和 WMT 数据集上,该方法实现了最低的熵标准差(≈2.8)和稳定的 surprisal(≈5.7),优于单目标优化策略。

EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding

提出 EpiCoDe,一种结合模型外推(Model Extrapolation)和对比解码(Contrastive Decoding)的无训练方法,在数据稀缺场景中通过参数空间外推和推理时logit差异对比来提升微调模型性能,并从logit误差角度给出了理论分析框架。

ERU-KG: Efficient Reference-aligned Unsupervised Keyphrase Generation

ERU-KG 提出了一个由信息量模块和短语性模块组成的无监督关键短语生成框架,通过参考文本(查询、引用上下文、标题)在词项级别学习信息量估计,在关键短语生成基准上超越所有无监督基线并达到有监督模型 89% 的性能,同时推理速度最快。

Evaluating Design Decisions for Dual Encoder-based Entity Disambiguation

系统评估了 Dual Encoder 在实体消歧(ED)任务中的关键设计选择(损失函数、相似度度量、标签语义化格式、负采样策略),并基于最优设计构建了 VerbalizED 系统,在 ZELDA 基准上达到了新的 SOTA,同时探索了一种迭代预测策略来利用已消歧的邻居实体改进困难样本。

Evaluating the Evaluation of Diversity in Commonsense Generation

对常识生成(GCR)任务中的12种多样性评估指标进行系统元评估,发现基于形式(n-gram)的指标在低质量生成上严重高估多样性,而基于内容(句子嵌入)的指标与人类判断一致性更高,推荐未来 GCR 研究使用 VS-Embed 或 Chamfer Distance 等内容级指标。

Explaining Matters: Leveraging Definitions and Semantic Expansion for Sexism Detection

针对在线性别歧视检测中的数据稀疏和细粒度分类歧义问题,提出两种基于prompt的数据增强技术——定义驱动数据增强(DDA)利用类别定义生成语义对齐的合成样本,上下文语义扩展(CSE)通过分析模型错误的语义特征丰富训练数据——并结合 Mistral-7B 回退集成策略,在 EDOS 数据集上实现全任务 SOTA。

FastMCTS: A Simple Sampling Strategy for Data Synthesis

FastMCTS 提出了一种受 MCTS 启发的轻量级推理数据合成策略,通过自适应停留策略、动态探索和保留模拟三个改进,比拒绝采样多生成 30% 以上的正确推理路径,训练出的模型在多个数学基准上平均提升 3.9%。

FRACTAL: Fine-Grained Scoring from Aggregate Text Labels

提出 FRACTAL 方法,将回复级别(response-level)的聚合标签分解为句子级别(sentence-level)的伪标签,利用多实例学习(MIL)和标签比例学习(LLP)技术结合先验信息(文档-句子余弦相似度)训练句子级评分模型,覆盖检索、问答、摘要和数学推理四类任务。

Frictional Agent Alignment Framework: Slow Down and Don't Break Things

提出摩擦对齐框架 FAAF(Frictional Agent Alignment Framework),通过双策略(frictive state policy + intervention policy)目标函数,训练 LLM 在协作对话中识别信念冲突并生成促进反思与审议的"摩擦"干预,超越 DPO/IPO/PPO 等对齐方法。

From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding

本文提出"归因式接地"(Attributed Grounding)框架,通过自顶向下的用户归因和自底向上的基于网络文档的指令合成,构建了一个包含 100 万条多样且复杂指令的 SynthQuestions 数据集,训练模型在多个通用基准上达到领先表现。

GA-S3: Comprehensive Social Network Simulation with Group Agents

提出基于"群体智能体"(Group Agent)的社交网络模拟系统 GA-S3,将具有相似行为的个体聚合为群体代理,通过层次化生成、马尔可夫网络推理和行为模块实现大规模社交网络的高效精确模拟。

Generating Synthetic Relational Tabular Data via Structural Causal Models

本文扩展了 TabPFN 的基于结构因果模型(SCM)的合成数据生成方法,提出了一个能够生成多表关联(relational)合成表格数据的框架,通过耦合节点和隐因果关系实现跨表依赖建模。

GeNRe: A French Gender-Neutral Rewriting System Using Collective Nouns

GeNRe 是首个法语性别中性重写系统,利用集体名词(collective nouns)替代阳性泛指(masculine generics),提出规则系统、微调模型和指令模型三种方案,其中规则系统和 Claude 3 Opus + 词典方案效果最好。

GPT-4 as a Homework Tutor can Improve Student Engagement and Learning Outcomes

在意大利高中进行了为期 8 周的随机对照试验(RCT),用 GPT-4 替代传统英语作业作为互动辅导工具,发现 GPT-4 组学生在参与度(有趣性、资源充分性显著提升)和特定条件下的学习增益(三年级 Cohen's d=0.603)方面有所改善,仅需教师提供作业目标和描述即可实施,幻觉率低于 1%,且所有在校学生均表示希望继续使用。

Graph-Structured Trajectory Extraction from Travelogues

提出"访问顺序图"(Visiting Order Graph)来统一表示旅行轨迹中的地理包含层级关系和时序转移关系,构建了覆盖 100 篇日语游记的 ATD-VSO 基准数据集(3354 个地理实体、3369 条关系),并通过基线实验发现地理包含关系预测(F1=0.355)是核心瓶颈,为该领域指明了地理知识融合的关键方向。

Graphically Speaking: Unmasking Abuse in Social Media with Conversation Insights

提出一种基于图注意力网络(GAT)的上下文感知滥用语言检测框架,将 Reddit 对话建模为图结构(节点=评论,边=回复关系),利用基于 Reddit 界面渲染逻辑的 affordance-based 图裁剪策略保留关键上下文,3 层 GAT 模型达到 F1=0.7624,显著优于无上下文基线和扁平化上下文方法,在上下文敏感样本上提升尤为明显(+4.75%)。

Guidelines for Fine-grained Sentence-level Arabic Readability Annotation

本文提出了 BAREC 语料库及其标注指南,这是一个拥有 69K+ 句子、覆盖 19 个可读性等级的大规模阿拉伯语句子级可读性评估资源,并在此基础上建立了自动可读性评估的基准模型。

Hanging in the Balance: Pivotal Moments in Crisis Counseling Conversations

本文提出了一种无监督方法来检测对话中的"关键时刻"(pivotal moments)——即下一步回应可能极大影响对话结局的节点,并在危机心理咨询场景中验证了该方法的有效性。

Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems

本文提出了一种面向企业级领域特定检索的可扩展硬负样本挖掘框架,通过融合多种嵌入模型、PCA 降维和双语义条件筛选来动态选择高质量硬负样本,在内部云服务数据集和公开基准上均取得了显著提升。

HATA: Trainable and Hardware-Efficient Hash-Aware Top-k Attention for Scalable Large Model Inference

HATA 提出了一种将 learning-to-hash 技术集成到 top-k 注意力机制的方法,通过将查询和键映射为二进制哈希码来获取相对 qk 分数排序(而非绝对分数估计),在保持模型精度的同时实现了相对全注意力最高 7.2 倍的加速。

HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling

NVIDIA 发布 HelpSteer3 数据集(7000+标注员、80+国家),训练专用的 Feedback 和 Edit 模型,在推理时通过"初始响应→反馈→编辑"循环实现开放域通用任务的推理时扩展,基于 Llama 3 系列 70B 模型在 Arena Hard 上达到 92.7 分,超越 OpenAI o1-preview (90.4) 和 DeepSeek R1 (92.3)。

Hierarchical Bracketing Encodings for Dependency Parsing as Tagging

提出层次化括号编码家族用于依存句法分析的序列标注范式,证明现有4-bit编码是该家族的非最优特例,推导出仅需12个标签的最优编码,并将其推广到处理任意非投射性。

Hierarchical Memory Organization for Wikipedia Generation

提出 Memory Organization-based Generation(MOG)框架,从网页文档中提取细粒度记忆单元(factoid),通过递归聚类-摘要算法组织为层次化 Wikipedia 大纲结构,使每个章节都有直接的记忆支撑,在 FreshWiki 和 WikiStart 数据集上信息量、引用率和可验证性全面超越 RAG 和 STORM 基线。

Counterspeech the Ultimate Shield! Multi-Conditioned Counterspeech Generation through Attributed Prefix Learning

提出 HiPPrO 两阶段框架用于多条件反仇恨言论生成——第一阶段通过层次化前缀学习在多个属性(策略+情感)空间中优化反言论生成,第二阶段用无参考无奖励的偏好优化提升建设性,策略一致性提升 ~38%,ROUGE 指标提升 2-3%。

How to Mitigate Overfitting in Weak-to-Strong Generalization?

提出两阶段训练框架解决弱到强泛化中的过拟合问题:第一阶段通过基于不确定性的过滤提高弱监督信号质量,第二阶段用已微调的强模型为被丢弃的难题重新生成答案以恢复问题质量,在 GSM8k 和 MATH 上将 PGR 从 7.19% 提升到 120.50%。

Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

本文提出HyPER(混合偏好路由器),通过训练性能预测模型来智能决定每个标注实例应由人类还是AI完成偏好标注,在RewardBench上比纯人类或纯AI标注分别提升7-13%,同时大幅降低标注成本。

I0T: Embedding Standardization Method Towards Zero Modality Gap

提出 I0T 框架,通过发现并消除 CLIP 中图像/文本编码器各自学到的模态特异性特征(表现为归一化嵌入中的峰值激活),将模态差距降低至接近零,同时保持甚至提升下游任务性能,并提出了比 CLIPScore 更具可解释性的自动评估指标 I0T-Score。

If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation?

本文探究 Transformer Grammar(TG)的注意力机制能否作为人类记忆检索的认知模型,通过 Normalized Attention Entropy(NAE)将模型与人类阅读时间关联,发现基于句法结构的注意力比基于 token 的注意力更能解释人类句子处理行为,且两者提供独立互补的贡献。

Predicting Implicit Arguments in Procedural Video Instructions

提出 Implicit-VidSRL 数据集与 iSRL-Qwen2-VL 模型,针对过程性视频指令中省略的隐含论元(食材成分)进行预测,通过 SRL 框架将多步指令分解为 {verb, what, where/with} 三元组,在银标数据上微调后在隐含论元 F1 上超越 GPT-4o 达 17%。

Implicit Reasoning in Transformers is Reasoning through Shortcuts

本文通过在受控的多步数学推理数据集上从零训练 GPT-2,系统研究了语言模型的隐式推理机制,发现隐式推理本质上是基于模式匹配的捷径学习——在固定模式数据上能泛化,在非固定模式数据上则过拟合,这一发现在 SOTA 大模型上同样成立。

Improve Rule Retrieval and Reasoning with Self-Induction and Relevance ReEstimate

针对规则检索中查询(具体实例化事实)与规则(抽象变量形式)之间的语义鸿沟,提出 SIAR(自归纳增强检索)和 R3(规则相关性重评估)两种方法,通过将查询映射到规则语义空间并重新评估规则相关性,显著提升规则检索和下游推理性能。

In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents

本文提出 Reflective Memory Management (RMM) 机制,通过前瞻性反思(多粒度记忆摘要)和回顾性反思(强化学习驱动的在线检索优化)两个方向的结合,为长期个性化对话系统构建了高效的记忆管理框架,在 LongMemEval 上准确率提升超过 10%。

Inducing Lexicons of In-Group Language with Socio-Temporal Context

提出 LISTN(Lexicon Induction with Socio-Temporal Nuance)框架,利用动态词嵌入和用户嵌入联合建模社区语言的社会结构和时间演化,在反女性在线社区(manosphere)的群体内词汇归纳任务上达到 0.77 的平均精度,显著超越现有方法。

Inferring Functionality of Attention Heads from their Parameters

提出MAPS框架,通过将注意力头参数投影到词汇空间构建token映射矩阵\(M\),无需任何推理或训练即可推断注意力头实现的功能,在6个LLM上验证了20种关系操作的映射准确性,并开发自动化pipeline发现了大量此前未被识别的注意力头功能。

Infogen: Generating Complex Statistical Infographics from Documents

提出Infogen框架,将文本文档转化为复杂统计信息图(多子图组合),采用两阶段设计——先用微调LLM生成结构化中间元数据,再用LLM代码生成器和反馈模块迭代生成最终信息图代码。

Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking

提出 Inner Thinking Transformer (ITT),通过自适应 token 路由和残差思维连接,在不增加参数的情况下为关键 token 动态分配更多计算步骤,实现隐式深度推理,162M 参数即可达到 466M Transformer 96.5% 的性能。

Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction

提出 Web Reconstruction (WebR),一种从原始网页文档全自动合成高质量指令微调数据的框架,通过"Web作为指令"和"Web作为回复"双视角范式,无需人工标注即可生成优于现有SOTA的IT数据。

Inter-Passage Verification for Multi-evidence Multi-answer QA

本文提出 RI²VER 框架解决多答案问答(multi-answer QA)问题——先通过独立阅读大量检索段落生成高召回但含噪声的候选答案集,再通过段落间验证(生成验证问题 → 收集额外证据 → 跨段落综合验证)过滤错误答案,在 QAMPARI 和 RoMQA 上平均 F1 提升 11.17%。

Interlocking-free Selective Rationalization Through Genetic-based Learning

本文提出 GenSPP,首个完全消除 interlocking 问题的选择性合理化框架,通过遗传算法对生成器和预测器进行分离优化,在合成数据集和仇恨言论检测任务上显著提升了高亮质量(Hl-F1 提升 6.5%–10.3%),同时保持了可比的分类性能。

Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process

IRIS: Interactive Research Ideation System for Accelerating Scientific Discovery

提出 IRIS,一个开源的交互式研究构思系统,通过蒙特卡洛树搜索(MCTS)扩展测试时计算、细粒度反馈机制和基于查询的文献综合,实现人机协作的科学假设生成。

Is Linguistically-Motivated Data Augmentation Worth It?

系统比较语言学驱动和非语言学(随机扰动)数据增强策略在两种低资源语言上的效果,发现语言学方法仅在生成的样本接近训练数据分布时才有优势,否则可能有害。

Knowledge Tracing in Programming Education Integrating Students' Questions

本文提出 SQKT(Students' Question-based Knowledge Tracing)模型,首次将学生提问和自动提取的技能信息整合到知识追踪中,用于预测编程教育中学生对后续编程题的完成情况,域内实验 AUC 提升高达 33.1%。

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

KodCode 提出一套三阶段合成数据管线(编程题目合成→解决方案+单元测试自验证→后训练数据合成),构建了 447K 经过验证的编程 question-solution-test 三元组,微调后的模型在 HumanEval、MBPP、BigCodeBench、LiveCodeBench 等基准上超越 Qwen2.5-Coder-32B-Instruct 和 DeepSeek-R1-Distill-Llama-70B。

LAQuer: Localized Attribution Queries in Content-grounded Generation

提出 Localized Attribution Queries (LAQuer) 任务——将生成文本中用户选定的片段精确定位到源文档的对应片段,实现比句子级归因更精细、比子句级归因更用户导向的溯源,在多文档摘要和长文本问答上显著减少了归因文本长度。

LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models

提出 LaTIM,一种针对 Mamba-1 和 Mamba-2 的 token 级分解方法,将 SSM 的隐式计算重构为类似 Transformer 注意力的 token-to-token 贡献矩阵,实现对 Mamba 模型的细粒度可解释性分析。

Learning to Reason from Feedback at Test-Time

本文提出FTTT(Feedback at Test-Time Training)范式,将LLM在推理阶段对环境反馈的利用形式化为一个优化问题,并设计了可学习的测试时优化器OpTune,在四个推理数据集上实现了优于现有反馈利用方法的可扩展性和性能。

LegalReasoner: Step-wised Verification-Correction for Legal Judgment Reasoning

本文提出LegalReasoner框架,通过争议焦点识别、分步推理、过程验证器逐步校验以及专家设计的归因纠正策略来增强法律判决预测的可靠性,配合新发布的58130条香港法院案例LegalHK数据集,在LLAMA-3.1-70B上将与法院判决的一致率从72.37%提升至80.27%。

Limited Generalizability in Argument Mining: State-Of-The-Art Models Learn Datasets, Not Arguments

对 4 种 Transformer 模型在 17 个英语句子级论辩挖掘数据集上进行首次大规模跨数据集泛化评估,发现 SOTA 模型主要学到了数据集特有的词汇模式而非论辩的结构性信号,泛化能力远低于基准表现,但任务相关预训练和联合数据训练可部分缓解这一问题。

Map&Make: Schema Guided Text to Table Generation

提出 Map&Make 方法,先将非结构化文本"解剖"为命题原子语句(Map阶段),再从中推导表格模式并填充数据(Make阶段),在 Rotowire 和 Livesum 两个场景上显著提升了文本转表格的质量和可解释性。

Mapping the Podcast Ecosystem with the Structured Podcast Research Corpus

构建并发布了 SPoRC——一个包含 110 万集播客转录的大规模数据集(含元数据、推断的说话者角色和 37 万集的音频特征),并通过话题分析、嘉宾共现网络分析和 George Floyd 事件响应性分析,首次全面刻画了播客生态系统的内容、结构和响应性。

MapQaTor: An Extensible Framework for Efficient Annotation of Map-Based QA Datasets

提出 MapQaTor——一个可扩展的开源 Web 框架,通过集成多种地图 API(Google Maps、OpenStreetMap 等),将地理空间 QA 数据集的标注速度提升至少 30 倍,同时通过 API 响应缓存确保数据可复现性。

Measuring the Effect of Transcription Noise on Downstream Language Understanding Tasks

提出ENDow框架,首次系统化地分析ASR转录噪声对下游NLU任务的影响,通过可配置的pipeline评估不同噪声强度和类型下任务模型的行为,发现命名实体是最关键的词类型,且模型能容忍一定程度的噪声。

Meta-Learning Neural Mechanisms rather than Bayesian Priors

挑战了"元学习在神经网络中蒸馏贝叶斯简单性先验"的主流观点,通过形式语言实验证明元学习实际上是在模型中植入有用的神经机制(如计数器),而非学习简单性偏好。

MEXMA: Token-level Objectives Improve Sentence Representations

提出 MEXMA,一种结合句子级和 token 级目标的跨语言句子编码器训练方法:用一种语言的句子表示去预测另一种语言的被掩码 token,同时让句子和 token 的梯度都直接更新编码器,在双文本挖掘和多项下游任务上超越 SONAR 和 LaBSE。

Minimal Pair-Based Evaluation of Code-Switching

本文提出基于最小对(minimal pairs)的代码切换(code-switching, CS)评估方法,为11个语言对各收集最多1000个最小对,发现双语者和大规模LLM都倾向于自然出现的CS句子,且模型越大偏好越一致,封闭类词的操纵产生最大概率差异。

MIR: Methodology Inspiration Retrieval for Scientific Research Problems

本文定义了方法论启发检索(Methodology Inspiration Retrieval, MIR)新任务——为给定的科研问题检索能提供方法论启发的论文,构建了Methodology Adjacency Graph (MAG)来捕获方法论传承关系,在Recall@3上提升+5.4、mAP上提升+7.8,结合LLM重排序再获+4.5/+4.8的额外提升。

Mitigating Shortcut Learning with InterpoLated Learning

提出 InterpoLated Learning (InterpoLL),通过将多数样本的表示与同类少数样本的表示进行插值,削弱模型对虚假关联(shortcut)的依赖,显著提升少数样本上的泛化能力。

MockConf: A Student Interpretation Dataset: Analysis, Word- and Span-level Alignment and Baselines

本文构建了 MockConf——一个以捷克语为中心的学生同声传译数据集(7 小时,5 种欧洲语言),提供人工标注的 span 级和 word 级对齐,同时发布了专用标注工具 InterAlign,并建立了自动对齐的基线和评估指标体系。

Multi-Facet Blending for Faceted Query-by-Example Retrieval

提出 FaBle(Multi-Facet Blending)数据增强方法,通过对文档进行面向分解(decomposition)、面向生成(generation)、面向重组(recomposition)三阶段,仅用 1K 文档合成出面向条件的训练三元组,在数据稀缺条件下显著提升分面 QBE 检索效果,特别是在最具挑战性的 method 分面上超越了使用 130 万+ 数据训练的强基线。

Multi-Hop Question Generation via Dual-Perspective Keyword Guidance

定义了双视角关键词——问题关键词(捕捉提问者意图)和文档关键词(反映 QA 对相关内容),并提出 DPKG 框架,通过扩展 Transformer 编码器和两个答案感知解码器,将关键词无缝集成到多跳问题生成过程中。

Narrative Media Framing in Political Discourse

将叙事学理论与媒体框架分析相结合,提出了包含角色(英雄/反派/受害者)、冲突/解决、文化故事三个结构化组件的叙事框架分析体系,在气候变化和 COVID-19 两个领域验证了该框架的有效性和可迁移性。

Unifying Continuous and Discrete Text Diffusion with Non-simultaneous Diffusion Processes

提出 NeoDiff,通过引入"外在时间"(句子级扩散进度)和"内在时间"(token 级扩散进度)的双时间框架,利用 Poisson 过程为每个 token 独立分配细粒度噪声水平,并用上下文感知的时间预测器自适应调节去噪进度,统一了离散和连续文本扩散模型的理论框架,在机器翻译、复述、文本简化等多个任务上超越现有扩散基线。

Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer

提出Neural Parameter Search (NPS),通过在task vector的低秩子空间中搜索最优权重系数来提升微调模型的剪枝效率,在知识迁移(+1.5%)、模型融合(+2.1%)和压缩(40%效率提升)三个场景下均取得显著改进。

Neuron Empirical Gradient: Discovering and Quantifying Neurons' Global Linear Controllability

揭示了预训练语言模型 FF 层神经元激活值与模型输出之间存在全局线性关系,提出了神经元经验梯度(NEG)来量化这种线性关系,并设计了高效估算方法 NeurGrad,最终通过技能神经元探测实验证明 NEG 能有效表征多种语言技能。

On Support Samples of Next Word Prediction

基于表示定理(representer theorem),研究语言模型下一词预测中训练样本的角色,发现两类支持样本(促进预测和抑制预测),并证明支持样本是样本的内在属性(训练前即可预测),而非支持样本对表示学习至关重要。

Optimizing Decomposition for Optimal Claim Verification

提出动态分解(Dynamic Decomposition)框架,通过强化学习从验证器反馈中学习分解策略,将声明(claim)分解为验证器偏好的原子性粒度,弥合分解器与验证器之间的性能差距。

Partial Colexifications Improve Concept Embeddings

首次将部分共词化(affix/overlap colexification)引入概念嵌入训练,在语义相似性建模、语义变化预测和词语联想预测三个任务上均优于仅使用完全共词化的基线。

Towards Better Evaluation for Generated Patent Claims

提出首个专利权利要求评估基准 Patent-CE(1228 个专家标注的比较评估数据点)和专用评估方法 PatClaimEval(基于 Longformer + 对比学习变体),在特征完整性、概念清晰度、术语一致性、逻辑连接和整体质量五个维度上与人类专家评估的相关性全面超越 13 种现有指标(包括 G-Eval-4),整体质量维度的 Spearman 提升 58%。

Persistent Homology of Topic Networks for the Prediction of Reader Curiosity

将文本的主题网络结构用持续同调 (Persistent Homology) 量化为拓扑空洞(连通分量、环、空腔),以此作为"信息空白"的代理变量来预测读者好奇心,在《饥饿游戏》小说上实现了 73% 的解释偏差(vs 基线 30%)。

Persona Dynamics: Unveiling the Impact of Personality Traits on Agents in Text-Based Games

提出 PANDA 方法,将人类人格特质(Big Five + Dark Triad 共8种)投射到文本游戏智能体的策略学习中,通过人格分类器引导 Q 值调整,发现高开放性(Openness)人格在冒险类文本游戏中表现显著优于其他人格类型。

All That Glitters is Not Novel: Plagiarism in AI Generated Research

在对自主科研 Agent(如 AI Scientist)生成的研究文档进行专家审查后发现,24% 的文档是"智能剽窃"——方法论与已有工作一一对应但不引用原始来源,且现有剽窃检测工具无法识别这种"改头换面"的抄袭。

PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

提出PopAlign框架,从Prompt、Model、Pipeline三个层面构建六种多样化对比策略(包括创新的Elicitive Contrast),无需额外人工标注即可合成高质量偏好数据,实现更全面的LLM对齐。

Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks

建立首个统一理论框架来理解 Transformer 在算术任务(加法/乘法/模运算)上的泛化行为——从任务性质(平移不变性)和位置编码类型(APE/RPE)的交互出发,解释了之前困扰领域的多个泛化谜题(如加法能泛化但乘法不能,模100能泛化但模101不能),实验验证了理论预测。

ProxAnn: Use-Oriented Evaluations of Topic Models and Document Clustering

提出面向实际使用场景的主题模型评估协议ProxAnn,结合可扩展的人类评估流程和LLM代理标注者,发现最佳LLM代理在统计上与人类标注者不可区分,可作为自动化评估的合理替代。

PVP: An Image Dataset for Personalized Visual Persuasion with Persuasion Strategies, Viewer Characteristics, and Persuasiveness Ratings

构建了首个将图像说服策略与 2,521 位标注者心理特征(人格/价值观/道德基础)关联的大规模数据集 PVP(28,454 张图像、596 条行为消息、9 种说服策略),并在"个性化说服图像生成"和"说服力自动评估"两个基准任务上验证了心理特征对提升说服效果的关键作用。

Quantifying Lexical Semantic Shift via Unbalanced Optimal Transport

将Unbalanced Optimal Transport(UOT)应用于上下文化词嵌入集合,提出Sense Usage Shift(SUS)指标在每个用法实例级别量化语义变化,统一解决实例级变化检测、词级变化幅度量化和词义扩展/缩小判定三项任务。

Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability

本文通过对 18 个数据集、7 类任务的系统实验,发现在训练数据中加入 rationale(推理过程)并非总是有益——rationale 有时会削弱模型性能,但可以提升模型可靠性(校准度),且性能和可靠性的改善呈线性相关,两者都受任务固有难度驱动。

RePanda: Pandas-powered Tabular Verification and Reasoning

提出 RePanda,将自然语言声明翻译为可执行的 pandas 查询来实现表格事实验证,在 TabFact 上达到 84.09% 准确率,在 OOD 的 WikiFact 上无需额外微调达 84.72%,同时以仅 7B 参数的模型逼近 671B DeepSeek-Chat 的零样本性能,并扩展至表格问答任务取得 75.1% 准确率。

Research Borderlands: Analysing Writing Across Research Cultures

通过访谈跨学科研究者构建学术写作文化规范框架(结构/风格/修辞/引用四类),并用计算指标量化11个CS社区的写作差异,揭示LLM在跨社区写作改编时存在严重的"同质化"倾向。

Revisiting Weak-to-Strong Generalization: Reverse KL vs. Forward KL

在 Weak-to-Strong Generalization (W2SG) 框架中,提出用 reverse KL 替代 forward KL 作为损失函数——理论证明 reverse KL 的 mode-seeking 特性可保证强模型超过弱监督者至少"分歧量"的幅度,实验在 GPT-2/Pythia/Qwen2.5 系列上验证 reverse KL/CE 在 12/12 设置中超越 forward KL 且噪声鲁棒性更好。

RMoA: Optimizing Mixture-of-Agents through Diversity Maximization and Residual Compensation

受 ResNet 残差学习启发,提出 RMoA 框架,通过嵌入式多样性贪心选择、残差提取/聚合智能体和自适应终止机制来优化多智能体协作架构,在降低计算开销的同时实现 SOTA 性能。

RoToR: Towards More Reliable Responses for Order-Invariant Inputs

提出 RoToR,一种基于全局排序和循环位置编码分配的零样本顺序不变语言模型,通过最小化位置 ID 修改来实现稳定的顺序不变性,并设计选择路由(Selective Routing)机制自适应处理混合输入类型。

S2WTM: Spherical Sliced-Wasserstein Autoencoder for Topic Modeling

提出 S2WTM,一种基于球面切片 Wasserstein 自编码器的主题模型,在超球面潜空间上对齐聚合后验与先验分布,有效避免 VAE 的后验坍塌问题,同时在主题连贯性和多样性上超越现有 SOTA。

S3 - Semantic Signal Separation

S3将主题建模概念化为发现语义空间中独立语义轴的过程,利用独立成分分析(ICA)分解文档嵌入矩阵,无需预处理即可产生高度连贯且多样化的主题,同时是最快的上下文主题模型(平均比BERTopic快4.5倍)。

Segment-Based Attention Masking for GPTs

MAS(Masked Attention by Segment)在预训练 GPT 模型的 prefill 阶段将因果注意力掩码替换为按段(segment)的双向注意力——同一段内的 token 可以互相 attend,生成阶段仍保持因果掩码——通过 LoRA 微调即可在 8 个常识推理任务上一致提升性能(Llama-3-8B 平均 +1.8%,Llama-3.2-3B +3.3%),无额外计算开销。

SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection

针对开放域事件检测(ODED)评估的两大痛点——有限 benchmark 缺乏真实世界代表性、token 级匹配指标无法捕捉语义相似性——提出 SEOE 框架,构建包含 564 种事件类型覆盖 7 大领域的可扩展 benchmark,并引入基于 LLM 的语义 F1 评估指标。

Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions

提出一个端到端框架,基于真实人口学、健康/生活方式和行为/心理特征数据生成有健康状况的合成用户(涵盖睡眠和糖尿病管理),用于评估健康教练Agent的交互质量,并通过人类专家评估验证其显著优于通用合成用户。

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

提出 SoRFT(Subtask-oriented Reinforced Fine-Tuning),将 GitHub Issue 解决任务分解为文件定位、函数定位、行定位和代码编辑四个子任务,通过拒绝采样SFT + 基于规则的PPO强化学习两阶段训练,显著提升开源LLM在 SWE-Bench 上的 Issue 解决能力。

SOTOPIA-Ω: Dynamic Strategy Injection Learning and Social Instruction Following Evaluation for Social Agents

本文提出 SOTOPIA-Ω 框架,通过将谈判理论中的多步推理策略和直接策略动态注入到专家 agent 中,自动构建高质量社交对话训练语料,并定义了"社交指令跟随(S-IF)"这一新概念和两个评估指标,在 7B 模型上超越了 GPT-4 专家 agent 的社交目标达成能力。

SPOT: Bridging Natural Language and Geospatial Search for Investigative Journalists

提出 SPOT 系统,通过微调 LLaMA 3 将自然语言场景描述转换为 YAML 查询,结合语义标签捆绑机制实现对 OpenStreetMap 数据的可靠自然语言访问,服务于调查新闻的地理定位验证。

Spotting Out-of-Character Behavior: Atomic-Level Evaluation of Persona Fidelity in Open-Ended Generation

提出原子级(句子级)评估框架,通过三个指标(ACC_atom、IC_atom、RC_atom)细粒度检测大语言模型在开放式文本生成中的角色偏离(Out-of-Character)行为,弥补了传统整体评分方法无法捕捉长文本中微妙人格不一致的问题。

Statistical Deficiency for Task Inclusion Estimation

基于统计缺陷性(statistical deficiency)理论,提出一种理论驱动的任务包含关系(task inclusion)定义与度量框架,以信息充分性(information sufficiency, IS)作为可计算代理指标,通过比较微调模型的中间层表征来估计任务间的包含程度,并在合成数据和真实NLP任务上成功重建了经典NLP pipeline的层次关系。

STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond

提出 STRICTA 框架,基于结构因果模型(SCM)将文本评审建模为显式的逐步推理图(workflow),在生物医学论文评审中收集 40+ 位专家的 4000+ 推理步骤数据集,发现先验知识差异是专家分歧主因、写作风格对最终评审有因果影响,LLM 存在错误传播但人类监督可有效缓解。

Subword Models Struggle with Word Learning, but Surprisal Hides It

本文通过心理语言学中的词汇决策任务(lexical decision),揭示了子词(BPE)语言模型在孤立词汇识别上远不如字符级模型,而常用的 surprisal 指标因引入句法上下文掩盖了这一缺陷。

TabXEval: Why this is a Bad Table? An eXhaustive Rubric for Table Evaluation

TabXEval 提出了一个基于 rubric(评分细则)的两阶段表格评估框架——先通过 TabAlign 进行结构对齐,再通过 TabCompare 进行语义和语法细粒度比较,并配套发布了多领域基准 TabXBench。

TACLR: A Scalable and Efficient Retrieval-Based Method for Industrial Product Attribute Value Identification

TACLR 提出了首个基于检索范式的产品属性值识别(PAVI)方法,通过分类感知对比学习和自适应推理机制,在处理隐含值、OOD 值和归一化输出方面全面超越分类和生成方法,并已成功部署在闲鱼(Xianyu)平台。

Tag-Evol: Achieving Efficient Instruction Evolving via Tag Injection

Tag-Evol 提出了一种基于知识标签注入的指令进化框架,通过构建多步细粒度标签池和预算控制注入机制,无需迭代即可生成不同难度的高质量进化指令数据,在多任务多骨干上显著优于 Evol-Instruct。

TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data

TARGA 提出了一种针对性的合成数据生成框架,无需任何人工标注即可为知识库问答(KBQA)动态生成高相关性的合成示例用于上下文学习,仅用 7B 模型即在 GrailQA(+7.7 F1)和 KBQA-Agent(+12.2 F1)上大幅超越所有非微调方法。

Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on Text

TIACBM 提出了一种任务感知的反课程掩码微调策略:利用下游任务知识(如情感极性、词性标签)决定哪些 token 被掩码,并采用周期衰减的掩码率,在情感分析、文本分类和作者归属三个任务上均取得统计显著的性能提升。

The Harmonic Structure of Information Contours

提出 Harmonic Surprisal (HS) 假说——文本中 surprisal 曲线呈周期性波动且周期与语篇结构(EDU/句子/段落)对齐,用带时间缩放的谐波回归检验,在 6 种语言上发现一致的周期模式,精化了经典的 Uniform Information Density 假说。

The Hidden Attention of Mamba Models

揭示了Mamba(选择性状态空间模型S6)可以被重新表述为一种隐式的因果自注意力机制,并基于此提出了适用于Mamba模型的注意力可视化和可解释性方法(Attention Rollout和Mamba-Attribution),证明其可解释性指标与Transformer相当。

The Noisy Path from Source to Citation: Measuring How Scholars Engage with Past Research

构建大规模计算流水线量化学术引用的忠实度(fidelity),分析 1300 万引用句对揭示了影响引用忠实度的关键因素,并通过准因果实验证实了"电话效应"——低忠实度中间引用会导致后续引用进一步失真。

The Time Scale of Redundancy between Prosody and Linguistic Context

本文系统研究了韵律特征(如音高、响度、时长等)与语言上下文之间冗余性的时间尺度,发现韵律与过去上下文的冗余性跨越较长时间尺度(3-8个词),而与未来上下文的冗余性仅限于短时间尺度(1-2个词),揭示了韵律在语音交流中帮助整合过去信息和预测即将出现的词汇的双重作用。

Theoretical Guarantees for Minimum Bayes Risk Decoding

本文首次为最小贝叶斯风险(MBR)解码提供了严格的理论收敛性保证,证明了在参考假设集大小为 \(n\) 时,MBR 解码以 \(O(n^{-1/2})\) 的速率逼近最优解,并与 MAP 解码进行了理论比较,表明 MBR 在多种场景下收敛更快。

Learning to Reason Over Time: Timeline Self-Reflection for Temporal Reasoning

提出 TISER 框架,通过"推理→时间线构建→自反思→答案生成"四阶段管道实现LLM时间推理的test-time scaling,配合合成推理轨迹数据微调,让 7B 开源模型在多个时间推理基准上超越 GPT-4,在TGQA等任务上达到 SOTA。

Tokenisation is NP-Complete

证明了分词问题(tokenisation)的两种变体——直接分词和自底向上分词——都是 NP 完全的,通过从 max-2-SAT 问题多项式时间归约实现,这意味着不可能找到高效的最优分词算法,BPE 等近似方法是合理选择。

Towards Comprehensive Argument Analysis in Education: Dataset, Tasks, and Method

本文针对中文高中议论文,提出包含纵向(论证关系)和横向(话语关系)两个维度共 14 种细粒度论证关系类型的标注方案,并在论证成分检测、关系预测和自动评分三个任务上建立了全面的 benchmark。

Towards Text-Image Interleaved Retrieval

定义文本-图像交错检索(TIIR)新任务,构建基于 wikiHow 的首个 TIIR 基准数据集(155K 文档、7654 测试对),并提出 Matryoshka Multimodal Embedder(MME)通过多粒度视觉 token 压缩解决 MLLM 中视觉 token 过多导致的效率和语义偏差问题,大幅提升检索性能。

Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis

提出Tree-of-Debate (ToD)框架,将科学论文转化为LLM persona进行树结构化辩论,通过自我审议、迭代检索和主持人引导的层级子话题扩展,生成细粒度、上下文化的论文对比摘要,在领域专家评估中显著优于基线方法。

TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification

提出TROVE文本溯源挑战,将目标文本中每个句子追溯到源文档中的具体源句,并分类其细粒度关系(引用、压缩、推理等),覆盖多文档和长文档场景。

Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

Tuna 构建了 1000 个时间密集短视频的细粒度多维标注数据集,配套字幕评测(事件拆分→匹配→关系分类)和时序问答两个任务,系统性地暴露了当前视频 LMM 在动态时序理解上的弱点。

Understanding Common Ground Misalignment in Goal-Oriented Dialog: A Case-Study with Ubuntu Chat Logs

本文通过在 Ubuntu IRC 技术支持对话中标注"对话摩擦"(conversational friction),实证揭示了共识基础(common ground)的失配与任务成功率之间的显著关联,并发现 LLM 能识别显式的对话摩擦但难以处理需要语用或领域推理的隐式摩擦。

Understanding Cross-Domain Adaptation in Low-Resource Topic Modeling

首次将领域自适应形式化引入低资源主题建模,推导有限样本泛化上界指导方法设计,提出 DALTA 框架通过共享编码器、领域专用解码器和对抗对齐实现跨领域主题知识的选择性迁移。

Unique Hard Attention: A Tale of Two Sides

本文证明在有限精度transformer中,leftmost unique hard attention (UHA)严格弱于rightmost UHA,前者等价于线性时序逻辑片段LTL[\(\Diamond^-\)](即部分有序有限自动机),并与soft attention transformer表达能力等价,从而精确刻画了注意力方向性对transformer表达力的影响。

Unlocking Speech Instruction Data Potential with Query Rewriting

提出基于多LLM知识融合的查询重写框架与多智能体标注验证方法,将超出TTS词汇范围的文本指令重写为适合语音合成的形式,使语音指令数据可用率从72%提升至93%,为端到端大型语音语言模型(LSLM)构建高质量语音指令数据集。

USDC: A Dataset of User Stance and Dogmatism in Long Conversations

构建 USDC——首个用户级长对话立场和教条主义数据集,764 个多用户 Reddit 对话(22 子版块),用 {Mistral Large, GPT-4} × {zero/one/few-shot} 共 6 设置多数投票标注立场(5级)+教条程度(4级),并用 7 个 SLM 微调/指令微调建立基线。

Using Shapley Interactions to Understand How Models Use Structure

利用Shapley Taylor交互指数(STII)跨模态(文本+语音)系统分析语言模型如何通过非线性交互编码句法结构、非组合语义和语音协同发音,发现自回归模型在句法编码上显著优于遮蔽模型。

Using Source-Side Confidence Estimation for Reliable Translation into Unfamiliar Languages

提出基于梯度的源端置信度估计方法,通过测量输出序列概率对源端嵌入的敏感度来直接检测潜在误译词,无需词对齐即可超越传统方法,并构建了面向源语言熟练用户的交互式翻译 Web 应用。

Value Residual Learning

提出 ResFormer 和 SVFormer,通过在注意力机制中引入第一层 Value 向量到后续层的残差连接,增强初始 token 级信息在深层网络中的传播,以比标准 Transformer 少 16.11% 的参数和 20.3% 的训练数据达到同等性能,SVFormer 还能减少近一半 KV 缓存。

VAQUUM: Are Vague Quantifiers Grounded in Visual Data?

本文发布了VAQUUM数据集(20,300条人类评分,1,089张图片),系统评估视觉语言模型在模糊量词(few/many等)使用上与人类的一致性,发现VLM像人类一样受物体数量影响,但不同评估范式下模型表现差异大,表明判断和生成模糊量词依赖不同认知过程。

Verbosity-Aware Rationale Reduction: Effective Reduction of Redundant Rationale

提出 VARR 框架,以句子为单位并利用基于似然度的"冗余度(verbosity)"标准识别和移除推理路径中的冗余句子,在多种推理任务上平均提升 7.71% 准确率同时减少 19.87% 的 token 生成。

Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction

提出 MM-VAP 多模态预测性话轮转换模型,将面部表情、头部姿态和注视方向等视觉线索引入语音预测模型,在视频会议语料上将 hold/shift 预测准确率从 79% 提升至 84%。

Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding

提出 Weak-to-Strong Decoding (WSD) 框架,利用一个小型对齐模型为大型基座模型起草对齐的开头,再由大模型续写,以低资源方式实现偏好对齐且不产生 alignment tax。

What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma

基于归因理论构建了一个专家标注的心理健康污名访谈语料库(4,141 条片段、684 名参与者),涵盖 7 种细粒度污名类型和社会文化背景信息,并以此为基准评测了多种 SOTA 神经模型在污名检测任务上的表现与挑战。

What Matters in Evaluating Book-Length Stories? A Systematic Study of Long Story Evaluation

本文系统研究了书籍级长篇故事(>100K tokens)的自动评估问题,构建了首个大规模长篇故事评估基准LongStoryEval(600本新出版小说、340K条读者评论),提出分层评价标准体系,比较三种评估策略的有效性,并训练了专用评估模型NovelCritique-8B,在与人类评分的对齐度上超越GPT-4o。

Words of Warmth: Trust and Sociability Norms for over 26k English Words

通过严格的众包标注流程构建了首个大规模词汇-温暖(Warmth)、信任(Trust)和社交性(Sociability)关联词典(覆盖 26k+ 英语单词),并通过儿童词汇习得分析和社交媒体刻板印象案例研究,展示了该资源在社会认知研究中的广泛价值。

You need to MIMIC to get FAME: Solving Meeting Transcript Scarcity with Multi-Agent Conversations

提出 MIMIC 框架,通过多智能体辩论模拟生成合成会议转录,构建了包含 800 场会议的 FAME 数据集(500 英语 + 300 德语),并设计了基于心理学的行为真实性评估框架。

Your Model is Overconfident, and Other Lies We Tell Ourselves

通过对 29 个模型在 ChaosNLI 和 DynaSent 数据集上的全面分析,揭示了标注者分歧、训练动态、模型置信度等数据复杂度指标之间存在相关性但非线性非单调的关系,挑战了"模型不确定性 ≈ 人类分歧"这一常见假设。

Zero-Shot Conversational Stance Detection: Dataset and Approaches

构建了首个零样本多轮多方对话立场检测数据集 ZS-CSD(280 个目标、17,063 条对话样本),并提出 SITPCL 模型,结合说话者交互编码器与目标感知原型对比学习,在零样本对话立场检测中取得 SOTA(F1-macro 43.81%)。