ACL2026 NLP 理解论文解读论文笔记 LLM 问答推理信息抽取情感分析少样本学习

📖 NLP 理解¶

💬 ACL2026 · 34 篇论文解读

📌 同领域跨会议浏览： 🔬 ICLR2026 (2) · 🧪 ICML2026 (2) · 🤖 AAAI2026 (1) · 🧠 NeurIPS2025 (3) · 📹 ICCV2025 (1) · 🧪 ICML2025 (1)

🔥 高频主题： LLM ×6 · 问答 ×5 · 推理 ×4 · 信息抽取 ×4 · 情感分析 ×2

A Computational Method for Measuring "Open Codes" in Qualitative Analysis: 提出一种基于理论的计算方法，通过LLM增强的代码合并算法和四个无需ground truth的指标（Coverage, Overlap, Novelty, Divergence），系统评估人类和AI在归纳定性编码中的表现。
Accurate and Efficient Statistical Testing for Word Semantic Breadth: 本文指出"在上下文嵌入空间用置换检验直接比较两个词的语义广度"会因均值方向差异而严重虚高 Type-I 错误，提出用 Householder 反射先对齐均值方向再做置换的方法，把 Type-I 错误降低 32.5%，并给出 GPU 批量化实现实现 23 倍加速。
AdapTime: Enabling Adaptive Temporal Reasoning in Large Language Models: 本文提出 AdapTime，把"时间推理"抽象为 reformulate / rewrite / review 三个可复用的原子动作，由 LLM Planner 根据问题与上下文自适应决定执行哪几步、按什么顺序执行，无需任何外部工具、手工规则或微调即可显著提升 LLM 在时序 QA 上的表现，在 DeepSeek-V3 上把 TimeQA-Easy 推到 85.4 EM。
Agree, Disagree, Explain: Decomposing Human Label Variation in NLI through the Lens of Explanations: 将LiTEx推理分类法从"标签一致下的解释变异"扩展到"标签不一致"场景，发现标注者可能标签不同但推理类似，推理类别的一致性比标签一致性更好地反映解释的语义相似度。
ASTRA: Adaptive Semantic Tree Reasoning Architecture for Complex Table Question Answering: ASTRA 把复杂表格自适应重构为语义树，再用文本树导航和符号代码执行双模式推理回答问题，在 AIT-QA、SSTQA 和 HiTab 上分别达到 91.6%、81.9% 和 90.1% 准确率，超过强 LLM 和已有表格结构化方法。
Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering: 用修辞结构理论（RST）解析长文档的篇章结构，构建一棵句子级层级树并对中间节点做 LLM 摘要增强，最后在树上做结构感知的多粒度检索，使长文档 QA 在 QASPER / QuALITY / NarrativeQA / MultiFieldQA-zh 四个 benchmark 一致超越固定切块和 RAPTOR 语义聚类。
BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation: BoundRL 将结构化文本分割重新定义为边界生成任务——仅生成每个片段的起始 token 而非完整文本，减少 90% 的输出 token 并消除幻觉风险，结合双目标奖励函数和选择性扰动策略的 RLVR 训练，使 1.7B 小模型超越了 Claude-4 Sonnet 的 few-shot 表现。
Can LLMs Estimate Cognitive Complexity of Reading Comprehension Items?: 这篇论文构建 ReCo 阅读理解认知复杂度数据集，并系统评估 8 个 LLM 是否能自动判断题目所需的证据范围和表述转换层级，结果显示强模型能接近但仍明显低于专家，尤其不擅长识别完整证据集合和细粒度词序转换。
Commonsense Knowledge with Negation: A Resource to Enhance Negation Understanding: 提出自动为现有常识知识库增添否定的方法，构建超过 200 万三元组的否定常识语料库（¬Atomic 和 ¬Anion），并证明在其上预训练可以提升 LLM 的否定理解能力。
Creating ConLangs to Probe the Metalinguistic Grammatical Knowledge of LLMs: 本文提出 IASC（Interactive Agentic System for ConLangs），一个模块化的人造语言构建系统，通过让 LLM 按语言学规格执行形态句法变换来探测其元语言知识，发现 LLM 处理常见语言类型模式远优于罕见模式，且不同 LLM 之间能力差异悬殊。
DimABSA: Building Multilingual and Multidomain Datasets for Dimensional Aspect-Based Sentiment Analysis: 作者构建了首个多语言（6 种语言）多领域（4 个领域）的维度型方面级情感分析数据集 DimABSA（76,958 个 aspect 实例 / 42,590 句），用连续的 valence–arousal 分数取代传统的「正/负/中」三分类，并设计 3 个新子任务和统一指标 cF1，对 6 个开/闭源 LLM 进行了系统评测。
DiZiNER: Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition: DiZiNER 通过模拟人工标注中的"预标注"流程，利用多个异构 LLM 作为标注员、一个监督 LLM 分析模型间分歧并迭代优化任务指令，在18个NER基准上实现了14个数据集的零样本SOTA，平均提升+8.0 F1，且超越了作为监督者的GPT-5 mini。
EXCEEDS: Extracting Complex Events via Nugget-based Grid Modeling in Scientific Domain: 作者发现"科学文献摘要"这种 EE 场景同时存在信息密度高（每 100 token 5.54 个事件 + 12.82 个 argument）和事件结构复杂（重叠/不连续/逆序 nugget + 子事件）两个老 EE 数据集都没碰过的痛点，于是 (a) 标注了 2,508 文档/24,381 事件的 SciEvents 数据集，(b) 提出 EXCEEDS——把 EE 重构成"在 \(l \times l\) word-word 网格上做多标签关系分类"的端到端框架，用 HTL/THL/EAL 三种边把 trigger/argument/sub-event 全部统一建模，在主指标和复杂场景上都打过 9 个 SOTA baseline。
Exploring Concreteness Through a Figurative Lens: 作者用 prompt-based probing + DiffMean + SVD 拆解四个 LLM（Llama-3.1-8B / Qwen3-8B / Gemma2-9B / GPT-OSS-20B）内部的"具体性"（concreteness）表示，发现：早期层就已经能区分名词的字面用法（高 concrete）vs 比喻用法（低 concrete），中后期层把整个 concreteness 信息压缩到一条一维方向上，并展示这条 axis 既能做几乎和有监督 4096 维分类器持平的零样本 figurative text 分类、又能直接被加到 hidden state 上对生成做"字面 ↔ 比喻"的可控改写。
Filling the Gap: Is Commonsense Knowledge Generation useful for Natural Language Inference?: 论文让 LLM 自己生成连接 premise 和 hypothesis 的自然语言"常识公理"，再用一个"factuality 判官"过滤掉不靠谱的公理只留下高质量的注入回 NLI 提示，结果 Llama-3.1-70B 和 gpt-oss-120b 在 SNLI/ANLI 上准确率提升 1.99-6.88%，并显著减弱了"宁可选 Neutral"的安全偏好。
HCRE: LLM-based Hierarchical Classification for Cross-Document Relation Extraction: 提出 HCRE 模型，通过构建层次化关系树将跨文档关系抽取从大规模关系集的直接分类转化为逐层层次化分类，并设计预测-验证推理策略缓解层间错误传播，在 CodRED 数据集上显著超越 SLM 和 LLM 基线。
It's High Time: A Survey of Temporal Question Answering: 本文提供了时序问答（TQA）的全面综述，提出了基于语料时间性、问题时间性和模型时间能力三个维度的统一分析框架，系统梳理了从规则管道到 Transformer/LLM 时代的 TQA 方法演进、基准数据集和评估策略，并识别了未来挑战。
Knowledge-driven Augmentation and Retrieval for Integrative Temporal Adaptation: KARITA 把"时序漂移"拆成不确定性、特征距离和本体术语稀有度三种互补信号，对每个被命中的目标样本回溯检索语义相近的源样本，再用 LLM + 领域本体（MeSH / EuroVoc / CSO）生成同义词改写做数据增强，从而以纯数据驱动的方式把源时段模型迁移到未来时段，在临床、法律、科学三类长跨度多标签分类数据上稳定优于强基线。
LexRel: Benchmarking Legal Relation Extraction for Chinese Civil Cases: 构建了首个中国民事法律关系的结构化分类体系（9 大领域、265 种关系类型），并基于此提出 LexRel 基准（1,140 个专家标注样本），评估了主流 LLM 在法律关系抽取任务上的能力，发现当前模型在该任务上存在显著局限，同时证明了法律关系信息对下游法律 AI 任务的增益效果。
LLM-Guided Semantic Bootstrapping for Interpretable Text Classification with Tsetlin Machines: 本文提出 LLM 引导的语义引导框架，通过 LLM 生成子意图和三阶段课程式合成数据训练非否定 Tsetlin Machine（NTM），提取高置信度符号特征注入真实数据，使标准 TM 在保持完全可解释性的同时逼近 BERT 的分类性能。
Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models: 本文深入研究了大语言模型在多选题问答中对提示组件顺序的敏感性，通过系统性实验排除了训练偏差和记忆衰退假说，揭示了因果注意力掩码是导致 QOC（问题-选项-上下文）顺序性能大幅下降的根本机制。
MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification: 本文提出 MADE——一个基于 FDA 医疗设备不良事件报告的"活"多标签文本分类基准，包含 1,154 个层次化标签和严格的时间分割，系统评估了 20+ 编码器/解码器模型在判别式微调、生成式微调和 few-shot 提示下的预测性能和不确定性量化（UQ）能力，揭示了关键权衡：小型判别式微调解码器在头到尾准确率上最优，生成式微调的 UQ 最可靠，大型推理模型提升稀有标签但 UQ 意外较弱。
MetFuse: Figurative Fusion between Metonymy and Metaphor: 作者提出一个三阶段（候选生成 → MLM 打分挑选 → LLM 润色）流水线，把一句字面句子同时改写成转喻 / 隐喻 / 混合（hybrid）三种 figurative 变体，构造出首个 1000 quadruplet × 4000 句的 MetFuse 数据集，并实证发现"隐喻动词的出现会让同句中的转喻名词变得更显性"，在 8 个 metonymy/metaphor 分类基准上做数据增强一致涨点。
MSMO-ABSA: Multi-Scale and Multi-Objective Optimization for Cross-Lingual Aspect-Based Sentiment Analysis: 针对跨语言 aspect-based 情感分析提出 MSMO 框架——句级用 Wasserstein 对抗训练 + 代码切换数据做语言判别器对齐，aspect 级用双向 KL 一致性训练对齐同情感 aspect 的预测分布，再叠加多教师知识蒸馏，在 SemEval-2016 4 个目标语言 + mBERT/XLM-R 上稳定刷出新 SOTA，并显著超过 GPT-4o / Qwen2.5-7B-LoRA 等 LLM 方案。
MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training: MTSQL-R1把多轮 Text-to-SQL 从“一次性翻译”改造成可与数据库和对话记忆交互的长程智能体训练问题，通过自教式 warm-start SFT 与多层级 GRPO 奖励，让小规模 Qwen3 模型在 CoSQL 和 SParC 上超过强闭源提示基线与短程 SFT/RL 基线。
Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs: 提出基于推理的聚类精炼框架，将 LLM 作为语义判官（而非嵌入生成器）验证和重构无监督聚类的输出，通过一致性验证、冗余裁决和标签接地三个推理阶段，在社交媒体语料上显著提升聚类一致性和人类对齐的标注质量。
Refining and Reusing Annotation Guidelines for LLM Annotation: 这篇论文把传统人工标注项目中的 guideline reuse 和 moderation 流程迁移到 LLM 标注中，证明显式标注规范、推理型模型和少量 gold discrepancy 驱动的迭代规范细化，都能提升生物医学 NER 的严格 span+type F1。
SAM-NER: Semantic Archetype Mediation for Zero-Shot Named Entity Recognition: SAM-NER 用“实体发现 → 14 类通用语义原型 → 目标类型定义校准”的三阶段中介框架缓解零样本 NER 的 schema drift，在 CrossNER 上取得 66.3 平均 micro-F1，超过一系列强基线。
Semantic Reranking at Inference Time for Hard Examples in Rhetorical Role Labeling: 提出 RiSE，一种推理时语义重排序框架，通过自动识别低置信度困难样本并利用对比学习的标签语义表示重排序模型输出，在 8 个修辞角色标注数据集上困难样本平均提升 +9.15 macro-F1。
Table Question Answering in the Era of Large Language Models: A Comprehensive Survey: 全面综述了 LLM 时代表格问答（TQA）研究，从五个维度（表格格式、问题复杂度、答案格式、模态、领域）系统化分类任务设置，按核心挑战（表格理解、复杂查询、大输入、数据异构、知识集成）组织建模方法，覆盖 277 篇论文，并前瞻性讨论了强化学习、可解释性等新兴方向。
Test-Time Reasoners Are Strategic Multiple-Choice Test-Takers: 这篇论文系统比较 12 个推理 LLM 在完整多选题和只看选项的多选题上的表现，发现测试时推理确实会让模型在 choices-only 场景中高于随机，但推理轨迹显示其中不全是浅层作弊，也包含推断缺失问题、排除错误选项和调用事实知识等更像“策略性应试”的行为。
The Imperfective Paradox in Large Language Models: 这篇论文用新构造的 ImperfectiveNLI 诊断集检验 LLM 是否理解“正在做某事”不一定意味着“已经完成某事”，发现开源 LLM 普遍会把有目标事件误判为已完成，提示工程只能在减少完成幻觉和保留合法蕴含之间摇摆，真正问题在于推理阶段被目的论先验主导。
TruthSplit: Operationalizing Conditional Validity in Arguments Through Multi-Perspective Reasoning: TruthSplit 是一个交互式论证分析系统，把"同一个论点在不同世界观下结论不同"这件事形式化为条件有效性（conditional validity）：它先把文本拆成论点/前提/假设，再用三层 NLI 检验逻辑与世界观内部一致性，最后用 6 个结构化世界观画像去条件化 LLM 推理，生成每种立场下的解读并可视化分歧来源——不给"对/错"标签，而是揭示分歧到底来自价值排序还是概念定义。
新闻文本中的时间框架揭示: 本文提出了新闻文本中"时间框架"的概念——从社会科学理论出发，建立包含 8 类时间框架的分类体系，标注了英德双语新闻语料库，并用有监督和零样本两种方式训练模型进行时间框架检测。