跳转至

🌐 多语言/翻译

💬 ACL2026 · 63 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (8) · 🧪 ICML2026 (3) · 🤖 AAAI2026 (9) · 🧠 NeurIPS2025 (11) · 📹 ICCV2025 (1) · 🧪 ICML2025 (1)

🔥 高频主题: 翻译 ×19 · LLM ×7 · 语音 ×3 · Agent ×3 · 情感分析 ×2

A Multilingual Dataset and Empirical Validation for the Mutual Reinforcement Effect in Information Extraction

构建首个多语言MRE Mix数据集(MMM,21个子集覆盖英中日),并通过大规模消融实验系统验证了词级与文本级信息抽取任务的互增强效应(MRE)跨语言普遍存在。

Alexandria: A Multi-Domain Dialectal Arabic Machine Translation Dataset for Culturally Inclusive and Linguistically Diverse LLMs

Alexandria 构建了覆盖 13 个阿拉伯国家、11 个社会影响领域、107K 轮次的多轮对话方言阿拉伯语-英语平行数据集,通过社区驱动的人工翻译与修订流程,为方言阿拉伯语机器翻译提供了前所未有的细粒度训练和评测资源,并在 24 个 LLM 上进行了系统性基准评估。

BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation

本文提出 BabelDOC:一个基于「中间表示(IR)」的版式保持 PDF 翻译系统,把视觉布局和语义内容解耦,让 LLM 翻译、术语提取、跨页上下文、公式占位等 NLP 操作发生在语义层,再用自适应排版引擎重新锚回原版式;在 200 页基准上 BIoU、layout fidelity、术语一致性都超过 PDFMathTranslate 和 DeepL Document Translation。

Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation

构建非字面翻译元评估数据集 MENT(7,530 条人工标注),揭示传统指标和 LLM-as-Judge 在非字面翻译评估上的不可靠性,并提出 RATE 智能体评估框架,通过反思核心智能体动态调用子智能体,提升 3.2+ 点人类判断相关性。

BhashaSutra: A Task-Centric Unified Survey of Indian NLP Datasets, Corpora, and Resources

首篇专门针对印度语言NLP资源的统一综述,覆盖200+数据集、50+基准、100+模型/工具,按17个任务类别组织(从核心语言处理到社会文化任务),系统分析了语言覆盖不均、标注碎片化、评估不一致等持续挑战。

CLewR: Curriculum Learning with Restarts for Machine Translation Preference Learning

本文提出 CLewR(Curriculum Learning with Restarts),一种在偏好优化训练中按易到难排序并在每个 epoch 重启课程的策略,有效缓解灾难性遗忘问题,在多个模型家族(Gemma2、Qwen2.5、Llama3.1)和多种偏好优化算法(DPO、CPO、ARPO)上持续提升机器翻译性能。

Cross-Cultural Transfer of Emoji Semantics and Sentiment in Financial Social Media

在 4 语种 / 2 平台 / 2 资产类的 1 亿条金融微博上系统比较 emoji 的频率、语义和情感极性,发现 emoji 频率因语言/平台差异大但语义和极性高度稳定,并据此在零样本情感迁移上验证:把 emoji 加入文本能稳定地把 cross-platform transfer gap 从最高 21% 降到接近 0%。

DFKI-MLT at SemEval-2026 TASK 7: Steering Multilingual Models Towards Cultural Knowledge

这篇 SemEval 系统论文用 FLORES 平行语料提取语言方向,在推理时向多语言 LLM 的 residual stream 注入 language steering vector,最终 MCQ 官方成绩为 86.96% accuracy、17 队第 7,但后验分析显示增益高度依赖层、prompt、模型和 locale。

Digitizing Nepal's Written Heritage: A Comprehensive HTR Pipeline for Old Nepali Manuscripts

首个端到端的古尼泊尔语手写文本识别 (HTR) 完整 pipeline:用 "合成 Devanagari → 印刷 Nagari → 古尼泊尔手稿" 三阶段迁移学习 + 20 种数据增强 + 字节级 BPE + script-aware decoder,把 CER 从 fine-tuned TrOCR baseline 的 9.6% 降到 4.9%,并开源代码、模型与 Streamlit web 应用。

Efficient Low-Resource Language Adaptation via Multi-Source Dynamic Logit Fusion

TriMix 把 LRL(低资源语言)适配拆解为"语言能力 + 任务能力 + scaling 红利"三股 logit benefit vector,仅对小模型做连续预训练即可,在推理时按 perplexity 动态决定权重,于 4 个模型家族 × 8 种 LRL 上一致超越单模型 baseline 和 Proxy Tuning,且核心实证发现"应让小 CPT 模型权重高于大指令模型"——直接挑战了 Proxy Tuning 默认的"大模型主导"假设。

Efficient Training for Cross-lingual Speech Language Models

本文提出CSLM,一种高效训练跨语言语音LLM的方法,通过新颖的对齐策略实现跨模态和跨语言对齐,并引入语音-文本交织链式模态生成来提升质量和降低延迟,无需大规模语音数据即可扩展到新语言。

EMCEE: Improving Multilingual Capability of LLMs via Bridging Knowledge and Reasoning with Extracted Synthetic Multilingual Context

EMCEE 让 LLM 先从自身参数中抽取与非英语 query 相关的合成多语言上下文,再把上下文增强回答与 CoT 推理回答交给 LLM-as-a-Judge 合并,在四个多语言任务上显著提升低资源语言表现。

Enhancing BiGRU with a KAN Block for Legal Document Classification and Summarization

本文在低资源多语言孟加拉法律文档上,把 KAN block 加到 BiGRU 分类器和 attention-based GRU 摘要模型中,使分类准确率达到 67.96%、ROUGE-1/2/L 达到 0.38/0.23/0.31,并在消融中把 BiGRU 准确率从 57.34% 提升到 67.96%。

Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors

本文提出 MulTypo——一个基于各语言键盘布局和 10 指打字习惯的多语种 typo 生成算法,并用它系统评测 18 个开源 LLM 在 12 种语言、5 类下游任务上的鲁棒性,证明 typo 对生成与推理任务影响最大、指令微调反而更脆弱、且 typo 影响存在跨语种和跨方向的非对称性。

Evaluating the Impact of Verbal Multiword Expressions on Machine Translation

本文首次系统评测动词类多词表达式(VMWE:动词成语 VID、动词-小品词 VPC、轻动词构式 LVC)对机器翻译质量的影响,在 8 个 MT 系统 × 7 个语言对 × 两类 QE 模型 + 人工 DA 评分上证明:VMWE 普遍掉点,且掉点幅度与"非组合性"严格正相关(VID > VPC > LVC),即使 GPT-4.1/GPT-5.1 也无法消除这一退化。

Exploring Two-Phase Continual Instruction Fine-tuning for Multilingual Adaptation in Large Language Models

本文提出两阶段持续微调(CFT)框架——先在英语指令数据上微调,再在多语言数据上微调——发现阶段间数据集的指令相似性是决定英语能力是否退化的关键因素,并通过生成式重放和启发式层冻结有效缓解了不相似数据集导致的表示漂移和英语遗忘。

FairQE: Multi-Agent Framework for Mitigating Gender Bias in Translation Quality Estimation

提出 FairQE 多智能体框架,通过性别线索检测、性别翻转变体生成和动态偏见感知分数聚合机制,在不牺牲翻译质量评估准确性的前提下有效缓解 QE 模型中的系统性性别偏见。

From Fragments to Facts: A Curriculum-Driven DPO Approach for Generating Hindi News Veracity Explanations

本文提出 DeFactoX,用课程学习组织 Hindi 新闻偏好数据,并在 DPO 中加入 Actuality 和 Finesse 两个事实性/稳定性信号,使模型能同时预测新闻真伪并生成更接近人工事实核查解释的 Hindi rationale。

From Traditional Taggers to LLMs: A Comparative Study of POS Tagging for Medieval Romance Languages

作者在三种中古罗曼语(古奥克语 NAF、古加泰罗尼亚语 CAT、古法语 Chauliac)的 POS 标注任务上,把传统 tagger(UDPipe / COLaF)与开源 LLM(Gemma3-12B / Phi4-14B)放在 zero-shot、few-shot、单语微调、双语 CLTF、三语 CLTF 五种设置下做系统对比,发现 LLM 一致优于传统方法,加泰罗尼亚语充当"桥梁语种"使 CAT+FR 双语训练把古法语 Chauliac 推到 93.14% 的最高准确率。

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

本文提出 Hierarchical Policy Optimization (HPO),通过层级奖励设计对基于 LLM 的同声传译模型进行后训练,在翻译质量未达阈值时抑制延迟优化,从而在 1.5 秒延迟下实现 +7 COMET 的翻译质量提升。

IndoTabVQA: A Benchmark for Cross-Lingual Table Understanding in Bahasa Indonesia Documents

提出 IndoTabVQA,一个针对印尼语(Bahasa Indonesia)文档表格的跨语言视觉问答基准,包含 1593 张文档图像和四种语言(印尼语/英语/印地语/阿拉伯语)的 QA 标注,揭示了 VLM 在低资源语言和跨语言表格理解上的显著性能差距,微调+空间先验可带来最高 48.5% 的 In-Match 准确率。

Is Human-Like Text Liked by Humans? Multilingual Human Detection and Preference Against AI

作者组织 19 位母语专家对 9 种语言、9 个领域、11 个 SOTA LLM 共 16 个数据集做了 8.8k 例的人机文本判别,发现专家平均准确率高达 87.6%(远高于"接近随机"的早期结论),并进一步揭示:用显式说明差异的 prompt 改写后机器文本能把检测准确率压到 72.5%,但人在分不清来源时反而倾向选机器文本,挑战了"human-like 等于 liked-by-human"的隐含假设。

Just Use XML: Revisiting Joint Translation and Label Projection

提出 LabelPigeon,一种基于 XML 标签的联合翻译与标签投影方法,通过在高质量 XML 标记平行语料上微调 NLLB-200 翻译模型,在 11 种语言上超越所有基线并主动提升翻译质量,在下游跨语言 NER 任务中实现最高 +40.2 F1 的提升。

Language Models Entangle Language and Culture

本文通过基于 WildChat 数据集构建的通用建议类问题评估多语言 LLM,发现不同语言查询会导致回答质量和文化上下文的系统性差异——低资源语言的回答质量显著低于英语,且语言选择会隐式地改变回答中使用的文化信息,在翻译版 CulturalBench 上验证了语言与文化在 LLM 中的纠缠关系。

Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

本文提出 XBridge,一种将预训练多语言编码器-解码器翻译模型(如 NLLB)与英语为中心的 LLM 组合的架构——编码器负责多语言理解、LLM 负责知识推理、解码器负责多语言生成,通过轻量级映射层和最优传输对齐实现跨模型语义桥接,在低资源和未见语言上显著优于基线。

LaoBench: A Large-Scale Multidimensional Lao Benchmark for Large Language Models

LaoBench 是首个大规模、多维度的老挝语 LLM 评测基准,包含 17000+ 条专家精选样本,覆盖文化-知识应用 / 老挝 K12 课纲 / 老-中-英三语翻译三大维度,并独创"开源 7k + 黑盒 10k + 开放式 500"三段式设计——其中 10k 黑盒子集通过受控服务发分数防污染,主流闭源模型(GPT-5-High、Gemini-2.5-Pro 等)仍落后人类专家 ~10-20 个百分点,老挝语文化推理与翻译保真度依然是远未解决的难题。

Lingo_Research_Group at SemEval-2026 Task 9: Evaluating Prompt Variants for Polarization Detection

这篇 SemEval-2026 Task 9 系统论文用 Gemma3-27B 和 12 类英文 prompt 变体做 22 种语言的在线极化检测,发现 prompt-only 方法能较好完成粗粒度二分类,但在极化目标和表现形式等细粒度多标签任务上明显退化。

LLM-XTM: Enhancing Cross-Lingual Topic Models with Large Language Models

在已训练好的跨语言主题模型外面套一层"LLM 精炼 + 自一致性投票 + MMD 词分布对齐 + QA 式文档语义对齐"的两段式增强模块,可作为插件挂到 NMTM / InfoCTM / XTRA 等多种 backbone 上,在 EC News、Amazon Review、Rakuten Amazon 三个双语语料上把 CNPMI 涨了 9%–51%、TQ 涨了 6%–44%,同时把 LLM 调用次数降到了"每隔 \(f\) 个 epoch 才一次"。

Location Not Found: Exposing Implicit Local and Global Biases in Multilingual LLMs

本文提出 LocQA 基准(12 种语言、49 个地区、2156 个地域相关问答),通过地域模糊问题(如"紧急电话号码是多少?")揭示 LLM 的隐式偏差:跨语言上存在持续的美国中心默认行为(模型回答的 50% 包含美国答案 vs 数据中仅 26%),语言内部存在人口规模驱动的"人口概率引擎"效应,且指令微调加剧了全球偏差。

LQM: Linguistically Motivated Multidimensional Quality Metrics for Machine Translation

提出LQM(Linguistically Motivated Multidimensional Quality Metrics),一个六层语言学驱动的机器翻译错误分类体系(社会语言学→语用学→语义→形态句法→正字法→字形),并在7种阿拉伯方言上构建3850句双向平行语料库,通过专家标注6113个错误跨度揭示现有MT系统在方言和文化感知翻译上的系统性不足。

Massively Multilingual Joint Segmentation and Glossing

为濒危语言文档工作做的"形态切分 + 逐词素注解(glossing)"联合预测任务:作者把 GlossLM 语料扩到 34 万例、覆盖 2077 种语言,训练出一族基于 ByT5 的多语言 seq2seq 模型 PolyGloss,能从原始转写同时预测词素边界和对应注解标签,在注解上超过 GlossLM、在切分/注解/对齐三项上均胜过多个开源 LLM,并可用 LoRA 快速适配新语言。

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates

提出 Source-Shielded Updates (SSU),一种基于源数据驱动参数重要性评分的列级冻结策略,在仅使用无标签目标语言数据进行持续预训练时,将源语言性能退化从全量微调的 20.3% 降低至 3.4%,同时保持与全量微调相当甚至更优的目标语言性能。

Mitigating Extrinsic Gender Bias for Bangla Classification Tasks

针对孟加拉语预训练模型在下游分类任务中的外在性别偏见,提出 RandSymKL 方法,通过随机化交叉熵损失和对称 KL 散度联合优化,在保持分类准确率的同时有效缩小性别间预测差异。

Modular Monolingual Adaptation using Pretrained Language Models

针对低资源语言适配多语言预训练模型,作者主张「换上语言专属分词器 + 冻结输入/输出嵌入、只训练 Transformer 主体」这种模块化做法,在苏格兰盖尔语、爱尔兰语、克丘亚语的掩码填空 / NER / POS 任务上普遍优于全量微调,同时训练参数砍掉约 25%、显存和训练时间近乎减半。

MORPHOGEN: A Multilingual Benchmark for Evaluating Gender-Aware Morphological Generation

本文提出 MORPHOGEN,一个涵盖法语/阿拉伯语/印地语的大规模性别感知形态学生成基准(共 20,328 句对),定义了 GENFORM 任务(将第一人称句子改写为相反性别),并提出 SGA/GIoU/CGA 三个评估指标,对 15 个多语言 LLM 的基准测试揭示了模型在复杂形态推理、性别偏差和多实体干扰方面的系统性不足。

Multilingual Language Models Encode Script Over Linguistic Structure

本文通过 LAPE 指标和稀疏自编码器系统分析多语言 LM 中的语言关联单元,发现这些单元主要由正字法(书写系统)驱动而非抽象语言结构:罗马化转写激活几乎完全不重叠的神经元集合,词序打乱影响甚微,类型学信息仅在深层逐渐可访问,因果干预表明功能重要性与表面形式不变性相关。

Multilingual Steering by Design: Multilingual Sparse Autoencoders and Principled Layer Selection

这篇论文证明,多语言 sparse autoencoder 和“多语言对齐-语言可分性”交叉点层选择可以让 SAE 语言 steering 更稳定,把原先靠经验选层的多语言控制问题转成可预测的表征诊断问题。

NeoAMT: Neologism-Aware Agentic Machine Translation with Reinforcement Learning

NeoAMT 把新词翻译从单纯依赖模型参数知识的问题,改造成“先推理、再查词典、再翻译”的 agentic MT 问题,并用面向新词命中率、整体译文质量和翻译难度的 GRPO 训练,让 8B 模型在 Neko 新词翻译基准上显著超过 SFT、无检索 RL 和多种通用/翻译专用 LLM。

NiuTrans.LMT: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

本文发布 NiuTrans.LMT,一个覆盖 60 种语言、234 个中英双中心翻译方向、0.6B/1.7B/4B/8B 四种规模的开源 LLM 机器翻译套件,并指出多路平行数据在对称 SFT 中会造成 X→中/英方向退化,再用 Strategic Downsampling、Parallel Multilingual Prompting 和 COMET 奖励的 GRPO 把质量拉回到强开源 MMT 系统水平。

No One Fits All: From Fixed Prompting to Learned Routing in Multilingual LLMs

本文证明没有一种提示策略在所有语言和任务上普遍最优,提出将策略选择建模为学习决策问题,用轻量级分类器为每个实例预测最优策略,在四个基准上显著优于固定策略。

PEAR: Pairwise Evaluation for Automatic Relative Scoring in Machine Translation

PEAR 将无参考机器翻译质量估计从“给单个译文打绝对分”改成“直接比较两个候选译文的相对差值”,在 WMT24 MQM 评测中以更小模型超过匹配的单候选 QE 基线和部分大规模指标。

PluRule: A Benchmark for Moderating Pluralistic Communities on Social Media

PluRule 把 Reddit 社区审核建模为“给定评论和上下文,选择违反了哪条本社区规则或没有违规”的多选题,构建了覆盖 1,989 个社区、2,885 条规则和 9 种语言的基准,并显示 GPT-5.2 high reasoning 全上下文也只有约 57.6% 准确率。

Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition

本文提出 NOVA-ARC,首次将多语言语音情感识别(SER)建模为从标注的非语言发声(NVV)到未标注的语言语音(UVS)的无监督迁移问题,通过双曲空间中的韵律向量量化编码本、双曲情感透镜和最优传输原型对齐实现跨模态情感迁移,在 6 个数据集上验证了非语言→语言迁移的可行性和优越性。

Reinforcement Learning with Semantic Rewards Enables Low-Resource Language Expansion without Alignment Tax

本文把低资源语言扩展从 token 级模仿改写为语义空间对齐问题,用 GRPO 和 embedding 语义奖励训练 Qwen3-4B,在藏汉翻译和藏语标题生成上获得低资源能力,同时比强 SFT 更好地保留中文 CMRC 等主导语言能力。

RouteLMT: Learned Sample Routing for Hybrid LLM Translation Deployment

RouteLMT 将混合 LLM 翻译中的路由问题形式化为固定大模型预算下的边际收益分配,并用小翻译模型最后 prompt token 的内部表示预测“大模型相对小模型能带来多少提升”,在四个翻译方向上比长度、质量估计和外部路由器获得更好的质量-预算 Pareto 前沿。

Scripts Through Time: A Survey of the Evolving Role of Transliteration in NLP

本文系统综述了音译(transliteration)在跨语言 NLP 中的演变角色,提出五大动机分类(命名实体/OOV处理、代码混合、跨文字相似性利用、英语中心迁移、统一预处理),比较了六种整合方式的优劣,并在现代 LLM 语境下讨论了音译是否仍然必要。

Selective Contrastive Learning For Gloss Free Sign Language Translation

这篇论文发现手语翻译中随机 in-batch 负样本经常是不可靠或语义冲突的监督信号,因此用参考模型的相似度轨迹筛选更有信息量的负样本,并通过从易到难的课程式对比学习提升 gloss-free 手语翻译质量。

SERM: Self-Evolving Relevance Model with Agent-Driven Learning from Massive Query Streams

提出 SERM 框架,通过多智能体样本挖掘器和多智能体相关性标注器,从大规模真实查询流中持续自进化搜索相关性模型,经三轮迭代在工业搜索平台上实现 NDCG@1 提升 +2.99,并在在线 A/B 测试中显著提升用户留存率。

SteerEval: Inference-time Interventions Strengthen Multilingual Generalization in Neural Summarization Metrics

SteerEval 研究在推理时把多语种评测模型的隐藏表示向高资源枢轴语言对齐,发现向英语或法语方向 steering 能普遍提高多语种摘要自动指标与人工评分的相关性,尤其能改善低基线语言和 encoder-based COMET 指标。

Structure-Guided Entity Resolution: Fine-Tuning LLMs for Robust Name Matching in Complex Linguistic Contexts

SGER 提出两阶段课程学习框架微调 Llama 3 8B 进行人名实体匹配:Phase 1 训练模型解析姓名结构(输出 JSON),Phase 2 从 Phase 1 checkpoint 训练二分类匹配器,在 5 万对印度 KYC 数据上达到 99.02% 准确率和 0.994 F1,已在 Dream11(2.5 亿用户)生产环境部署。

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation

本文首次探索将 Universal Dependencies 句法信息作为上下文学习的增强源用于低资源科普特语到英语的机器翻译,发现虽然句法信息单独不如词典有效,但将词典与句法信息结合(LEX+SYN)在所有模型上取得最佳效果,Gemma-27B 的 BERTScore F1 达到 0.8746(+0.0361)。

The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models

本文提出GaoYao基准,包含182.3K样本、26种语言和51个国家/地区,通过三层文化评估框架(通用多语言/跨文化/单文化)和九个认知子层,结合人工本地化的主观测试集和专家验证的跨文化合成数据集SuperBLEnD,深度诊断20+旗舰与紧凑型LLM的多语言能力,揭示了显著的地理数字鸿沟和任务能力分层。

Think in Latent Thoughts: A New Paradigm for Gloss-Free Sign Language Translation

提出 SignThought,一种推理驱动的无注释手语翻译框架:引入可学习的潜在思维槽作为视频和文本之间的显式中间语义层,通过"先规划后定位"的双流解码器实现语义规划与视觉证据检索的解耦,在多个基准上超越现有无注释方法。

TLPO: Token-Level Policy Optimization for Mitigating Language Confusion in Large Language Models

TLPO 将多语言 LLM 的语言混淆视为可定位的局部 token 错误,只在首次混淆位置的高概率候选 token 上做策略优化,从而在显著提高目标语言一致性的同时尽量保留模型原有推理和知识能力。

Toward Culturally Grounded Natural Language Processing

这篇综述型论文综合 50 余篇多语与文化 NLP 工作,指出“语言覆盖率”不等于“文化能力”,并提出以 communicative ecologies 为中心的分层评估协议和研究议程。

TransLaw: A Large-Scale Dataset and Multi-Agent Benchmark Simulating Professional Translation of Hong Kong Case Law

这篇论文构建了首个面向香港终审法院判词英中翻译的句级平行数据集 HKCFA Judgement 97-22,并提出模拟专业法律翻译流程的 TransLaw 多智能体系统,在自动指标、人类法律译者评测和成本分析上都显著优于单一翻译 agent。

Unlocking the Edge: Multi-LoRA On-Device Deployment and Acceleration

本文提出面向三星 Galaxy S24/S25 的端侧 LLM 部署框架,通过 LoRA 权重作为运行时输入实现动态任务切换、多流并发 token 生成减少风格变体延迟达 6 倍、无草稿模型的 Dynamic Self-Speculative Decoding 加速解码达 2.3 倍,在 9 语言 8 任务上实现 4-6 倍整体优化。

Vocab Diet: Reshaping the Vocabulary of LLMs via Vector Arithmetic

本文发现 LLM 在嵌入空间中将词形变化(如 walk→walked)编码为线性方向,基于此提出组合式词表设计:用基础词+变换向量的加法组合替代为每个表面形式分配独立 token,在冻结预训练骨干的前提下仅训练小型适配模块,释放 10-40% 的词表槽位用于多语言扩展,同时几乎不影响下游性能。

Vocabulary Shapes Cross-Lingual Variation of Word-Order Learnability in Language Models

本文用 Mallows 模型生成 10 种欧洲语言的连续词序扰动谱,训练小型自回归 LM 后发现:词序越不规则越难学,但跨语言差异主要由词表覆盖、句长和形态复杂度解释,而不是简单的自由/固定词序标签。

What Factors Affect LLMs and RLLMs in Financial Question Answering?

本文系统研究了提示方法、Agent 框架和多语言对齐方法对 LLM 和 RLLM(推理型大模型)在金融问答任务上的影响,发现现有方法本质上是通过模拟 Long CoT 来提升 LLM 性能,但对已具备 Long CoT 能力的 RLLM 效果有限。

Why Do Multilingual Reasoning Gaps Emerge in Reasoning Language Models?

本文首次系统分析了推理语言模型(RLMs)中多语言推理差距的来源,发现语言理解失败是主要原因,并提出通过检测理解失败后进行选择性翻译(Selective Translation)来高效弥补差距。

Why Low-Resource NLP Needs More Than Cross-Lingual Transfer: Lessons Learned from Luxembourgish

本文以理论上很适合跨语言迁移的卢森堡语为“最好情况”案例,论证低资源 NLP 不能只依赖多语模型的自发迁移,而必须把跨语言脚手架和目标语言特定的数据清洗、资源建设、任务设计结合起来。

XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics

构建首个具有跨语言平行质量的翻译评估基准 XQ-MEval,通过半自动注入 MQM 错误生成可控质量的伪翻译,首次实证揭示自动评估指标的跨语言评分偏差,并提出 LGN 归一化策略有效校准多语言指标评估。