🌐 多语言/翻译¶
🧪 ICML2026 · 2 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (52) · 📷 CVPR2026 (2) · 🔬 ICLR2026 (5) · 🤖 AAAI2026 (11) · 🧠 NeurIPS2025 (14) · 📹 ICCV2025 (1)
- ML-Embed: Inclusive and Efficient Embeddings for a Multilingual World
-
ML-Embed 把 Matryoshka 思想从一维 (representation 维度) 扩展到三维 —— 在 embedding 参数 (MEL)、模型深度 (MLL)、表征维度 (MRL) 上全栈嵌套训练, 同时构建 282 种自然语言 + 40 种编程语言、5000 万样本的多语训练集, 推出 140M-8B 一族开源模型, 在 17 个 MTEB benchmark 上 9 个拿第一, 波兰语 +22.89, 越南语 +6.88.
- Optimizing Language Models for Crosslingual Knowledge Consistency
-
本文针对多语言 LLM 在不同语言间回答同一问题却给出冲突答案的问题,设计了一个用"另一种语言下回答的对数似然"作为 reward 的 RL 目标,证明其最优策略呈 product-of-experts 形式并在 \(\gamma_1\gamma_2=\beta^2\) 时保证跨语言偏好一致;据此推导出无需 reward model、无需 online 采样的 DCO(Direct Consistency Optimization) 算法,在 9 个 LLM、3 个多语言 QA 基准、26 种语言上同时提升跨语言一致性(RankC)与回答准确率。