🛡️ AI 安全¶
💬 ACL2026 · 2 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (24) · 🔬 ICLR2026 (27) · 🤖 AAAI2026 (44) · 🧠 NeurIPS2025 (73) · 📹 ICCV2025 (22) · 🧪 ICML2025 (36)
- When Bigger Isn't Better: A Comprehensive Fairness Evaluation of Political Bias in Multi-News Summarisation
-
本文构建了首个带政治倾向标签的多文档新闻摘要数据集 FairNews,并通过五维公平性评估框架对 13 个 LLM 进行评估,发现中等规模模型在公平性和效率上优于大模型,且实体情感相似性是最难通过提示去偏的维度。
- XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics
-
构建首个具有跨语言平行质量的翻译评估基准 XQ-MEval,通过半自动注入 MQM 错误生成可控质量的伪翻译,首次实证揭示自动评估指标的跨语言评分偏差,并提出 LGN 归一化策略有效校准多语言指标评估。