跳转至

📐 优化/理论

💬 ACL2025 · 3 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (22) · 🔬 ICLR2026 (220) · 🧪 ICML2026 (88) · 🤖 AAAI2026 (21) · 🧠 NeurIPS2025 (126) · 📹 ICCV2025 (7)

Aligned but Blind: Alignment Increases Implicit Bias by Reducing Awareness of Race

揭示对齐训练的"种族盲视"副作用:对齐使 LLM 在歧义上下文中不再将 black/white 表征为种族概念,安全护栏因此无法激活,导致隐式偏见从 64.1% 飙升至 91.4%;反直觉地,在早期层注入种族感知激活(而非遗忘)可将隐式偏见从 97.3% 降至 42.4%。

AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

提出 AmbiK,一个专门用于厨房环境中歧义指令检测的纯文本数据集,包含 1000 对歧义/非歧义指令,按三种歧义类型(用户偏好/常识/安全)分类标注,并评估了多种基于 conformal prediction 的歧义检测方法,发现现有方法在该基准上表现很差。

ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting

ScaleBiO 提出基于罚函数重构的全一阶双层优化算法,首次将双层优化应用于 30B+ 参数 LLM 的数据源重加权,在 Qwen-2.5-32B 上实现 GSM8K +9%、MATH +5.8% 的提升。