跳转至

🔄 自监督/表示学习

💬 ACL2026 · 1 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (91) · 🔬 ICLR2026 (81) · 🧪 ICML2026 (28) · 🤖 AAAI2026 (16) · 🧠 NeurIPS2025 (34) · 📹 ICCV2025 (13)

LLMSurgeon: Diagnosing Data Mixture of Large Language Models

LLMSurgeon 把“这个 LLM 到底训练在什么数据上”形式化为 Data Mixture Surgery,并用代理分类器的软混淆矩阵反演生成文本中的领域分布,从而在只访问模型输出的条件下估计预训练数据混合比例。