Position: Stop Preaching and Start Practising Data Frugality for Responsible Development of AI¶

会议: ICML 2026
arXiv: 2602.19789
代码: https://github.com/saintslab/data-frugality
领域: AI 安全 / 可持续 AI / 数据高效
关键词: 数据节俭, coreset, 碳排放, 责任性 AI, 子集选择

一句话总结¶

这篇 position paper 指出 ML 社区在"数据节俭"(data frugality)上长期"只说不做"——大家口头承认 coreset 能省能耗，却几乎没人真去汇报能耗和碳排放，并以 ImageNet-1K 为例算出下游训练 + 存储约 5.82 GWh / 2589 tCO2e 的保守下限，呼吁把数据节俭从口号变成可度量、可执行、可奖励的工程实践。

研究背景与动机¶

领域现状：当前主流 AI 训练沿着 Kaplan 与 Hoffmann 的 scaling law 走，把"更大数据集"等同于"更好模型"，benchmark 和 leaderboard 也奖励在更大语料上跑实验。与此同时，存在一条平行的支流呼吁"scaling down"——例如 coreset selection、dataset condensation 等数据子集方法。

现有痛点：作者对 10 篇有代表性的 coreset 论文做了系统调查，发现 8/10 篇把"computational efficiency"写进动机、3/10 篇提到"energy efficiency"，但只有 1/10 篇真的报告了能耗节省，6/10 篇报告了时间节省。也就是说，数据节俭的"宣传"远远跑在"实践"前面。

核心矛盾：碳排放并不能从计算量或数据规模线性推导——25% 的数据裁剪在不同架构上得到 24%–40% 的时间收益和 24%–33% 的能耗收益，不是简单成比例。这意味着不把能耗、碳排实测出来，所有"省能耗"的口号都只是修辞，无法用于责任性 AI 的真正决策。同时，碳排估计还高度依赖电网碳强度（全球极差超过 60 倍），同一份训练在 Turkmenistan 与 Lesotho 之间的碳排会差几十倍。

本文目标：(i) 把 ImageNet-1K 这种"国民级"数据集的下游训练 + 存储碳成本定量算出来，给出可引用的下限；(ii) 用实证证明 coreset 既不损精度又能省电；(iii) 把诉求落地到面向 People / Platforms / Policies 三层的具体建议。

切入角度：作者把 ML 实验室自己（SAINTS Lab）的 Carbontracker 测量栈、OpenReview ICLR 元数据爬取、Hugging Face 下载量等可获得证据拼起来，刻意做"保守下限"——他们想说明哪怕用最少的假设，数据节俭的"机会成本"也已经触目惊心。

核心 idea：把数据节俭从"价值观—行动鸿沟"(value-action gap) 的活动主义问题，转译成 ML 社区可以直接对齐的报告与评审规范——若一个方法以能耗为卖点，就必须测能耗。

方法详解¶

这是一篇 position paper，"方法"由三块互相支撑的论证组成：碳成本核算、coreset 实证、可执行的行动框架。

整体框架¶

论文沿着 lifecycle 视角组织：数据生命周期（采集、清洗、存储、分发）与模型生命周期（训练、选择、部署）并行存在，coreset / subset selection 同时作用于这两条生命周期的多个阶段。在此基础上：

量化基线：用 ICLR 2017–2022 的 OpenReview 元数据估计有多少篇论文真的"在 ImageNet-1K 上从随机初始化训练模型"，再用 dimensions.ai 关键词索引把这个比例放大到全 ML 文献，并向 2023–2025 线性外推。
实证收益：在 A100 上跑 ResNet-34 / ResNet-50 / Swin-T，用 Carbontracker 实测 full vs. 25% pruned 的能耗 / 时间；引用 Dyn-Unc (He et al., 2024) 与 InfoMax (Tan et al., 2025) 的 SOTA 子集选择曲线说明精度不掉。
公平性副作用：在 Coloured-MNIST (99% 多数色) 上对比 random / reweighted / balanced 三种 sampling，证明 coreset 还能顺手做去偏。
行动框架：把上面三类证据归并为面向 People / Platforms / Policies 的呼吁。

关键设计¶

1. ImageNet-1K 下游碳成本的可复现下限估计：把环境成本从口号变成可引用、可质疑的数字

作者把"数据集本身的环境成本"算成一个具体下限：5.82 GWh 能耗、2589 tCO2e 碳排（按全球均值碳强度）。训练成本 = 估计训练次数 \(N\approx 46{,}179\pm 1{,}154\) × ResNet-50 单 epoch 能耗 \(\approx 0.394\) kWh × 300 epoch \(= 5.46\pm 0.14\) GWh；存储成本 = \(N\times 130\) GB × 60 kWh/TB/yr \(\approx 360\pm 9\) MWh。其中 \(N\) 由 ICLR OpenReview 里"从零训 ImageNet"的论文占比线性外推、再用 dimensions.ai 关键词索引放大得到，2.5% 错误率来自 LLM 标注校验。作者刻意只用公开元数据、避免依赖任何厂商内部数据，并坦言这只是下限——Hugging Face Hub 上 214 个 ImageNet-1K 派生数据集合计下载量超过 250 万、比论文计数大 55 倍；这种保守姿态反而让结论更难被反驳。

2. Coreset 收益的双轴实测：精度曲线 × 能耗表，回答"少用数据到底省多少、掉多少点"

精度侧借用 Dyn-Unc 在 Swin-T 上、InfoMax 在 ResNet-34 上的 SOTA 曲线，说明 ImageNet-1K 可裁掉 25%–35% 而 Top-1 精度不降；能耗侧自己跑 ResNet-34/50 + Swin-T 各 10 epoch × 3 次（同 A100 / DGX 配置），用 Carbontracker 同时记录 CPU 与 GPU 能耗。结果是 25% pruning 给出 ResNet-34 省 32% 时间 + 29% 能耗、ResNet-50 省 40% + 33%、Swin-T 省 24% + 24%。作者特别用这组数戳破"data size 当能耗 proxy"的常见假设——25% 数据 \(\neq\) 25% 能耗；并诚实地把 coreset 构造的一次性成本算成"3–4 次训练即可摊销"（以最贵的 Dyn-Unc 为例，其构造成本约等于一次 full 训练，省 24%–33% 能耗意味着 3–4 次复用即回本），避免田忌赛马式的比较。

3. Coreset 顺手去偏：换个选样目标，同一套子集选择就能在偏置数据上修正少数类

数据节俭的论证里，作者额外补了一条容易被忽视的好处——构造 coreset 时如果把"覆盖度"换成"群组均衡"做选样目标，子集选择就顺带成了去偏工具。他们用 Coloured-MNIST 玩具实验说明：给每个数字染一个"多数色"、其余随机上色，理想分类器本该看形状而非颜色，但在 99% 多数色 / 1% 少数色的强偏置下，模型会偷懒去记颜色。对比三种采样——random（基线）、reweighted（按群组频率反比给样本 loss 加权，压低多数群组）、balanced（直接在 coreset 里把多数/少数群组的样本数拉平，预算不够时对少数类做增广）——后两者都能显著抬高 conflicted accuracy（即模型不靠颜色时的精度）。这说明当数据采集本身因历史/系统性原因无法纠偏时，coreset 可以在"选哪些样本"这一层算法性地补救已知偏置；作者并引 Zhang et al. (2026)、Zhou et al. (2025) 说明这一效应在更真实的数据集上同样成立。

4. 面向 People / Platforms / Policies 三层的可操作动议：把道德呼吁翻译成能写进规则的具体动作

为了不让论文沦为又一篇高调宣言，作者把诉求落到三层。People 层用"Data-Pareto"（精度与数据量同图）替代单一精度，立一条单句准则"motivate 什么就 measure 什么"。Platforms 层借鉴 CVPR 2026 强制 compute reporting 表与 BabyLM / E2MIP 这类 data-efficient 挑战赛，把节俭嵌入投稿与排行榜激励。Policies 层标准化能耗/碳排报告、推动共享数据中心（如瑞典 Berzelius）以减少冗余本地副本、并提出"data sunset laws"——大数据使用须像生物医学数据一样审批并设废止期。作者认为价值-行动鸿沟的根因是"想比做容易、外部约束又限制行动"，只有把节俭从"个人美德"升级到"institutional default"才能跨越它。

损失函数 / 训练策略¶

这是一篇 position paper，无主模型训练 loss。能耗测量栈 = Carbontracker + CodeCarbon，覆盖训练；存储采用 60 kWh/TB/yr 的能耗强度系数（Selvan, 2025）。

实验关键数据¶

主实验：ImageNet-1K 下游环境成本估计¶

维度	估计值	等价碳排（445 g/kWh）	等价人均年碳足迹
训练（46.2k 次 × 300 ep × 0.394 kWh）	5.46 ± 0.14 GWh	2429 ± 61 tCO2e	~514 ± 13 人
存储（46.2k 副本 × 130 GB × 60 kWh/TB/yr）	360 ± 9 MWh	160 ± 4 tCO2e	~34 ± 1 人
合计	5.82 ± 0.15 GWh	2589 ± 65 tCO2e	~548 人
同样能耗 @ Turkmenistan (1310 g/kWh)	—	7624 ± 191 tCO2e	—
同样能耗 @ Lesotho (21 g/kWh)	—	122 ± 3 tCO2e	—

消融：25% 数据裁剪对训练时间 / 能耗的影响（A100，单卡）¶

模型	参数	min/epoch (full → 25%)	时间节省	kWh/epoch (full → 25%)	能耗节省
ResNet-34	21.8M	35.2 → 23.8	32%	0.2798 → 0.1989	29%
ResNet-50	25.6M	40.7 → 24.3	40%	0.3940 → 0.2645	33%
Swin-T	28.3M	58.7 → 44.6	24%	0.7002 → 0.5300	24%

关键发现¶

"25% 数据 ≠ 25% 能耗"：不同架构能耗-数据缩减比从 24% 到 33% 不等，证明数据规模不能当能耗 proxy，必须实测。
Dyn-Unc 与 InfoMax 在 ImageNet-1K 上分别可裁 25% / 35% 而精度不降；按 1.4–1.9 GWh 估算，相当于 621–854 tCO2e 的潜在节省。
Coreset 构造一次性成本可在 3–4 次训练后摊销完，即使是与一次 full 训练同量级的"昂贵" coreset 方法（如 Dyn-Unc）也是值得的。
Coloured-MNIST 实验显示，用 balanced / reweighted 采样替代 random sampling，可在 99% 多数色偏置下显著拉高 conflicted accuracy；这意味着数据节俭可以"顺手"做去偏。
冰山效应：Hugging Face Hub 上 214 个 ImageNet-1K 衍生数据集合计下载超 250 万次，比论文级计数的 46k 大 55 倍——真实下游成本远高于本文给出的下限。

亮点与洞察¶

"先做下限再呼吁"：与多数 sustainability 立场文章不同，作者刻意只用公开元数据算保守下限，把"批评者反驳空间"压到最小，论证更稳。
"motivate 什么就 measure 什么"这条单句行动准则可以直接拷进 ML 会议的 review form——是少见的把价值观转译成 reviewer 工具的 position 写法。
Data-Pareto 报告范式（精度 vs. 数据量同图）对其他子领域有迁移性：模型压缩可以画"精度 vs. FLOPs"、RLHF 可以画"对齐分 vs. 标注 token"，都是把单维 leaderboard 升级为多维证据。
把"shared dataset infrastructure"列为政策建议是个被低估的视角——大多数节能讨论只盯训练侧，而本文指出每个实验室各自存一份 ImageNet 的冗余本身就是几十 MWh 量级的浪费。

局限与展望¶

估计仅覆盖 ImageNet-1K、电力侧、训练 + 存储，未含数据采集 / 清洗 / 网络传输的 embodied 成本与未发表训练；作者也承认这是下限。
全部实证都是图像分类——生成式模型对长尾、稀有模式更敏感，已有 coreset 难直接迁移；生成模型上的数据节俭仍是开放问题。
Rebound effect 风险：效率提升常被消化为"做更多实验"而非净减能耗；论文承认这点但未给量化方案。
政策建议落地性参差：carbon cap、data sunset law 等高级建议依赖跨国监管，短期内难推动；可执行性最强的还是 People 层的报告范式。

评分¶

新颖性: ⭐⭐⭐⭐ 不是新算法，但"先算下限再呼吁"+ Data-Pareto 报告范式 + People/Platforms/Policies 三层框架的组合很少见。
实验充分度: ⭐⭐⭐⭐ 数字保守可复现；Carbontracker + 3 个架构 + 公开 SOTA 曲线 + Coloured-MNIST 去偏实验，证据链完整。
写作质量: ⭐⭐⭐⭐⭐ 结构干净（preach vs. practise 贯穿全文），论证克制不煽情，limitation 段落主动认错。
价值: ⭐⭐⭐⭐ 数据节俭迟早会被纳入 conference 与 funding 规范，本文给出可直接复用的报告模版与行动清单。