ECSEL: Explainable Classification via Signomial Equation Learning¶
会议: ICML 2026
arXiv: 2601.21789
代码: https://github.com/AdiaLumadjeng/ecsel (有)
领域: 可解释机器学习 / 符号回归 / 内在可解释分类器
关键词: signomial函数、符号回归、可解释分类、L1稀疏正则、闭式归因
一句话总结¶
ECSEL 把"每个类别一个 signomial(带实数指数的幂律和)函数 + softmax"作为分类器,配合 L1 稀疏正则与多阶段优化,既能在 AI Feynman 等符号回归 benchmark 上以远低于 SOTA 的算力恢复 95.86% 的目标方程,又能在 11 个分类数据集上与 XGBoost/MLP 打平,同时所有特征归因都由模型参数闭式给出。
研究背景与动机¶
领域现状:当前可解释 AI 主要有两条路线。一是 post-hoc 解释(LIME、SHAP、Integrated Gradients),在黑盒模型外再训一个替代模型来解释预测;二是 inherently interpretable 模型(决策树、GAM、稀疏线性模型),结构本身就是解释。符号回归(SR)则属于第二类的极端形态——直接产出一条人类可读的方程。
现有痛点:通用 SR 方法(GP、PySR、DGSR、NeSymRes)把搜索空间设成"任意函数形式",导致两个问题:(1) 算力极大,DGSR 在一个方程上平均要 612s,且经常超时;(2) 高维数据上性能崩坏。而 post-hoc 解释又被 Rudin 等人批评为"对高风险决策不可靠"。
核心矛盾:通用 SR 的表达能力 没有被benchmark 兑现——作者发现 AI Feynman 100 个物理方程里 45 个本身就是 signomial(\(\sum_k \alpha_k \prod_j x_j^{\beta_{k,j}}\) 形式的幂律和)。也就是说,benchmark 早就在喊"我有结构",但通用方法非要在巨大空间里盲搜。
本文目标:(1) 把 signomial 作为一类正经的"模型族"而不是优化目标;(2) 让 signomial 既能做 SR、又能做分类;(3) 让"全局/决策边界/局部"三层解释都从模型参数 闭式 推出,不再需要采样。
切入角度:signomial 在对数空间里就是线性函数(\(\log z = \sum_j \beta_j \log x_j + \log\alpha\)),所以指数 \(\beta_{k,j}\) 直接编码了"特征对输出的弹性"(economics 里的 elasticity)。这是天然的"参数即解释"结构。
核心 idea:用"每类一个 signomial + softmax + L1 正则"换掉 deep classifier,把"训练成本"换成"零成本的解释"。
方法详解¶
整体框架¶
输入是任意特征向量 \(x \in \mathbb{R}^m\),先经仿射变换映射到 \([1, 10]\) 以满足 signomial 的正性要求。对 \(C\) 分类问题,每个类 \(c\) 学一个由 \(K\) 个幂律项组成的 signomial 分数函数:
(出于格式要求改写为行内)即 \(z_c(x) = \sum_{k=1}^{K} \alpha_{c,k} \prod_{j=1}^{m} x_j^{\beta_{c,k,j}}\),参数为系数 \(\alpha_{c,k} \in \mathbb{R}\) 和指数 \(\beta_{c,k,j} \in \mathbb{R}\)。\(K\) 控制复杂度:\(K=1\) 是单幂律,\(K>1\) 是多个幂律的加性组合。最后接 softmax(多类)或 sigmoid(二类)给出概率。SR 版本只把 cross-entropy 换成 MSE。
理论上作者证明了 Signomial 通用近似定理:通过 \(\log\) 变换映到正 orthant 上的指数线性函数,再套 Stone-Weierstrass,得到 signomial 在 \(\mathbb{R}^m_{>0}\) 紧子集上对连续函数稠密。这把 signomial 与神经网络放到了同一档"万能近似器"上,但天然偏好乘性幂律关系。
关键设计¶
-
类别专属 signomial + L1 指数稀疏化:
- 功能:让分类器的得分函数本身就是一条人类可读的"乘除分式"方程,且自动选特征。
- 核心思路:每个类 \(c\) 拥有独立的 \(\{\alpha_{c,k}, \beta_{c,k,j}\}\),训练目标为 \(\mathcal{L} = -\frac{1}{N}\sum_i \log p_{y_i}(x_i) + \lambda \sum_{c,k,j} |\beta_{c,k,j}|\)。L1 项只作用在 指数 上,把不相关特征的 \(\beta\) 推到 0,等价于"把那一项里的 \(x_j^0 = 1\) 抹掉",从而产出稀疏方程。这一点和直接稀疏系数 \(\alpha\) 不同:稀疏 \(\beta\) 是"特征选择",稀疏 \(\alpha\) 只是"项选择"。
- 设计动机:传统 GAM/线性模型只能加性,捕捉不到 e-commerce 里 PageValue/ExitRate 的乘除交互;而黑盒方法能捕捉交互但要靠 SHAP 解释。signomial 的乘性结构天然表达这种交互,又因为 \(\log\) 后是线性,所以可以闭式归因。
-
多阶段 staged optimization(\(K=1\) vs \(K>1\)):
- 功能:让非凸的指数空间搜索 可靠 收敛,这是把"理论上很美的 signomial"落地为"实际能跑"的关键。
- 核心思路:\(K=1\) 时整个目标是低维光滑函数,用 L-BFGS-B 直接打;\(K>1\) 时空间高维非凸,采用三段策略:① Adam + 强 L1 做"结构发现",让方程项之间分化;② 减弱 L1 做"精修";③ 用最优 Adam 点初始化 L-BFGS 做最后抛光。多个随机种子做 multi-start。同时对幂律项做 \(\log\) 域变换 + 特征缩放保数值稳定。
- 设计动机:signomial 的指数可以是任意实数(包含负值、分数),梯度对 \(\beta\) 是 \(z_{c,k}(x) \cdot \log x_j\),量级极易爆。如果直接 Adam 一把梭,要么卡在局部极小要么发散——staged 策略本质上是"先用噪声梯度跳出局部、再用二阶法精修",借此把 SR 上的恢复率从 DGSR 的 59% 拉到 95.86%。
-
闭式三层解释族(全局弹性 / 决策边界 / 局部归因):
- 功能:模型一旦训完,任何解释查询都是参数代数运算,零额外计算。
- 核心思路:(a) 全局弹性 \(E_{c,j}(x) = \partial \log z_c / \partial \log x_j = \sum_k \frac{z_{c,k}(x)}{z_c(x)} \beta_{c,k,j}\),\(K=1\) 时退化为常数 \(\beta_{c,j}\);(b) counterfactual 把 \(x_j\) 乘以 \(q\) 后新分数 \(z_c^{\text{new}}(x) = \sum_k q^{\beta_{c,k,j}} z_{c,k}(x)\),不用重新预测;(c) 决策边界灵敏度 \(\partial(z_c - z_{c'})/\partial \log x_j\) 在 \(K=1\) 时是 \(z_c \beta_{c,j} - z_{c'} \beta_{c',j}\),直接读出"哪个指数差驱动了类间竞争";(d) 局部归因 利用 \(\log z_{c,k}(x) = \log z_{c,k}(b) + \sum_j \beta_{c,k,j} \log(x_j/b_j)\),\(K=1\) 时是 精确 SHAP 式分解,\(K>1\) 时退化为一阶线性化 \(\phi_j \approx G_{c,j}(x^*)(\log x_j - \log x_j^*)\)。
- 设计动机:SHAP/LIME 之所以慢(KernelSHAP 在 OSI 上要 28.5s),是因为它们在做 Monte Carlo 采样去逼近一个本应闭式的量。signomial 的 \(\log\) 线性结构让所有这些量都有解析式——这是结构红利。作者还正式证明(Theorem 3.2)ECSEL 满足 G1-G3、D1-D2、L1-L2 全部七条性质。
损失函数 / 训练策略¶
分类用 cross-entropy + L1 on \(\beta\):\(\mathcal{L} = -\frac{1}{N}\sum_i \log p_{y_i}(x_i) + \lambda \sum_{c,k,j} |\beta_{c,k,j}|\);SR 用 MSE 版本 \(\mathcal{L}_{\text{SR}} = \frac{1}{N}\sum_i (y_i - z(x_i))^2 + \lambda \sum_{k,j}|\beta_{k,j}|\)。\(\lambda\) 是关键超参(PaySim 上取 \(2 \times 10^4\))。优化器对 \(K=1\) 用 L-BFGS-B,\(K>1\) 用 Adam (warm) + Adam (refine) + L-BFGS (polish) 三段式;超参由 Optuna TPE 在 30 trial 内搜。
实验关键数据¶
主实验¶
符号回归(45 个 AI Feynman signomial 子集 + Livermore/Jin/Korns/DGSR 合成集,5 个随机种子 42-46):
| 方法 | 符号恢复率 | 平均耗时(秒/方程) |
|---|---|---|
| NeSymRes | 56% | 126.3 |
| NGGP | 58.54% | 468.7 |
| DGSR (SOTA) | 59.10% | 612.9 |
| ECSEL | 95.86% | 86.4 |
分类(11 个 binary/multi-class benchmark,5-fold CV,代表性 3 个数据集):
| 数据集 | 方法 | Acc. | F1 | 少数类 Recall |
|---|---|---|---|---|
| Ilpd | LR | 71.55 | 58.45 | 3.03 |
| Ilpd | XGBoost | 72.41 | 63.03 | 6.06 |
| Ilpd | ECSEL | 75.86 | 74.39 | 42.42 |
| Compas | XGBoost | 68.18 | 68.08 | 62.54 |
| Compas | ECSEL | 68.47 | 68.36 | 62.82 |
| Transfusion | XGBoost | 80.06 | 78.72 | 38.89 |
| Transfusion | ECSEL | 79.33 | 77.95 | 41.67 |
ECSEL 在 11 个里 4 个拿 F1 第一(Seeds/Hearts/ILPD/Compas),9 个数据集上和最优方法差距 \(<1\) 个百分点;ILPD 上 F1 比 XGBoost 高 11.36,少数类召回直接 +36 个点。
消融实验 / 解释器对比(OSI e-commerce 数据集)¶
| 方法 | 解释器 | 计算时间(秒) | Top-3 特征 |
|---|---|---|---|
| ECSEL | 精确指数 | 0.1 | PVER, SI, PV |
| LR | LinearSHAP | 0.1 | PVER, Mo, PR |
| LR | LIME | 5.3 | PVER, Mo, PR |
| RF | TreeSHAP | 1.5 | PVER, PV, SI |
| RF | LIME | 32.0 | PVER, PV, ER |
| XGBoost | TreeSHAP | 0.1 | PVER, Mo, SI |
| XGBoost | LIME | 7.7 | PVER, PR, ER |
| MLP | KernelSHAP | 28.5 | PVER, PR, Mo |
关键发现¶
- 结构红利非常大:DGSR 在 AI Feynman signomial 子集上虽然是 SOTA,但因为架构不允许限制函数形式,恢复率只有 59%;ECSEL 直接 hardcode signomial 形式,恢复率涨 37 个点,耗时降到 1/7。
- 少数类召回是隐形优势:ILPD 上 XGBoost 少数类 recall 才 6%(基本只猜多数类),ECSEL 直接 42%;fraud detection PaySim 上 ECSEL F1 79.08%,超过此前 DSC 的 78%,且 precision 高达 94.27%。
- 解释成本零摊销:把训练时间多花一点(OSI 上 5.5s vs LR 0.1s),换来推理时 SHAP/LIME 完全不需要。MLP 上 KernelSHAP 要 28.5s 才能跑完测试集解释,ECSEL 0.1s。
- 学到的方程有 领域意义:PaySim 上 \(\beta_{\text{OBO}} = 1.42\) 揭示"欺诈者超线性地针对高价值账户"——这是黑盒模型给不出来的可执行 insight;OSI 上自动 surface 出 PVER(PageValue/ExitRate)这个组合特征作为 dominant predictor。
亮点与洞察¶
- "参数即解释"的彻底贯彻:很多 inherently interpretable 模型(如 GAM)声称可解释但还是要画 partial dependence;ECSEL 把全局弹性、counterfactual、决策边界、局部归因全部都化为 \(\beta\) 和 \(z_{c,k}\) 的代数式,文章 Theorem 3.2 把 7 条性质形式化证明了一遍——这是"声称可解释" → "可证明可解释"的升级。
- 从"benchmark observation"到"算法设计":作者从一个非常实证的观察(AI Feynman 100 个方程里 45 个是 signomial)反推出方法。这种"benchmark 已经在告诉我答案,但通用方法不去听"的思路可以迁移到其他领域——比如 LLM benchmark 里也常有大量结构化任务被通用模型"过度通用化"地处理。
- L1 加在指数而非系数:这个小细节关键。\(\beta_j = 0\) 等价于 \(x_j^0 = 1\),等价于"这一项里这个特征不存在",所以稀疏 \(\beta\) 等价于"每一项里都做特征选择"。如果稀疏 \(\alpha\),只能淘汰整项,粒度更粗。这种"在乘性结构里搞稀疏"的思路对其他乘性模型(如 KAN、NAM)都有借鉴价值。
局限与展望¶
- 作者承认:\(K\) 必须提前指定,是分类时常规超参但在 SR 里是真限制;高次单变量多项式(Nguyen)上仍打不过特化方法。
- 自己看出的局限:(1) 要求所有特征 \(> 0\),需要先做 \([1, 10]\) 仿射映射;负值或类别特征处理不优雅;(2) \(K>1\) 时局部归因从精确退化为一阶线性化,"严格可解释性"打了折扣;(3) 多阶段优化里的超参(Adam 步数、L1 退火 schedule)会显著影响最终方程的"美感",重现性是个挑战;(4) 对离散/类别特征几乎没有讨论,这限制了在表格数据外的应用。
- 改进思路:把 \(K\) 做成可学习的(neural ODE 风格的"按需增长"),或者把指数限制到有理数子集以增强 exact 符号恢复率;探索 group-L1 等让不同类共享特征选择结构;用 Mixture-of-signomials 处理多模态分布。
相关工作与启发¶
- vs DGSR/NeSymRes/gplearn(通用 SR):他们在巨大空间里搜任意函数;ECSEL 锁定 signomial 子空间。代价是放弃了非幂律结构(如 \(\sin\)、\(\exp\) 等只是参考函数族里没有的),换来 37 个点的恢复率提升和 7 倍加速。
- vs GAM / Neural Additive Models(NAM):GAM/NAM 是 加性 的可解释模型,无法捕捉乘性交互;ECSEL 是 乘性 可解释模型,自然处理 elasticity 类经济/生物特征。两者互补,未来可以合并成 "Generalized Additive + Multiplicative Models"。
- vs SHAP/LIME:post-hoc 方法在任意模型上事后采样估计;ECSEL 直接从参数闭式给出,且 G1 ≈ global SHAP,G3 ≈ LIME,L1, L2 ≈ additive SHAP。意义是把 SHAP 的"估计量"变成 signomial 上的"恒等式"——快、确定、可证明。
- vs KAN(Kolmogorov-Arnold Networks):KAN 也声称可解释,用可学习样条 + symbolification;ECSEL 的 signomial 是更受约束但天然闭式的子空间。两者可以看作"可解释模型"光谱上的不同点。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把 signomial 从优化对象提升为模型类是关键 reframing,但每个组件单独都不算新。
- 实验充分度: ⭐⭐⭐⭐⭐ 45 个 SR 方程 + 11 个分类数据集 + 2 个真实 case study + 与 4 类基线和 5 种解释器全面对比,充分。
- 写作质量: ⭐⭐⭐⭐ 结构清晰、定理与 property 编号严格;少量公式编号在分类章节略密集。
- 价值: ⭐⭐⭐⭐⭐ 在金融/医疗等高 stakes 场景给出"无需 post-hoc"的真·可解释分类器,且 PaySim/OSI 两个案例展示了实际能落地的 insight。