Jacobian Aligned Random Forests¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=lpYHuxPEXV
代码: 待确认
领域: 表格学习 / 树集成 / 监督表示学习
关键词: 随机森林, 斜决策树, 期望雅可比外积(EJOP), 全局预条件, 监督降维
一句话总结¶
JARF 用随机森林估计类概率梯度的期望雅可比外积(EJOP),得到一个全局共享的线性预条件矩阵,把"该斜着切"的方向旋转到坐标轴上,从而让普通的轴对齐随机森林一次性获得斜决策树的精度,却几乎不增加训练成本。
研究背景与动机¶
- 领域现状:在表格数据上,随机森林、梯度提升等树集成方法往往强于深度网络,靠的是训练快、调参少、对无关特征鲁棒。但它们底层都是轴对齐决策树——每个节点只用单个特征做阈值切分。
- 现有痛点:当真实决策边界是特征的线性组合(旋转的、有交互的边界)时,轴对齐树只能用一连串正交切口去逼近一条斜线,导致树更深、决策区域碎片化,伤害精度与样本效率。斜决策树(Oblique Forest,如 OC1、CCF、SPORF)在每个节点学一个超平面来解决这个问题,但代价是逐节点的优化:要么爬山要么解凸问题,训练慢、参数多、易过拟合。
- 核心矛盾:轴对齐树"简单快但表达力弱" vs 斜树"表达力强但慢而复杂",两者之间缺一个折中。
- 本文目标:在不改动树学习器内部的前提下,让标准随机森林具备捕捉斜边界和特征交互的能力。
- 核心 idea:全局监督预条件——不在每个节点反复优化超平面,而是一次性学一个所有树/所有节点共享的全局线性变换 \(\hat H\),把最具标签预测性的方向旋转/缩放到坐标轴上;之后普通轴对齐分裂在新空间里就等价于原空间的斜分裂。这个变换来自类概率函数的梯度统计量(EJOP),是 one-pass、模型无关、开销极小的。
方法详解¶
整体框架¶
JARF 把"学斜边界"这件事从训练循环里剥离出来,变成一次性的特征预处理:先用一个代理随机森林估计类概率,再用有限差分算出每个特征方向上概率的敏感度,聚合成 EJOP 矩阵 \(\hat H\),用它对输入做线性变换,最后在变换后的特征上训一个普通随机森林。整条管线只是在标准 RF 前面插了一个"算 \(\hat H\) + 乘 \(\hat H\)"的步骤。
flowchart LR
A[训练数据 X,y] --> B[代理随机森林<br/>估计类概率 p̂c x]
B --> C[有限差分<br/>逐特征概率梯度]
C --> D[EJOP 矩阵 Ĥ0<br/>= 平均 G·Gᵀ]
D --> E[预条件<br/>Ĥ=Ĥ0+γI, 迹归一化]
E --> F[变换特征 XĤ]
A --> F
F --> G[标准轴对齐随机森林<br/>训练 / 推理]
关键设计¶
1. EJOP:用类概率梯度刻画"该旋转的方向"。 JARF 的核心对象是期望雅可比外积。设 \(f:\mathbb{R}^d\to\Delta^{C-1}\) 是输出类概率的分类器,\(J_f(x)\in\mathbb{R}^{d\times C}\) 的每一列是某类概率对输入的梯度 \(\nabla_x f_c(x)\),则 $\(H_0 = \mathbb{E}_X\!\left[J_f(X)J_f(X)^\top\right] = \sum_{c=1}^{C}\mathbb{E}_X\!\left[\nabla_x f_c(X)\,\nabla_x f_c(X)^\top\right].\)$ 这个矩阵的主特征向量恰好张成 \(p(y\mid x)\) 变化最剧烈的方向——也就是边界"斜"向的法线方向。回归任务里 \(C=1\),它退化为期望梯度外积(EGOP) \(H_0=\mathbb{E}_X[\nabla f(X)\nabla f(X)^\top]\),同一套流程通用。概念上这是 SIR/SAVE 等监督降维的梯度版:不依赖 \(X\mid Y\) 的一/二阶矩,而是直接聚合"预测概率对输入的敏感度",得到一套标签知情的几何。
2. 有限差分 + 随机森林代理:让方法对非光滑模型也成立。 真实贝叶斯概率未知,需要一个代理 \(\hat f\)。JARF 直接用随机森林做代理,因为集成平均给出稳定的概率估计、计算便宜、且与最终预测器同族保持一致。但随机森林的预测是分段常数、不可微,所以梯度不能解析求,而是用中心有限差分逐坐标估计: $\(g_j(x_i;c) \approx \frac{\hat f_c(x_i+\tfrac{\varepsilon}{2}e_j)-\hat f_c(x_i-\tfrac{\varepsilon}{2}e_j)}{\varepsilon}.\)$ 关键技巧是自适应步长 \(\varepsilon_j=\alpha\cdot \mathrm{MAD}(X_{:j})/0.6745\)(\(\alpha=0.1\))加分位裁剪:步长按每个特征的尺度自适应,保证探测点既能跨过有用的分裂阈值、又落在数据经验范围内。集成平均又把单棵树的不连续性抹平,使有限差分方差很低。把每个样本的梯度堆成 \(G_i(y_i)\),EJOP 估计为 \(\hat H_0=\frac{1}{m}\sum_i G_i(y_i)G_i(y_i)^\top\)。
3. 全局预条件映射:一矩阵共享给所有树。 拿到 \(\hat H_0\) 后做两步稳定化:加小对角项改善条件数 \(\hat H=\hat H_0+\gamma I_d\),再做迹归一化 \(\hat H \leftarrow \hat H/(\mathrm{tr}(\hat H)/d)\) 让特征尺度可比。输入映射为 \(\Phi(x)=x^\top\hat H\),在变换后的设计矩阵 \(X\hat H\) 上训练标准森林。与逐节点斜树的本质区别在于:JARF 的 \(\hat H\) 在所有树、所有节点之间共享,原坐标下诱导的斜超平面是 \(x^\top\hat H e_j\le\tau\)(同一个 \(\hat H\));而 CCF/RotF 每个节点重新学投影,开销随森林规模线性累加。这正是 JARF 把斜树的开销从"每节点 \(\times\) 树数"摊薄成"一次性"的关键。
实验关键数据¶
主实验表格¶
15 个分类数据集(10 个 OpenML/UCI 核心任务 + 5 个 \(d>100\) 高维任务),Cohen's κ 均值:
| 方法 | 类型 | 平均 κ |
|---|---|---|
| RF | 轴对齐 | 0.704 |
| RotF | 斜(逐树旋转) | 0.715 |
| CCF | 斜(逐节点) | 0.715 |
| SPORF | 斜(逐节点稀疏) | 0.723 |
| XGBoost | 轴对齐提升 | 0.709 |
| PCA+RF | 全局无监督投影 | 0.692 |
| LDA+RF | 全局监督投影 | 0.697 |
| JARF | 全局监督预条件 | 0.810 |
JARF 在 15 个任务中 12 个最优,且从不比 RF 差超过 1 个标准误。5 个回归任务上 R² 也全胜(均值 0.836 vs RF 0.776)。
消融实验表格¶
(变体减去默认 JARF 的 Δκ,† 表示 \(p<0.05\))
| 变体 | Δκ | 说明 |
|---|---|---|
| Identity(\(\hat H=I\),去掉 EJOP) | -0.036† | 预条件是性能的根本来源 |
| 估计样本 \(m=0.5n\) | -0.004 | 半数据基本无损 |
| 估计样本 \(m=0.1n\) | -0.016† | 数据太少才显著退化 |
| 前向差分(替代中心差分) | -0.011 | 中心差分更优 |
| 步长 \(\alpha=0.05\) / \(0.2\) | -0.009 / -0.013 | \(\alpha=0.1\) 偏差-方差最佳 |
| 类别特征 one-hot | -0.006 | 离散梯度引入噪声 |
| 去稳定化项(\(\gamma\)、迹归一) | ≈-0.005 | 对精度影响小但改善条件数 |
关键发现¶
- 效率:JARF 训练时间约为 RF 的 1.67×(RF 15s → JARF 25s),远快于逐节点斜树(RotF 60s、CCF 44s、SPORF 45s)。EJOP 预条件对整片森林只算一次,而逐节点斜树的开销随树数累加。
- 机理验证:主角度分析显示,斜树(RotF/CCF/SPORF)通过逐节点优化"自己发现"的分裂法线,强烈集中在 EJOP 的低维子空间里——证明 JARF 一次性算出的全局方向,正是斜树费劲学到的方向。
- 合成实验:旋转超平面任务中,旋转角 θ 越大,轴对齐方法(RF/XGB/PCA+RF/LDA+RF)退化越快,JARF 在中大角度上 κ 最高;小角度时各方法接近,说明 JARF 的优势主要出现在轴对齐假设被严重违反时。
亮点与洞察¶
- 把"学斜边界"从训练循环里搬出来:斜树的标准范式是逐节点优化超平面,JARF 反其道把它压缩成一次性的全局预处理,用"摊销"换掉了"重复",这是计算结构上的根本简化。
- EJOP 同时统一了分类与回归:分类用雅可比、回归用梯度,同一套预条件流程通吃,且能挂在任意森林/提升模型前面(模型无关)。
- 机理可证伪且被证实:主角度分析直接量化"斜树发现的方向 ≈ EJOP 方向",让"为什么有效"不只是经验观察,而是有几何解释。
- PCA+RF / LDA+RF 作对照很到位:证明 JARF 的增益不是泛泛的"先投影再训森林",而是来自标签知情的概率梯度几何(PCA+RF/LDA+RF 几乎不涨甚至掉点)。
局限与展望¶
- 依赖代理概率质量:监督旋转完全建立在随机森林的概率梯度估计上,若概率噪声大或校准差,\(\hat H\) 会与真实决策几何错位,甚至反而掉精度——这是作者自己点出的首要风险。
- 小角度/已轴对齐场景无收益:当边界本就接近坐标轴时,JARF 相对 RF 几乎没有优势,额外的预条件开销变成纯成本。
- 全局单一变换的天花板:一个全局 \(\hat H\) 无法刻画"不同区域需要不同旋转"的局部异质边界,这正是逐节点斜树仍可能更强的情形;未来可探索分块/局部 EJOP。
- 类别特征处理偏弱:one-hot 的离散梯度引入噪声反而掉点,混合类型表格上的梯度估计仍需更好的方案。
- 论文表格数值(如部分 κ 值)疑似含合成/示意成分,落地前建议在自有数据上复现验证。
相关工作与启发¶
- 监督降维谱系:SIR(Li, 1991)、SAVE(Cook, 2000)、Fisher LDA 用 \(X\mid Y\) 的矩找预测子空间;JARF 是其"梯度版",把一/二阶矩换成概率敏感度。
- 梯度全局敏感度:EGOP(Trivedi et al., 2014)与 EJOP(Trivedi & Wang, 2020)本是降维/度量学习工具,JARF 的贡献在于把它接到树集成的预条件上,并用 RF 代理替代核回归代理。
- 斜决策森林:OC1(逐节点爬山)、Rotation Forest(逐树无监督 PCA 旋转)、CCF(逐节点 CCA 监督投影)、SPORF(逐节点稀疏随机方向)——JARF 与它们的根本差异是"全局 + 监督 + one-pass + 不改学习器"。
- 启发:对任何"逐节点/逐步重复求解"的方法,都值得问一句——这个解能不能被一个全局、一次性的预条件摊销掉?这是把昂贵的局部自适应换成廉价全局变换的通用思路。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把成熟的 EJOP 监督降维巧妙嫁接为树集成的全局预条件,"用一次性全局变换替代逐节点优化"的视角清晰且实用,虽非全新组件但组合与定位有真见地。
- 实验充分度: ⭐⭐⭐ 合成 + 15 分类 + 5 回归 + 效率 + 机理(主角度)+ 消融,覆盖面好;但 8 个基线 κ 值高度规整、疑含示意成分,统计可信度打折扣。
- 写作质量: ⭐⭐⭐⭐ 动机—方法—机理叙述连贯,公式与直觉配合到位,主角度分析把"为什么有效"讲得很清楚。
- 价值: ⭐⭐⭐⭐ 方法简单、模型无关、几乎零成本即插即用,对表格 ML 从业者有直接落地价值,且提供了可迁移的"全局摊销"设计范式。