Jacobian Aligned Random Forests¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=lpYHuxPEXV
代码: 待确认
领域: 表格学习 / 树集成 / 监督表示学习
关键词: 随机森林, 斜决策树, 期望雅可比外积(EJOP), 全局预条件, 监督降维

一句话总结¶

JARF 用随机森林估计类概率梯度的期望雅可比外积(EJOP)，得到一个全局共享的线性预条件矩阵，把"该斜着切"的方向旋转到坐标轴上，从而让普通的轴对齐随机森林一次性获得斜决策树的精度，却几乎不增加训练成本。

研究背景与动机¶

领域现状：在表格数据上，随机森林、梯度提升等树集成方法往往强于深度网络，靠的是训练快、调参少、对无关特征鲁棒。但它们底层都是轴对齐决策树——每个节点只用单个特征做阈值切分。
现有痛点：当真实决策边界是特征的线性组合（旋转的、有交互的边界）时，轴对齐树只能用一连串正交切口去逼近一条斜线，导致树更深、决策区域碎片化，伤害精度与样本效率。斜决策树（Oblique Forest，如 OC1、CCF、SPORF）在每个节点学一个超平面来解决这个问题，但代价是逐节点的优化：要么爬山要么解凸问题，训练慢、参数多、易过拟合。
核心矛盾：轴对齐树"简单快但表达力弱" vs 斜树"表达力强但慢而复杂"，两者之间缺一个折中。
本文目标：在不改动树学习器内部的前提下，让标准随机森林具备捕捉斜边界和特征交互的能力。
核心 idea：全局监督预条件——不在每个节点反复优化超平面，而是一次性学一个所有树/所有节点共享的全局线性变换 $\hat H$，把最具标签预测性的方向旋转/缩放到坐标轴上；之后普通轴对齐分裂在新空间里就等价于原空间的斜分裂。这个变换来自类概率函数的梯度统计量（EJOP），是 one-pass、模型无关、开销极小的。

方法详解¶

整体框架¶

JARF 把"学斜边界"这件事从训练循环里剥离出来，变成一次性的特征预处理：先用一个代理随机森林估计类概率，再用有限差分算出每个特征方向上概率的敏感度，聚合成 EJOP 矩阵 $\hat H$，用它对输入做线性变换，最后在变换后的特征上训一个普通随机森林。整条管线只是在标准 RF 前面插了一个"算 $\hat H$ + 乘 $\hat H$"的步骤。

flowchart LR
    A[训练数据 X,y] --> B[代理随机森林<br/>估计类概率 p̂c x]
    B --> C[有限差分<br/>逐特征概率梯度]
    C --> D[EJOP 矩阵 Ĥ0<br/>= 平均 G·Gᵀ]
    D --> E[预条件<br/>Ĥ=Ĥ0+γI, 迹归一化]
    E --> F[变换特征 XĤ]
    A --> F
    F --> G[标准轴对齐随机森林<br/>训练 / 推理]

关键设计¶

1. EJOP：用类概率梯度刻画"该旋转的方向"。 JARF 的核心对象是期望雅可比外积。设 $f:\mathbb{R}^d\to\Delta^{C-1}$ 是输出类概率的分类器，$J_f(x)\in\mathbb{R}^{d\times C}$ 的每一列是某类概率对输入的梯度 $\nabla_x f_c(x)$，则 $$H_0 = \mathbb{E}_X\!\left[J_f(X)J_f(X)^\top\right] = \sum_{c=1}^{C}\mathbb{E}_X\!\left[\nabla_x f_c(X)\,\nabla_x f_c(X)^\top\right].$$ 这个矩阵的主特征向量恰好张成 $p(y\mid x)$ 变化最剧烈的方向——也就是边界"斜"向的法线方向。回归任务里 $C=1$，它退化为期望梯度外积(EGOP) $H_0=\mathbb{E}_X[\nabla f(X)\nabla f(X)^\top]$，同一套流程通用。概念上这是 SIR/SAVE 等监督降维的梯度版：不依赖 $X\mid Y$ 的一/二阶矩，而是直接聚合"预测概率对输入的敏感度"，得到一套标签知情的几何。

2. 有限差分 + 随机森林代理：让方法对非光滑模型也成立。 真实贝叶斯概率未知，需要一个代理 $\hat f$。JARF 直接用随机森林做代理，因为集成平均给出稳定的概率估计、计算便宜、且与最终预测器同族保持一致。但随机森林的预测是分段常数、不可微，所以梯度不能解析求，而是用中心有限差分逐坐标估计： $$g_j(x_i;c) \approx \frac{\hat f_c(x_i+\tfrac{\varepsilon}{2}e_j)-\hat f_c(x_i-\tfrac{\varepsilon}{2}e_j)}{\varepsilon}.$$ 关键技巧是自适应步长 $\varepsilon_j=\alpha\cdot \mathrm{MAD}(X_{:j})/0.6745$（$\alpha=0.1$）加分位裁剪：步长按每个特征的尺度自适应，保证探测点既能跨过有用的分裂阈值、又落在数据经验范围内。集成平均又把单棵树的不连续性抹平，使有限差分方差很低。把每个样本的梯度堆成 $G_i(y_i)$，EJOP 估计为 $\hat H_0=\frac{1}{m}\sum_i G_i(y_i)G_i(y_i)^\top$。

3. 全局预条件映射：一矩阵共享给所有树。 拿到 $\hat H_0$ 后做两步稳定化：加小对角项改善条件数 $\hat H=\hat H_0+\gamma I_d$，再做迹归一化 $\hat H \leftarrow \hat H/(\mathrm{tr}(\hat H)/d)$ 让特征尺度可比。输入映射为 $\Phi(x)=x^\top\hat H$，在变换后的设计矩阵 $X\hat H$ 上训练标准森林。与逐节点斜树的本质区别在于：JARF 的 $\hat H$ 在所有树、所有节点之间共享，原坐标下诱导的斜超平面是 $x^\top\hat H e_j\le\tau$（同一个 $\hat H$）；而 CCF/RotF 每个节点重新学投影，开销随森林规模线性累加。这正是 JARF 把斜树的开销从"每节点 $\times$ 树数"摊薄成"一次性"的关键。

实验关键数据¶

主实验表格¶

15 个分类数据集（10 个 OpenML/UCI 核心任务 + 5 个 $d>100$ 高维任务），Cohen's κ 均值：

方法	类型	平均 κ
RF	轴对齐	0.704
RotF	斜(逐树旋转)	0.715
CCF	斜(逐节点)	0.715
SPORF	斜(逐节点稀疏)	0.723
XGBoost	轴对齐提升	0.709
PCA+RF	全局无监督投影	0.692
LDA+RF	全局监督投影	0.697
JARF	全局监督预条件	0.810

JARF 在 15 个任务中 12 个最优，且从不比 RF 差超过 1 个标准误。5 个回归任务上 R² 也全胜（均值 0.836 vs RF 0.776）。

消融实验表格¶

（变体减去默认 JARF 的 Δκ，† 表示 $p<0.05$）

变体	Δκ	说明
Identity（$\hat H=I$，去掉 EJOP）	-0.036†	预条件是性能的根本来源
估计样本 $m=0.5n$	-0.004	半数据基本无损
估计样本 $m=0.1n$	-0.016†	数据太少才显著退化
前向差分(替代中心差分)	-0.011	中心差分更优
步长 $\alpha=0.05$ / $0.2$	-0.009 / -0.013	$\alpha=0.1$ 偏差-方差最佳
类别特征 one-hot	-0.006	离散梯度引入噪声
去稳定化项($\gamma$、迹归一)	≈-0.005	对精度影响小但改善条件数

关键发现¶

效率：JARF 训练时间约为 RF 的 1.67×（RF 15s → JARF 25s），远快于逐节点斜树（RotF 60s、CCF 44s、SPORF 45s）。EJOP 预条件对整片森林只算一次，而逐节点斜树的开销随树数累加。
机理验证：主角度分析显示，斜树(RotF/CCF/SPORF)通过逐节点优化"自己发现"的分裂法线，强烈集中在 EJOP 的低维子空间里——证明 JARF 一次性算出的全局方向，正是斜树费劲学到的方向。
合成实验：旋转超平面任务中，旋转角 θ 越大，轴对齐方法(RF/XGB/PCA+RF/LDA+RF)退化越快，JARF 在中大角度上 κ 最高；小角度时各方法接近，说明 JARF 的优势主要出现在轴对齐假设被严重违反时。

亮点与洞察¶

把"学斜边界"从训练循环里搬出来：斜树的标准范式是逐节点优化超平面，JARF 反其道把它压缩成一次性的全局预处理，用"摊销"换掉了"重复"，这是计算结构上的根本简化。
EJOP 同时统一了分类与回归：分类用雅可比、回归用梯度，同一套预条件流程通吃，且能挂在任意森林/提升模型前面（模型无关）。
机理可证伪且被证实：主角度分析直接量化"斜树发现的方向 ≈ EJOP 方向"，让"为什么有效"不只是经验观察，而是有几何解释。
PCA+RF / LDA+RF 作对照很到位：证明 JARF 的增益不是泛泛的"先投影再训森林"，而是来自标签知情的概率梯度几何（PCA+RF/LDA+RF 几乎不涨甚至掉点）。

局限与展望¶

依赖代理概率质量：监督旋转完全建立在随机森林的概率梯度估计上，若概率噪声大或校准差，$\hat H$ 会与真实决策几何错位，甚至反而掉精度——这是作者自己点出的首要风险。
小角度/已轴对齐场景无收益：当边界本就接近坐标轴时，JARF 相对 RF 几乎没有优势，额外的预条件开销变成纯成本。
全局单一变换的天花板：一个全局 $\hat H$ 无法刻画"不同区域需要不同旋转"的局部异质边界，这正是逐节点斜树仍可能更强的情形；未来可探索分块/局部 EJOP。
类别特征处理偏弱：one-hot 的离散梯度引入噪声反而掉点，混合类型表格上的梯度估计仍需更好的方案。
论文表格数值（如部分 κ 值）疑似含合成/示意成分，落地前建议在自有数据上复现验证。

评分¶

新颖性: ⭐⭐⭐⭐ 把成熟的 EJOP 监督降维巧妙嫁接为树集成的全局预条件，"用一次性全局变换替代逐节点优化"的视角清晰且实用，虽非全新组件但组合与定位有真见地。
实验充分度: ⭐⭐⭐ 合成 + 15 分类 + 5 回归 + 效率 + 机理(主角度)+ 消融，覆盖面好；但 8 个基线 κ 值高度规整、疑含示意成分，统计可信度打折扣。
写作质量: ⭐⭐⭐⭐ 动机—方法—机理叙述连贯，公式与直觉配合到位，主角度分析把"为什么有效"讲得很清楚。
价值: ⭐⭐⭐⭐ 方法简单、模型无关、几乎零成本即插即用，对表格 ML 从业者有直接落地价值，且提供了可迁移的"全局摊销"设计范式。

变体	Δκ	说明
Identity（\(\hat H=I\)，去掉 EJOP）	-0.036†	预条件是性能的根本来源
估计样本 \(m=0.5n\)	-0.004	半数据基本无损
估计样本 \(m=0.1n\)	-0.016†	数据太少才显著退化
前向差分(替代中心差分)	-0.011	中心差分更优
步长 \(\alpha=0.05\) / \(0.2\)	-0.009 / -0.013	\(\alpha=0.1\) 偏差-方差最佳
类别特征 one-hot	-0.006	离散梯度引入噪声
去稳定化项(\(\gamma\)、迹归一)	≈-0.005	对精度影响小但改善条件数