Inlier-Centric Post-Training Quantization for Object Detection Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GN9otzf5o6
代码: 待确认
领域: 模型压缩 / 训练后量化
关键词: Post-Training Quantization, Object Detection, Inlier-Anomaly Separation, EM, Heatmap Saliency

一句话总结¶

InlierQ 把目标检测激活分成"任务相关 inlier"和"背景杂波/传感器噪声造成的 anomaly"，用梯度感知的体素显著性分数 + EM 拟合后验把两者分开，只对 inlier 集合做量化误差最小化，从而在低比特（W4A4）下显著提升 2D/3D 相机与 LiDAR 检测精度。

研究背景与动机¶

领域现状：目标检测算力消耗大，PTQ（Post-Training Quantization）是上设备部署的主流压缩手段，8-bit 基本无损，但低比特（4-bit）下精度明显掉。
现有痛点：检测器要评估大量区域/体素（2D 像素、3D 体素），其中绝大多数对应背景杂波或噪声传感器返回——本文称之为 anomaly。这些 anomaly 会展宽激活范围并把分布偏向任务无关响应，让有限的量化级数被迫去覆盖这些无用值，留给真正含信息的 inlier 的分辨率不足。
核心矛盾：传统 PTQ（如 BRECQ）对所有激活一视同仁地最小化量化误差，于是 anomaly 反而主导了量化目标；但若粗暴抑制大值（outlier suppression），又缺乏一个区分 anomaly 与有用信息的判据，容易把有用特征也一起丢掉。
本文目标：给出一个原则化的 inlier/anomaly 划分标准，把量化误差最小化集中到 inlier 子空间，且要 label-free、drop-in、只需 64 个校准样本。
核心 idea：任务相关性 ≠ 激活幅值。用检测头 heatmap（显式编码物体位置与类别置信）的梯度显著性而非原始激活大小来判断"哪些体素值得保留"，再用两分量高斯混合 + EM 把显著性分数后验化，硬切出 inlier 集合后只在其上做量化。

方法详解¶

整体框架¶

InlierQ 逐层处理：对每个体素（2D=像素，3D=voxel）算一个梯度感知的显著性分数 → 用 EM 拟合两分量混合分布得到 inlier 后验概率 → 按阈值 τ 截出 inlier 集合 I → 只在 I 上最小化 Hessian 加权的量化误差。整套流程套在标准的逐层顺序 PTQ 优化里（先 min-max 初始化 scale/zero-point，再迭代精修）。

flowchart LR
    A[校准激活 x] --> B[heatmap top-K<br/>负对数似然损失 L]
    B --> C[体素显著性分数<br/>h_x = 梯度 L1 范数]
    C --> D[EM 拟合两分量<br/>高斯混合后验]
    D --> E{P_I 大于等于 τ?}
    E -->|是| F[inlier 集合 I]
    E -->|否| G[anomaly 集合 A 丢弃]
    F --> H[只在 I 上<br/>最小化 Hessian 加权量化误差]

关键设计¶

1. 任务相关损失：只盯 heatmap top-K，把"重要性"绑到物体而非幅值。 量化的根本目标是最小化激活扰动 \(\Delta x_S = x_q - x\) 引起的任务损失变化 \(\mathbb{E}[L(x+\Delta x_S)-L(x)]\)。为了让梯度/Hessian 反映"任务相关性"，作者不直接用原始任务损失，而是设计了一个聚焦显著激活的辅助损失：对每个通道（类别）取 heatmap 前 K 大的响应做负对数似然 \(L(x;w) = -\frac{1}{KC}\sum_{k=1}^{K}\sum_{c=1}^{C}\log H_{[k],c}\)。由于 heatmap 显式编码物体位置和置信度，这个损失天然让梯度集中在"物体在哪"，而不是被高幅值背景带偏。附录证明在此损失下期望 Hessian 等于 Fisher 信息矩阵（FIM），因此后续可以用梯度外积近似 Hessian。

2. 体素显著性分数：用梯度 L1 范数做模态不变的打分函数。 对每个体素，定义显著性分数为损失对激活向量各维梯度的 L1 范数 \(h(x) = \sum_{m=1}^{C}\left|\frac{\partial L(x;w)}{\partial x_m}\right|\)。它衡量"损失对该体素扰动有多敏感"——越敏感越是任务关键。一个有意思的观察（Fig. 3）：相机和 LiDAR 在原始梯度域分布很不一样，但映射到显著性分数空间后两种模态呈现一致的、模态不变的分布形态，这让同一套 inlier/anomaly 划分机制能跨传感器复用。

3. EM 后验 + 阈值硬切 inlier 集合。 把显著性分数建模成两分量高斯混合（一支代表 inlier、一支代表 anomaly），用 EM 拟合后得到后验 \(P(I\mid h(x)) = \frac{P(h(x)\mid I)\,P(I)}{\sum_{D\in\{I,A\}} P(h(x)\mid D)\,P(D)}\)。inlier 集合定义为后验足够高的体素 \(I := \{x \mid P(I\mid h(x)) \ge \tau\}\)，τ 控制"宁可多收还是多滤"的 precision/recall 权衡。这一步把"什么是 anomaly"从启发式阈值变成了概率化、可解释的逐层分类。

4. Inlier-centric 量化目标：只在 inlier 子空间最小化曲率加权误差。 把体素空间分解为 \(V = I \cup A\) 后，量化目标重写成对 inlier 的 Hessian 加权扰动最小化 \(\arg\min_S \mathbb{E}_{x\in I}\left[\Delta x_S^\top H(x)\,\Delta x_S\right]\)，显式丢弃 anomaly 的贡献。作者经验性地验证 \(\mathbb{E}_{x\sim V}[f]\approx\mathbb{E}_{x\sim I}[f]\)——即 inlier 子空间足以代表整体泛化，被拒的 anomaly 几乎不含任务信息。直觉上：anomaly 越参与量化目标，就越挤占低比特下宝贵的量化级数，把它们剔掉等于把全部分辨率让给真正有用的 inlier。

实验关键数据¶

主实验（W4A4 最关键，单位 mAP / NDS）¶

任务	模型 (模态)	指标	BRECQ	LiDAR-PTQ	InlierQ (Ours)
2D	RetinaNet (C)	mAP	34.0	34.4	34.7
2D	Faster R-CNN (C)	mAP	32.7	34.3	34.7
3D	DETR3D (C)	mAP / NDS	24.8 / 33.8	25.2 / 34.0	26.4 / 35.2
3D	CenterPoint (L)	mAP / NDS	43.4 / 56.3	39.5 / 54.0	46.6 / 58.1

W8A8 几乎无损、各方法持平；W4A8 小幅领先；W4A4 优势最明显：3D LiDAR 上比 BRECQ +3.2% mAP（46.6 vs 43.4），2D Faster R-CNN 比 BRECQ +2.0%。

消融实验（Table 2，mAP）¶

任务/模态	heatmap top-K	inlier	anomaly	mAP
2D 相机	-	-	✓	32.5
2D 相机	✓	-	✓	34.5
2D 相机	✓	✓	-	34.7
3D LiDAR	-	-	✓	44.2
3D LiDAR	✓	-	✓	45.7
3D LiDAR	✓	✓	-	46.6

关键发现¶

heatmap top-K 贡献显著：加上 top-K 选择后，anomaly-only 优化即获 +1.0~2.0% mAP，证明把建模聚焦到高置信区域有用。
只用 inlier 最好：inlier-only 优于 anomaly-only，也优于 inlier+anomaly 同时优化——印证 anomaly 几乎不含任务信息，纳入反而拖累。
K 有甜点：性能随 top-K 增大到训练时的 K（DETR3D=300，CenterPoint=500）达峰后下降，过大的 K 引入太多任务无关区域污染 inlier 集合。
τ 单调可控：阈值越严，inlier 集合性能越高、anomaly 集合性能越低，相机与 LiDAR 上都呈平滑单调过渡，说明后验划分稳定可解释。

亮点与洞察¶

把"outlier"重新定义为"anomaly"：不再按"幅值异常大"判，而按"任务无关"判——用 heatmap 梯度显著性而非激活幅值做判据，这是和 SmoothQuant/SVDQuant 等 outlier suppression 路线的本质区别。
模态不变的显著性空间：相机和 LiDAR 梯度分布迥异却在显著性空间收敛到一致分布，是一个漂亮且实用的观察，让同一框架跨 2D/3D、相机/LiDAR 通用。
极轻量、可落地：label-free、drop-in、只需 64 个校准样本，检测头保留 FP16，工程上很容易接入现有 PTQ 流水线。

局限与展望¶

依赖 heatmap 检测头：方法吃 heatmap top-K 来构造任务相关损失（CenterPoint/DETR3D 这类有 heatmap query 的天然契合），对不输出 heatmap 的检测器（如纯 anchor-based / DETR 无 heatmap 变体）如何适配尚未讨论。
τ 与 K 需调：虽然 K 的甜点恰好是训练时的 K、τ 单调可控，但仍属逐任务超参，缺少自动选取机制。
增益集中在低比特：W8A8 几乎与基线持平，方法价值主要体现在 W4A4 等激进设置；中比特场景收益有限。
未覆盖 W2/混合精度与端到端 latency：实验止于 W4A4 量化误差与 mAP，没给实际推理加速/能耗数字。

评分¶

新颖性: ⭐⭐⭐⭐ —— 用任务相关性（heatmap 梯度显著性 + EM 后验）而非幅值重新定义量化中的"异常"，并验证显著性空间的模态不变性，视角新颖。
实验充分度: ⭐⭐⭐⭐ —— 覆盖 2D/3D、相机/LiDAR 四个检测器与多比特设置，消融（heatmap/inlier/anomaly、K、τ）完整；但缺实际加速/能耗与更低比特。
写作质量: ⭐⭐⭐⭐ —— 动机—公式—实验逻辑清晰，图示（分布偏移、模态不变性）直观；公式推导稍密。
价值: ⭐⭐⭐⭐ —— 轻量、drop-in、低比特检测部署收益明确，对自动驾驶等端侧检测有实用价值。