跳转至

GmNet: Revisiting Gating Mechanisms From A Frequency View

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dkfEwHobXq
代码: https://github.com/YFWang1999/GmNet
领域: 轻量化网络 / 高效模型设计
关键词: 门控线性单元(GLU)、频率分析、低频偏置、轻量化网络、卷积定理

一句话总结

从频域视角首次系统解释门控线性单元(GLU)为何有效——逐元素乘对应频域卷积可拓宽频谱、非光滑激活保留高频能量——据此设计出极简的 GmNet,用最简单的 \(\sigma(x)\cdot x\) 门控修正轻量模型的低频偏置,在 ImageNet 上刷新高效模型 SOTA。

研究背景与动机

领域现状:轻量化网络是端侧部署的刚需,主流设计走两条路线——纯卷积(MobileOne、RepViT)和卷积+注意力混合(EfficientFormerV2)。这些工作一路把参数量和 FLOPs 压低,但优化目标几乎都集中在"算得快"这件事上。

现有痛点:神经网络存在被广泛验证的频谱偏置(spectral bias)——网络天然偏爱先学简单的低频全局模式,而对纹理、边缘这类高频细节学得又慢又差。轻量模型因为容量和深度都被砍掉,这种低频偏置被进一步放大,恰恰丢掉了复杂识别任务最需要的细粒度信息。

核心矛盾:GLU 这类门控机制已经在 Mamba、Llama3、gMLP 里被反复证明有效,但学界对它的理解停留在"自适应信息门控"这种功能性描述上。没有人从频率视角解释过 GLU 到底改变了网络的什么——它和低频偏置这个老问题之间的联系完全是空白。

本文目标:系统分析 GLU 的频域行为,把它的核心操作和频谱调制能力建立明确联系,并据此设计一个能主动对抗低频偏置的轻量架构。

核心 idea逐元素乘 = 频域卷积(卷积定理) + 非光滑激活保留高频 这两个性质叠加,让 GLU 天然具备"选择性放大高频"的能力;只要把这个原理嵌进标准轻量骨干,无需任何复杂训练技巧就能拿到 SOTA。

方法详解

整体框架

论文分两步走:先从频域理论 + 受控实验拆解 GLU 为什么能改善高频学习(逐元素乘、激活函数两个角度),再把结论落地为 GmNet——一个用最简 GLU \(\sigma(x)\cdot x\) 武装标准轻量骨干的网络。GmNet 沿用经典混合架构:每个 stage 用卷积下采样并把通道数翻倍,block 内部首尾各放一个 \(7\times7\) 深度卷积负责融合低/高频信息,中间夹两个 \(1\times1\) 卷积和一个极简门控单元,激活统一用 ReLU6。

flowchart TB
    subgraph Block["GmNet Block"]
        direction TB
        I["输入"] --> DW1["7×7 DW Conv<br/>(整合低/高频)"]
        DW1 --> PC1["1×1 Conv"]
        PC1 --> G["GLU: σ(x)·x<br/>(ReLU6 门控)"]
        G --> PC2["1×1 Conv"]
        PC2 --> DW2["7×7 DW Conv"]
        DW2 --> O["输出"]
    end
    Stem["Stem"] --> S1["Stage ×N<br/>(下采样+通道翻倍)"]
    S1 --> S2["..."] --> CLS["Classifier"]

关键设计

1. 逐元素乘拓宽频谱:用卷积定理解释 GLU 的高频能力 论文从频域第一性原理切入,指出 GLU 核心的逐元素乘并非简单的信息缩放。卷积定理告诉我们空间域的逐元素乘等价于频域的卷积:\((u\cdot v)(x)=\mathcal{F}^{-1}(U*V)\),其中 \(\cdot\) 是逐元素乘、\(*\) 是卷积。最直观的情形是自卷积——若 \(F(\omega)\) 的支撑集是 \([-\Omega,\Omega]\),那么 \(F*F(\omega)\) 的支撑集会扩张到 \([-2\Omega,2\Omega]\)。也就是说,逐元素乘会主动拓宽特征的频谱范围,给网络创造更多机会去捕捉并学习高低频成分,这正是 GLU 能修正低频偏置的频域根源。

2. 非光滑激活保留高频:把激活平滑度和频谱衰减率挂钩 既然门控里还有激活函数,论文进一步分析激活的平滑度如何影响频率特性。傅里叶分析中有个经典结论:函数越光滑(可导阶数越高),其傅里叶变换幅值衰减越快——由微分性质 \(\mathcal{F}[f^{(n)}(t)]=(j\omega)^n F(\omega)\),光滑函数的高频成分以 \(1/|\omega|^n\) 快速衰减。反过来,像 ReLU 这种带"尖角"、导数不连续的非光滑激活,频谱只以 \(1/|\omega|\) 缓慢衰减,天然蕴含丰富的高频能量。在 ResNet18 上的对照实验印证了这点:非光滑的 ReLU6 在各个高频阈值下学高频成分都稳定胜过光滑的 GELU,而 GELU 在低频上相对更强。这解释了 GmNet 为何选 ReLU6——它既能强化高频,又比纯 ReLU 更能抑制对高频的过拟合(在低频上表现更好)。

3. 极简 \(\sigma(x)\cdot x\) 门控:自增强对齐胜过独立投影 GmNet 的 GLU 采用最简形式 \(\sigma(x)\cdot x\)——门控信号和被调制信号来自同一个表示,形成"自增强(self-reinforcing)"对齐。这与 StarNet、EfficientMod 等用独立投影(dual-channel FC、DW、LN、Pool)生成门控的做法形成对比:独立投影本质上像一个通用滤波器,对分类关键的细微高频变化敏感度反而更弱;而共享表示能保证显著变化(尤其高频成分)被一致强化而非被抑制。这个设计同时满足两个目标——把模型做到极致轻量(GLU 内不加任何额外卷积/全连接),并让门控行为与频域分析完全自洽、更可解释。消融显示 \(\sigma(x)\cdot x\) 在高频分类上明显领先各种"加料"变体,验证了"最简即最优"。

实验关键数据

主实验:ImageNet-1K 分类

300 epoch 从随机初始化训练,AdamW,无重参数化/蒸馏/架构搜索。延迟在 A100 GPU 和 iPhone 14(CoreML)上实测。

Model Top-1 (%) Params (M) FLOPs (G) GPU (ms) Mobile (ms)
MobileV2-1.0 72.0 3.4 0.3 1.7 0.9
GmNet-S1 75.5 3.7 0.6 1.6 1.0
EfficientFormerV2-S1 77.9 4.5 0.7 3.4 1.1
GmNet-S2 78.3 6.2 0.9 1.9 1.1
RepViT-M1.0 / StarNet-S4 78.6 / 78.4 6.8 / 7.5 1.2 / 1.1 3.6 / 3.3 1.1
GmNet-S3 79.3 7.8 1.2 2.1 1.3
RepViT-M1.5 81.2 14.0 2.3 6.4 1.7
LeViT-256 81.5 18.9 1.1 6.7 31.4
GmNet-S4 81.5 17.0 2.7 2.9 1.9

GmNet-S3 比 RepViT-M1.0/StarNet-S4 高 1.9%/0.9% 且 GPU 上快 30%+;GmNet-S4 与 LeViT-256 精度持平但 GPU 快 2×、iPhone 上快 16×。

消融实验

激活函数频域行为(GmNet-S3,分频段精度)

Activation Raw r=12 High r=24 High r=36 High
Identity 70.5 12.6 1.7 0.7
ReLU 78.3 45.9 13.5 4.9
GELU 78.4 41.5 9.4 3.9
ReLU6 79.3 51.7 12.1 4.7

Identity→ReLU 在 raw 上涨 11%,但高频上平均涨幅超 3 倍;ReLU6 在小半径高频处明显胜 GELU,同时低频好于 ReLU(更抗高频过拟合)。

GLU 设计对比(GmNet-S3)

GLU 设计 Top-1 (%) Params (M) GPU (ms) r=12 High
σ(x)·LN(x) 78.9 7.8 2.9 47.6
σ(x)·DW(x) 79.0 8.0 2.4 49.0
σ(x)·FC(x) 79.2 20.2 3.6 51.4
σ(x)·x 79.3 7.8 2.1 51.7

最简 \(\sigma(x)\cdot x\) 在精度、参数、延迟、高频分类四项上同时最优;FC 设计虽高频接近但参数暴涨到 20.2M、延迟最高。

关键发现

  • 同延迟跨方法对比高频:r=12 时 GmNet-S3 高频精度 51.7%,比 EfficientMod-xs(45.4)、StarNet-S4(43.3)、MobileOne-S2(35.0)显著领先,而各方法低频精度接近——证明 GmNet 的增益主要来自高频。
  • 用 GLU 替换 MobileNetV2 MLP 块的激活,高频分类提升直接带动整体精度上涨,验证"高频建模对轻量模型更关键"。
  • 不存在"牺牲低频换高频就一定整体更好"——要拿到 raw 最优精度,必须让模型对各频段都有均衡学习能力。

亮点与洞察

  • 理论解释干净有力:用卷积定理(逐元素乘→频谱拓宽)+ 微分性质(激活平滑度→高频衰减率)两条经典傅里叶结论,把 GLU 这个"黑箱信息门"讲成了可解释的频谱调制器,是首个从频率视角系统分析 GLU 的工作。
  • "最简即最优"反直觉但自洽\(\sigma(x)\cdot x\) 不加任何投影/归一化,反而在效果和效率上全面胜出,因为门控与被调制信号共享表示形成自增强对齐——理论分析和架构设计完全闭环。
  • 工程价值实在:无需重参数化/蒸馏/NAS,标准端到端训练就拿 SOTA,GPU 延迟优势尤其突出(S4 比同精度 LeViT-256 快 2-16×)。

局限与展望

  • 分析主要围绕图像分类,GLU 的频域优势在检测、分割等密集预测任务上是否同样成立尚未验证。
  • 频域解释建立在自卷积、单一激活等简化情形上,深层堆叠后频谱如何级联演化缺乏定量刻画。
  • 截断半径 \(r\)、ReLU6 的截断上界等关键超参对频谱行为的影响只给了经验性结论,缺乏自适应选择机制。
  • 与重参数化、蒸馏等正交技巧叠加能否进一步提升,论文未做探索。

相关工作与启发

  • GLU 谱系:从 GLU(Dauphin 2017)、SwiGLU(Shazeer 2020)到 Mamba、gMLP,门控一直被当作"自适应信息控制";本文补上了缺失的频率视角解释。
  • 频谱偏置:Rahaman 2019、Tancik 2020、Yin 2019 等揭示了网络先学低频的现象,但多停留在分析诊断;本文是少见地提出"用高效架构机制主动对抗低频偏置"的工作。
  • 轻量网络:MobileOne、RepViT、EfficientFormerV2 等优化了算力指标却忽视了表示的频谱保真度;GmNet 指出这是高效设计的盲点,给出"从频域纠偏"的新设计原则。
  • 启发:把激活函数的"平滑度"当作可调的频谱旋钮,以及"门控信号与被调制信号是否共享表示"这一视角,可迁移到 token mixer、注意力门控等更多模块的设计中。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个从频率视角系统解释 GLU,把卷积定理与低频偏置这两个看似无关的主题打通,视角新且解释自洽。
  • 实验充分度: ⭐⭐⭐⭐ ImageNet 主实验覆盖 4 个尺度 + 多平台延迟,激活/GLU 设计/跨方法分频段消融做得细致;但仅限分类任务,缺下游验证。
  • 写作质量: ⭐⭐⭐⭐ 理论铺陈清晰,从直觉图示到公式推导再到架构落地层层递进,叙事完整。
  • 价值: ⭐⭐⭐⭐ 给出可解释、无花哨技巧的高效模型 SOTA,频域设计原则对轻量网络社区有切实启发。