GmNet: Revisiting Gating Mechanisms From A Frequency View¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dkfEwHobXq
代码: https://github.com/YFWang1999/GmNet
领域: 轻量化网络 / 高效模型设计
关键词: 门控线性单元(GLU)、频率分析、低频偏置、轻量化网络、卷积定理

一句话总结¶

从频域视角首次系统解释门控线性单元(GLU)为何有效——逐元素乘对应频域卷积可拓宽频谱、非光滑激活保留高频能量——据此设计出极简的 GmNet，用最简单的 \(\sigma(x)\cdot x\) 门控修正轻量模型的低频偏置，在 ImageNet 上刷新高效模型 SOTA。

研究背景与动机¶

领域现状：轻量化网络是端侧部署的刚需，主流设计走两条路线——纯卷积(MobileOne、RepViT)和卷积+注意力混合(EfficientFormerV2)。这些工作一路把参数量和 FLOPs 压低，但优化目标几乎都集中在"算得快"这件事上。

现有痛点：神经网络存在被广泛验证的频谱偏置(spectral bias)——网络天然偏爱先学简单的低频全局模式，而对纹理、边缘这类高频细节学得又慢又差。轻量模型因为容量和深度都被砍掉，这种低频偏置被进一步放大，恰恰丢掉了复杂识别任务最需要的细粒度信息。

核心矛盾：GLU 这类门控机制已经在 Mamba、Llama3、gMLP 里被反复证明有效，但学界对它的理解停留在"自适应信息门控"这种功能性描述上。没有人从频率视角解释过 GLU 到底改变了网络的什么——它和低频偏置这个老问题之间的联系完全是空白。

本文目标：系统分析 GLU 的频域行为，把它的核心操作和频谱调制能力建立明确联系，并据此设计一个能主动对抗低频偏置的轻量架构。

核心 idea：逐元素乘 = 频域卷积(卷积定理) + 非光滑激活保留高频 这两个性质叠加，让 GLU 天然具备"选择性放大高频"的能力；只要把这个原理嵌进标准轻量骨干，无需任何复杂训练技巧就能拿到 SOTA。

方法详解¶

整体框架¶

论文分两步走：先从频域理论 + 受控实验拆解 GLU 为什么能改善高频学习（逐元素乘、激活函数两个角度），再把结论落地为 GmNet——一个用最简 GLU \(\sigma(x)\cdot x\) 武装标准轻量骨干的网络。GmNet 沿用经典混合架构：每个 stage 用卷积下采样并把通道数翻倍，block 内部首尾各放一个 \(7\times7\) 深度卷积负责融合低/高频信息，中间夹两个 \(1\times1\) 卷积和一个极简门控单元，激活统一用 ReLU6。

flowchart TB
    subgraph Block["GmNet Block"]
        direction TB
        I["输入"] --> DW1["7×7 DW Conv<br/>(整合低/高频)"]
        DW1 --> PC1["1×1 Conv"]
        PC1 --> G["GLU: σ(x)·x<br/>(ReLU6 门控)"]
        G --> PC2["1×1 Conv"]
        PC2 --> DW2["7×7 DW Conv"]
        DW2 --> O["输出"]
    end
    Stem["Stem"] --> S1["Stage ×N<br/>(下采样+通道翻倍)"]
    S1 --> S2["..."] --> CLS["Classifier"]

关键设计¶

1. 逐元素乘拓宽频谱：用卷积定理解释 GLU 的高频能力 论文从频域第一性原理切入，指出 GLU 核心的逐元素乘并非简单的信息缩放。卷积定理告诉我们空间域的逐元素乘等价于频域的卷积：\((u\cdot v)(x)=\mathcal{F}^{-1}(U*V)\)，其中 \(\cdot\) 是逐元素乘、\(*\) 是卷积。最直观的情形是自卷积——若 \(F(\omega)\) 的支撑集是 \([-\Omega,\Omega]\)，那么 \(F*F(\omega)\) 的支撑集会扩张到 \([-2\Omega,2\Omega]\)。也就是说，逐元素乘会主动拓宽特征的频谱范围，给网络创造更多机会去捕捉并学习高低频成分，这正是 GLU 能修正低频偏置的频域根源。

2. 非光滑激活保留高频：把激活平滑度和频谱衰减率挂钩 既然门控里还有激活函数，论文进一步分析激活的平滑度如何影响频率特性。傅里叶分析中有个经典结论：函数越光滑(可导阶数越高)，其傅里叶变换幅值衰减越快——由微分性质 \(\mathcal{F}[f^{(n)}(t)]=(j\omega)^n F(\omega)\)，光滑函数的高频成分以 \(1/|\omega|^n\) 快速衰减。反过来，像 ReLU 这种带"尖角"、导数不连续的非光滑激活，频谱只以 \(1/|\omega|\) 缓慢衰减，天然蕴含丰富的高频能量。在 ResNet18 上的对照实验印证了这点：非光滑的 ReLU6 在各个高频阈值下学高频成分都稳定胜过光滑的 GELU，而 GELU 在低频上相对更强。这解释了 GmNet 为何选 ReLU6——它既能强化高频，又比纯 ReLU 更能抑制对高频的过拟合(在低频上表现更好)。

3. 极简 \(\sigma(x)\cdot x\) 门控：自增强对齐胜过独立投影 GmNet 的 GLU 采用最简形式 \(\sigma(x)\cdot x\)——门控信号和被调制信号来自同一个表示，形成"自增强(self-reinforcing)"对齐。这与 StarNet、EfficientMod 等用独立投影(dual-channel FC、DW、LN、Pool)生成门控的做法形成对比：独立投影本质上像一个通用滤波器，对分类关键的细微高频变化敏感度反而更弱；而共享表示能保证显著变化(尤其高频成分)被一致强化而非被抑制。这个设计同时满足两个目标——把模型做到极致轻量(GLU 内不加任何额外卷积/全连接)，并让门控行为与频域分析完全自洽、更可解释。消融显示 \(\sigma(x)\cdot x\) 在高频分类上明显领先各种"加料"变体，验证了"最简即最优"。

实验关键数据¶

主实验：ImageNet-1K 分类¶

300 epoch 从随机初始化训练，AdamW，无重参数化/蒸馏/架构搜索。延迟在 A100 GPU 和 iPhone 14(CoreML)上实测。

Model	Top-1 (%)	Params (M)	FLOPs (G)	GPU (ms)	Mobile (ms)
MobileV2-1.0	72.0	3.4	0.3	1.7	0.9
GmNet-S1	75.5	3.7	0.6	1.6	1.0
EfficientFormerV2-S1	77.9	4.5	0.7	3.4	1.1
GmNet-S2	78.3	6.2	0.9	1.9	1.1
RepViT-M1.0 / StarNet-S4	78.6 / 78.4	6.8 / 7.5	1.2 / 1.1	3.6 / 3.3	1.1
GmNet-S3	79.3	7.8	1.2	2.1	1.3
RepViT-M1.5	81.2	14.0	2.3	6.4	1.7
LeViT-256	81.5	18.9	1.1	6.7	31.4
GmNet-S4	81.5	17.0	2.7	2.9	1.9

GmNet-S3 比 RepViT-M1.0/StarNet-S4 高 1.9%/0.9% 且 GPU 上快 30%+；GmNet-S4 与 LeViT-256 精度持平但 GPU 快 2×、iPhone 上快 16×。

消融实验¶

激活函数频域行为(GmNet-S3，分频段精度)：

Activation	Raw	r=12 High	r=24 High	r=36 High
Identity	70.5	12.6	1.7	0.7
ReLU	78.3	45.9	13.5	4.9
GELU	78.4	41.5	9.4	3.9
ReLU6	79.3	51.7	12.1	4.7

Identity→ReLU 在 raw 上涨 11%，但高频上平均涨幅超 3 倍；ReLU6 在小半径高频处明显胜 GELU，同时低频好于 ReLU(更抗高频过拟合)。

GLU 设计对比(GmNet-S3)：

GLU 设计	Top-1 (%)	Params (M)	GPU (ms)	r=12 High
σ(x)·LN(x)	78.9	7.8	2.9	47.6
σ(x)·DW(x)	79.0	8.0	2.4	49.0
σ(x)·FC(x)	79.2	20.2	3.6	51.4
σ(x)·x	79.3	7.8	2.1	51.7

最简 \(\sigma(x)\cdot x\) 在精度、参数、延迟、高频分类四项上同时最优；FC 设计虽高频接近但参数暴涨到 20.2M、延迟最高。

关键发现¶

同延迟跨方法对比高频：r=12 时 GmNet-S3 高频精度 51.7%，比 EfficientMod-xs(45.4)、StarNet-S4(43.3)、MobileOne-S2(35.0)显著领先，而各方法低频精度接近——证明 GmNet 的增益主要来自高频。
用 GLU 替换 MobileNetV2 MLP 块的激活，高频分类提升直接带动整体精度上涨，验证"高频建模对轻量模型更关键"。
不存在"牺牲低频换高频就一定整体更好"——要拿到 raw 最优精度，必须让模型对各频段都有均衡学习能力。

亮点与洞察¶

理论解释干净有力：用卷积定理(逐元素乘→频谱拓宽)+ 微分性质(激活平滑度→高频衰减率)两条经典傅里叶结论，把 GLU 这个"黑箱信息门"讲成了可解释的频谱调制器，是首个从频率视角系统分析 GLU 的工作。
"最简即最优"反直觉但自洽：\(\sigma(x)\cdot x\) 不加任何投影/归一化，反而在效果和效率上全面胜出，因为门控与被调制信号共享表示形成自增强对齐——理论分析和架构设计完全闭环。
工程价值实在：无需重参数化/蒸馏/NAS，标准端到端训练就拿 SOTA，GPU 延迟优势尤其突出(S4 比同精度 LeViT-256 快 2-16×)。

局限与展望¶

分析主要围绕图像分类，GLU 的频域优势在检测、分割等密集预测任务上是否同样成立尚未验证。
频域解释建立在自卷积、单一激活等简化情形上，深层堆叠后频谱如何级联演化缺乏定量刻画。
截断半径 \(r\)、ReLU6 的截断上界等关键超参对频谱行为的影响只给了经验性结论，缺乏自适应选择机制。
与重参数化、蒸馏等正交技巧叠加能否进一步提升，论文未做探索。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个从频率视角系统解释 GLU，把卷积定理与低频偏置这两个看似无关的主题打通，视角新且解释自洽。
实验充分度: ⭐⭐⭐⭐ ImageNet 主实验覆盖 4 个尺度 + 多平台延迟，激活/GLU 设计/跨方法分频段消融做得细致；但仅限分类任务，缺下游验证。
写作质量: ⭐⭐⭐⭐ 理论铺陈清晰，从直觉图示到公式推导再到架构落地层层递进，叙事完整。
价值: ⭐⭐⭐⭐ 给出可解释、无花哨技巧的高效模型 SOTA，频域设计原则对轻量网络社区有切实启发。