COSMO-INR: Complex Sinusoidal Modulation for Implicit Neural Representations¶
会议: ICLR2026
arXiv: 2505.11640
代码: 待确认
领域: 图像生成
关键词: 隐式神经表示, 激活函数设计, 频谱偏差, Chebyshev多项式, 复正弦调制
一句话总结¶
通过谐波失真分析与 Chebyshev 多项式逼近,严格证明了奇/偶对称激活函数在后激活频谱中存在系统性衰减,提出用复正弦项 \(e^{j\zeta x}\) 调制激活函数来保留完整频谱支持,并设计 COSMO-RC 激活函数与正则化先验嵌入器架构,在 Kodak 图像重建上 PSNR 平均领先最强基线 +5.67 dB,NeRF 上领先 +3.45 dB。
研究背景与动机¶
领域现状:隐式神经表示(INR)用 MLP 将连续坐标映射到信号值(如图像像素、3D 占用值等),其核心设计自由度在于激活函数的选择。SIREN 使用正弦函数、WIRE 使用小波、Gaussian 使用高斯函数,此外还有 FINER(可变频率正弦)、INCODE(先验嵌入器)等一系列方案。这些方法在不同任务上各有优劣,但为什么某些激活函数更好、它们的有效性边界在哪里,缺乏统一理论解释。
现有痛点:INR 面临三个核心难题——(1) 频谱偏差(spectral bias),网络对高频信号成分天然不敏感,导致重建图像模糊;(2) 噪声鲁棒性差,去噪时容易过拟合噪声;(3) 难以同时捕获局部细节和全局结构。现有激活函数的设计大多基于经验和实验对比,缺少从频谱域出发的系统性分析框架。
核心矛盾:激活函数通过非线性变换将输入频谱展宽(blueshift 效应),从而让网络能表示高频成分。但如果激活函数本身具有奇对称或偶对称性(几乎所有常用激活都满足),它的 Chebyshev 多项式展开中会有一半的系数为零,导致后激活频谱被系统性衰减——网络的表达能力被无谓地砍掉一半。
本文目标 (1) 揭示现有 INR 激活函数频谱衰减的理论根源;(2) 提出通用的修复方案——复正弦调制;(3) 设计具体的最优激活函数 COSMO-RC 并验证其优越性。
切入角度:作者从谐波失真分析出发,将激活函数用 Chebyshev 多项式展开,发现系数的奇偶交替为零现象是对称性的必然结果,而这正是频谱衰减的数学根源。这个分析角度此前未被关注。
核心 idea:用复指数 \(e^{j\zeta x}\) 调制激活函数打破奇偶对称性,使 Chebyshev 系数的实部和虚部不会同时为零,从而在后激活频谱中保留完整频率支持。
方法详解¶
整体框架¶
输入是信号坐标(如 2D 像素坐标 \((x,y)\)),经过一个 5 层、每层 256 神经元的 MLP,每层使用 COSMO-RC 复值激活函数。各层输出归一化到复平面单位圆上保持训练稳定,最终层提取实部得到信号值(如 RGB 像素值)。额外使用一个基于 ResNet-34 前五层的先验嵌入器,从输入信号中提取特征并映射为激活函数的超参数 \((T, \zeta)\),通过 sigmoid 正则化约束参数范围。整个系统端到端训练,损失函数为标准的 MSE。
关键设计¶
-
频谱衰减的理论发现与 Chebyshev 分析:
- 功能:揭示现有激活函数表达能力受限的数学根源
- 核心思路:将任意激活函数 \(\phi(x)\) 用 Chebyshev 多项式展开 \(\phi(x) = \sum_{n=0}^{\infty} a_n T_n(x)\),其中 \(T_n\) 是第一类 Chebyshev 多项式。根据非线性层对频谱的作用(公式 \(z' = \sum_{i=0}^{K} \alpha_i \bigotimes_{l=0}^{i} z\)),每个系数 \(\alpha_i\) 的大小直接决定对应阶次的频谱展宽效果。作者严格证明:对偶对称函数 \(f(x) = f(-x)\),所有奇次系数 \(a_n = 0\)(\(n\) 为奇数);对奇对称函数 \(f(x) = -f(-x)\),所有偶次系数 \(a_n = 0\)(\(n\) 为偶数)。这意味着升余弦(偶对称)、正弦(奇对称)等常用激活都有一半的频谱贡献被衰减为零
- 设计动机:此前 blueshift 效应的分析只关注系数绝对值的衰减快慢,从未注意到对称性导致的系统性归零问题。这个发现解释了为什么所有对称激活函数都存在表达能力上限
-
复正弦调制方案 (COSMO):
- 功能:打破激活函数的奇偶对称性,恢复完整频谱支持
- 核心思路:将激活函数调制为 \(g(x) = \phi(x) \cdot e^{j\zeta x}\)。展开复指数得到 \(g(x) = \phi(x)(\cos\zeta x + j\sin\zeta x)\),其实部 \(g_r(x) = \phi(x)\cos\zeta x\) 和虚部 \(g_i(x) = \phi(x)\sin\zeta x\) 的 Chebyshev 系数分别在不同的奇偶阶次非零。关键定理:当实部系数 \(a_n = 0\) 时虚部系数 \(b_n \neq 0\),反之亦然,因此复数系数 \(a_n + jb_n\) 永远不会整体为零。这保证了每个频率阶次都能对后激活频谱产生贡献
- 设计动机:复指数本身既非奇函数也非偶函数,乘上去以后立刻打破原始激活的对称性。这是一种最小侵入性的修复——不改变激活函数的基本形状,只添加一个相位旋转项
-
COSMO-RC 激活函数:
- 功能:基于理论最优选择构建的具体激活函数实现
- 核心思路:在所有候选激活中,升余弦函数(raised cosine)的 Chebyshev 系数衰减最慢,意味着它能产生最强的 blueshift 效应。将升余弦与复正弦调制结合得到 COSMO-RC:\(\phi(x) = \frac{1}{T}\text{sinc}(\frac{x}{T}) \frac{\cos(\pi\beta x/T)}{1-(2\beta x/T)^2} \cdot e^{2\pi\zeta x j}\)。其中滚降率 \(\beta=0.05\) 固定,带宽参数 \(T\) 和频移参数 \(\zeta\) 可学习。各层输出为复数值,归一化到单位圆保持训练稳定(保留相位、归一化模长),最终层取实部输出
- 设计动机:升余弦函数来自通信领域的脉冲整形滤波器,本身具有紧支撑特性和缓慢的旁瓣衰落,这意味着在 Chebyshev 基下能保留更多高阶分量。加上复正弦调制后,它在理论和实验上都是最优选择
损失函数 / 训练策略¶
训练使用标准 MSE 损失 \(L = \mathbb{E}_{x \in X} \|f_\theta(x) - \hat{S}_x\|^2\),Adam 优化器,学习率 0.01,衰减率 0.01。先验嵌入器对 2D 图像任务使用 ResNet-34 前五层,3D 占用任务使用 ResNet3D-18 前五层,输出经 MLP 映射为 \((2,4)\) 的潜变量,再通过 sigmoid 正则化 \(\theta = a + (b-a) \cdot \sigma(\hat{\theta})\) 投影到预设范围 \(T \in [0,10]\)、\(\zeta \in [0,3]\)。该机制每次迭代自适应调整激活参数,消除了手动网格搜索的需求。作者指出,不使用先验嵌入器时也能达到相同性能,但需要更严格的参数网格搜索。
实验关键数据¶
主实验¶
| 任务 | 数据集 | COSMO-RC | 最强基线 | 提升 |
|---|---|---|---|---|
| 图像重建 | Kodak (24张) | 41.24 dB | INCODE 35.57 dB | +5.67 dB |
| 图像去噪 | DIV2K (Poisson噪声) | 最优 | INCODE | +0.46 dB |
| 超分辨率 2× | DIV2K | 34.03 dB / 0.96 SSIM | FINER 32.94 / 0.91 | +1.09 dB |
| 超分辨率 4× | DIV2K | 30.42 dB / 0.95 SSIM | INCODE 29.96 / 0.85 | +0.46 dB |
| 超分辨率 6× | DIV2K | 27.66 dB / 0.93 SSIM | FINER 27.02 / 0.80 | +0.64 dB |
| NeRF 新视角合成 | Lego (200张测试) | 29.50 dB | INCODE 26.05 dB | +3.45 dB |
| 图像修复 | Celtic spiral (20%采样) | 略优于 SOTA | — | 微幅领先 |
| 3D 占用体 | Lucy (Stanford) | IOU 最高 | — | 微幅领先 |
消融实验¶
| 配置 (Kodak 22, 1000 epochs) | PSNR (dB) | 说明 |
|---|---|---|
| 256宽 × 3层 (完整模型) | 39.57 | 论文默认配置,效率与精度平衡 |
| 512宽 × 4层 | 52.00 | 最强配置,验证可扩展性 |
| 64宽 × 2层 | 28.52 | 最小配置,性能显著下降 |
| 升余弦 w/o 复调制 | ~35 dB (Fig.2b) | 去掉复调制后大幅退化,验证核心贡献 |
| COSMO-RC w/o 先验嵌入器 | 同等 (需网格搜索) | 嵌入器不影响上限但大幅简化调参 |
计算效率对比¶
| 方法 | 参数量 (K) | 前向 GFLOPs | 训练时间 (s/it) | PSNR (dB) |
|---|---|---|---|---|
| SIREN | 199 | 25.9 | 0.222 | 32.9 |
| FINER | 199 | 25.9 | 0.270 | 36.4 |
| INCODE | 437 | 38.7 | 0.435 | 36.2 |
| WIRE | 100 | 13.0 | 0.645 | 32.5 |
| COSMO-RC | 437 | 38.7 | 3.500 | 45.1 |
关键发现¶
- 复正弦调制是核心贡献:去掉复调制后升余弦激活 PSNR 大幅下降(约 -6 dB),证明频谱完整性的理论分析不是空谈而是真正起作用的关键
- 升余弦函数是最优基底:在所有候选激活中 Chebyshev 系数衰减最慢,提供最强 blueshift,这从理论与实验两个角度得到验证
- 网络可扩展性极强:512 宽 × 4 层配置可达 52 dB 重建精度,说明 COSMO-RC 的表达能力上限远未触顶
- 计算代价是主要 trade-off:COSMO-RC 的训练速度比 INCODE 慢约 8 倍(3.5s vs 0.435s/it),根源在于复数运算和先验嵌入器的额外开销。但考虑到 +8.9 dB 的性能提升,这个 trade-off 在离线场景下完全可接受
- 在结构简单任务上优势缩小:图像修复和 3D 占用任务上仅微幅领先,说明频谱衰减问题在低频主导的信号上影响较小
亮点与洞察¶
- 理论驱动的激活函数设计范式:从 Chebyshev 分析 → 发现对称性导致的频谱衰减 → 用复调制修复,形成了一条完整的理论-设计-验证链条。这种范式可以推广到其他需要频谱建模的网络设计中(如 PDE 求解器、音频合成)
- 复指数调制是最小侵入性修复:不改变激活函数的基本形状,只添加一个相位旋转项就打破对称性。这意味着它可以即插即用地应用到任何现有 INR 激活函数上
- 先验嵌入器的正则化策略:用 sigmoid 将参数投影到有界区间的做法,比 INCODE 的无约束优化更稳定,同时保持了端到端可训练性
局限与展望¶
- 计算效率是最大短板:COSMO-RC 训练吞吐量仅为 SIREN 的 1/10(33 vs 350 GFLOPs/s),复数运算和先验嵌入器都贡献了额外开销。可以考虑蒸馏到实值网络或设计近似的实值调制方案
- 最终层取实部可能丢信息:整个网络在复数域运算,但最终输出只取实部。虚部编码了有意义的相位信息(如图像边缘),直接丢弃似乎浪费。可否设计一种同时利用实部和虚部的输出策略?
- \(\beta = 0.05\) 固定不够灵活:升余弦的滚降率被固定,但不同频率复杂度的信号可能需要不同的滚降特性。可以考虑让 \(\beta\) 也变为可学习参数
- 图像修复 / 3D 占用体上优势微弱:在低频主导的任务上频谱衰减问题本身不严重,因此复调制带来的增益有限。论文没有充分讨论何时不需要复调制
- 先验嵌入器引入了 task-specific 依赖:图像用 ResNet-34、3D 用 ResNet3D-18,每换一个新模态就需要重新选择先验网络。通用性因此受限
相关工作与启发¶
- vs SIREN:正弦激活是奇对称函数,偶次 Chebyshev 系数全部为零,导致后激活频谱每隔一阶就衰减一次。COSMO-RC 通过复调制彻底解决了这个问题,Kodak 上领先 +8.3 dB
- vs WIRE:小波激活解决了 SIREN 的全局伪影问题,但 Chebyshev 系数衰减很快(局部支撑导致高阶系数小),blueshift 能力弱。COSMO-RC 的升余弦基底在系数衰减上显著优于小波
- vs INCODE:先验嵌入器的思路来源于 INCODE,COSMO-RC 在其基础上加入了 sigmoid 正则化约束参数范围,并替换了激活函数。相同架构规模下 PSNR 提升约 +5.6 dB,说明激活函数本身的改进比架构改进更关键
- vs FINER:FINER 用可学习频率参数增加正弦激活的灵活性,但没有解决奇对称性导致的频谱衰减问题。在超分辨率上 COSMO-RC 全面领先 FINER
评分¶
- 新颖性: ⭐⭐⭐⭐ 频谱衰减的对称性根源是全新理论发现,复调制方案有严格数学证明
- 实验充分度: ⭐⭐⭐⭐ 覆盖图像重建/去噪/超分/修复/3D/NeRF 六类任务,且有计算效率和网络规模消融
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨,从分析到设计到验证逻辑链完整
- 价值: ⭐⭐⭐⭐ 为 INR 激活函数设计提供了可推广的频谱分析框架,复调制方案可即插即用