Masked Symbol Modeling for Demodulation of Oversampled Baseband Communication Signals¶

会议: NeurIPS 2025
arXiv: 2512.01428
代码: https://github.com/OguzBedir/Masked_Symbol_Modeling
领域: 信号与通信
关键词: 掩码符号建模, 通信物理层, Transformer, 脉冲成形, 冲激噪声

一句话总结¶

本文提出 Masked Symbol Modeling（MSM），将 BERT 的掩码预测范式应用于通信物理层——将脉冲成形产生的符号间贡献重新定义为"上下文信息"，训练 Transformer 在干净过采样基带信号上学习波形结构，推理时利用学到的上下文来恢复被冲激噪声破坏的符号。

研究背景与动机¶

领域现状：Transformer 架构在通信系统中的应用日益增多，主要用于解决信道估计、均衡等传统信号处理问题。然而，现有工作大多将 Transformer 当作黑盒工具，未深入探索物理波形中"上下文"的本质含义。

现有痛点：在脉冲成形的过采样系统中，相邻符号的脉冲会在时域上重叠，产生符号间贡献（inter-symbol contribution）。传统方法将这种重叠视为需要消除的干扰（如均衡器），而非可利用的信息源。同时，冲激噪声（如Middleton Class-A噪声）因其突发性和高幅值特性，对传统检测器造成严重问题——高斯噪声假设下设计的检测器在冲激噪声环境中性能急剧恶化。

核心矛盾：脉冲成形产生的符号间重叠其实蕴含了丰富的确定性结构信息——每个采样点都包含来自多个相邻符号的贡献。但现有方法没有系统地利用这种结构来实现更强的信号恢复。

本文目标 如何将 NLP 中的"上下文理解"能力迁移到通信物理层？具体地，能否训练模型理解脉冲成形波形的"语法"，进而利用上下文来恢复被噪声破坏的符号？

切入角度：作者将"脉冲成形产生的符号间贡献"类比于"自然语言中单词的上下文"——就像一个词的含义可以从周围词推断，一个被遮挡的符号的身份也可以从周围未遮挡的采样点推断。

核心 idea：将 BERT 的掩码预测范式移植到通信物理层，把脉冲成形的符号间重叠视为上下文信息而非干扰，自监督地学习波形的"潜在语法"。

方法详解¶

整体框架¶

输入是过采样的复基带信号（每符号8个采样点），其中随机15%的符号被掩码（对应时域采样区间置零）。Transformer 模型根据周围未掩码的采样点预测被掩码位置的符号标识符。训练阶段仅使用干净（无噪声）信号；推理阶段，先识别被冲激噪声影响的符号位置，将其掩码后输入模型，利用学到的上下文进行符号恢复。

关键设计¶

掩码符号建模（Masked Symbol Modeling）:
- 功能：自监督地学习过采样基带波形的结构表征
- 核心思路：定义一个离散词汇表，为所有考虑的调制方式（BPSK到QAM256）的每个星座点分配唯一标识符（共272个标识符）。训练时随机掩码15%的符号（将对应的采样区间置零），模型预测被掩码符号的标识符。损失仅在掩码位置计算交叉熵，使用逆频率加权处理类别不平衡
- 设计动机：掩码比例选为15%与BERT一致，且通过干净信号训练让模型专注学习波形结构而非噪声模式。符号间的脉冲重叠天然提供了"完形填空"所需的上下文
Reformer Transformer 架构:
- 功能：高效处理长序列（1024个采样点）的波形
- 核心思路：2通道输入（I/Q分量）通过1D可学习线性投影映射到512维嵌入，加上正弦位置编码后经过6层Reformer块处理。Reformer使用局部敏感哈希注意力（桶大小64，4个哈希），共享权重和可逆层以节省显存。对每个掩码符号，在其采样跨度（8个采样点）上做均值池化后送入线性分类头（\(\mathbb{R}^{512} \to \mathbb{R}^{272}\)）
- 设计动机：使用Reformer而非标准Transformer是为了处理1024长度序列时的计算效率。局部敏感哈希注意力将注意力复杂度从 \(O(n^2)\) 降低到 \(O(n\log n)\)
半合成冲激噪声推理策略:
- 功能：在推理阶段利用学到的上下文恢复被冲激噪声破坏的符号
- 核心思路：推理时并非将整个含噪波形直接送入模型，而是先识别被冲激噪声影响的符号位置，仅对这些位置进行掩码，未受影响的部分保持不变。然后模型利用周围完好的采样点来推断被掩码位置的符号标识符。冲激噪声的 impulsive index \(A\) 根据目标符号命中率15%来校准
- 设计动机：这种选择性掩码策略将问题从"全局噪声鲁棒性"转化为"局部缺失恢复"，充分利用了模型在干净信号上学到的上下文理解能力

损失函数 / 训练策略¶

仅用交叉熵损失，只在被掩码符号位置计算，加逆频率权重处理类别不平衡。训练完全自监督，基于在线数据生成的 IterableDataset，无需外部数据集。Adam 优化器 (\(lr=10^{-3}\))，单卡 A100 训练24小时（37551步），batch size 64。

实验关键数据¶

主实验¶

调制方式	SER（无噪声）	SER（\(\Gamma=10^{-6}\), 强冲激）	SER（\(\Gamma=10^{-3}\), 中等冲激, 高SNR）
BPSK	~0.001	~0.001	~0.001
QPSK	~0.02	~0.02	~0.02
QAM16	~0.05	~0.05	~0.05
QAM64	~0.15	~0.15	~0.15
QAM256	~0.35	~0.35	~0.35

消融实验¶

配置	观察	说明
\(\Gamma=10^{-6}\)（高斯分量可忽略）	SER 不随 SNR 变化	掩码消除冲激后高斯噪声极小
\(\Gamma=10^{-3}\)（高斯分量不可忽略）	低 SNR 时 SER 显著上升	高斯噪声影响未掩码位置的上下文质量
简单 vs 复杂调制	BPSK 最好，QAM256 最差	星座点越多，掩码预测越难
不同滤波器跨度和滚降因子	性能稳定	模型泛化到各种脉冲成形参数

关键发现¶

在强冲激噪声（\(\Gamma=10^{-6}\)）下，模型的SER几乎不受SNR影响，因为掩码有效消除了冲激分量，且高斯背景噪声几乎为零。这证明了"掩码+上下文恢复"策略对冲激噪声的天然免疫力
在中等冲激噪声（\(\Gamma=10^{-3}\)）下，低SNR区间性能明显下降，因为高斯噪声会同时影响掩码和未掩码区域的信号质量
模型在多种调制方式（BPSK到QAM256）和脉冲成形参数（4种滤波器跨度×6种滚降因子）上都保持稳定性能，展现了跨配置泛化能力
符号命中率的统计分析表明，使用 \(A^\star = -\ln(0.85)/L\) 可以精确控制平均15%的符号受冲激噪声影响

亮点与洞察¶

将NLP中context的概念迁移到通信物理层是本文最核心的洞察。把脉冲成形产生的符号间重叠——传统上被视为需要消除的ISI——重新定义为可利用的上下文信息，这种视角转换非常巧妙。它暗示了一种新的接收机设计范式：不是检测（detect）信号，而是理解（interpret）信号
训练与推理的分离设计：训练阶段使用干净信号避免学到噪声模式，推理阶段通过选择性掩码将噪声恢复问题转化为完形填空问题。这种设计使得模型对噪声类型具有天然的适应性，只要能检测到受噪声影响的位置
从BERT到通信信号的类比打开了一扇门：波形有"语法"，SAE有"词汇表"，掩码预测学的是波形的"语言模型"

局限与展望¶

当前依赖事先识别冲激噪声影响的符号位置（"半合成"设置），在真实系统中噪声位置检测本身就是一个难题。未来需要让模型直接处理含噪波形（不需要显式掩码）
输入表示较为简单（原始I/Q通道+线性投影），论文自身提出可以改为量化+嵌入的方式，更忠实于BERT的token化设计
缺乏与传统通信方法（如最优非线性解调器、深度学习基线）的对比
仅在单天线、单用户、无多径的简化场景下验证，真实通信环境中的适用性未知
没有系统的消融实验分析架构选择（深度、头数、嵌入维度）对性能的影响

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将NLP掩码建模范式迁移到通信物理层的概念创新令人眼前一亮
实验充分度: ⭐⭐⭐ 验证了基本可行性但实验偏初步，缺乏与传统方法对比和系统消融
写作质量: ⭐⭐⭐⭐ 类比清晰，物理动机阐述充分，但部分描述可以更精炼
价值: ⭐⭐⭐⭐ 为通信物理层的表征学习开辟了新方向，但距实际部署还需大量工作