Quantum Doubly Stochastic Transformers¶

会议: NeurIPS 2025
arXiv: 2504.16275
代码: 无
领域: 量子计算 / Transformer
关键词: 量子变分电路, 双随机矩阵, 注意力机制, ViT, Birkhoff多面体

一句话总结¶

提出QDSFormer（量子双随机Transformer），用变分量子电路QontOT替代softmax生成双随机注意力矩阵，理论和实验证明量子电路生成的DSM更多样、更好保持信息，在多个小规模视觉识别任务上一致超越标准ViT和Sinkformer。

Transformer中softmax使注意力矩阵为右随机（行和=1），这导致多种训练不稳定性：
- 熵坍缩：注意力过于尖锐导致梯度消失
- 秩坍缩和token均匀化问题
- Eureka时刻：组合问题中的突变学习
Sinkformer发现注意力自然趋向双随机矩阵（行和列和均=1），强制双随机性可提升性能
Sinkhorn算法的局限：
- 迭代近似，实际中难以收敛到真正的DSM（\(k=21\)时Frobenius距离仍为0.23）
- 非参数化，无法学习应该返回哪个DSM
- 需要输入非负（通过指数化实现），损失了表达能力
- 反向传播梯度可能病态
关键突破：QontOT量子电路证明可天然产生DSM（\(\mathbf{U} \odot \bar{\mathbf{U}} \in \Omega_n\)），且无已知经典参数化方法能做到相同的事

QDSFormer在ViT中用QontOT量子电路替代softmax，将注意力矩阵 \(\mathbf{QK}^\top\) 输入量子电路得到双随机注意力矩阵。电路利用酉矩阵的Hadamard积天然产生DSM这一性质，通过参数化量子门实现灵活的DSM生成。

QontOT量子电路产生DSM:
- 功能：将未归一化的注意力矩阵映射为双随机矩阵
- 核心思路：对任意酉矩阵 \(\mathbf{U}\)，\(\mathbf{U} \odot \bar{\mathbf{U}} \in \Omega_n\)。QontOT通过参数 \(\theta\) 和数据 \(\mathbf{M}\) 的乘积注入控制电路角度，产生参数化的DSM
- 设计动机：量子电路天然保证DSM性质，且是参数化的（不同于非参数的Sinkhorn），可学习最优DSM
表达能力分析:
- 功能：系统对比QontOT、Sinkhorn和QR分解在DSM多样性上的差异
- 核心思路：在离散化超立方体上穷举输入，统计产生的唯一DSM数量
- 关键结果：QontOT（8层）对每个输入产生唯一的DSM（近似单射），而Sinkhorn和QR有大量碰撞
QR分解双随机算子（量子启发）:
- 功能：作为经典的量子启发替代方案
- 核心思路：对 \(\mathbf{M}\) 做QR分解得酉矩阵 \(\mathbf{U}\)，再计算 \(\mathbf{U} \odot \bar{\mathbf{U}}\)
- 局限：\(O(n^3)\) 复杂度，碰撞率高，但在某些单层ViT设置中表现不错

三种电路训练策略：
- Static：使用从量子硬件实验获得的固定参数，无需训练
- Mixed：每个epoch交替200步梯度无关优化
- Differentiable：端到端联合训练（最慢，受Barren Plateaus影响）
静态策略表现最好或与优化版持平（可能因Barren Plateaus）
使用8×8注意力矩阵、16层电路、4个辅助量子比特（总16量子比特）

2层ViT在FashionMNIST和MNIST上的验证准确率：

MedMNIST（7个数据集）：QontOT在5/7个数据集上最优。

电路层数：4-8层开始超越ViT，更多层带来对数级提升，>16层后收益递减
静态 vs 优化：静态配置表现等于甚至优于端到端优化，可能因Barren Plateaus
Eureka实验：QDSFormer提前出现Eureka时刻（组合推理突变），训练更稳定
Sinkhorn迭代次数：\(k=3\)时距Birkhoff多面体Frobenius距离0.84，\(k=21\)仍为0.23；QontOT < 5e-6

QontOT在43M个输入矩阵上产生了最多唯一DSM，行为接近单射（近乎无信息损失）
QontOT天然具有更高的注意力熵，可缓解ViT训练中的熵坍缩问题
Sinkhorn会将行常量矩阵（如 \(\mathbf{e}_2\mathbf{1}^\top\) 和 \(\mathbf{e}_4\mathbf{1}^\top\)）映射到同一DSM，丢失信息
电路规模对数缩放 \(O(\log_2(T))\)，理论上对大序列友好