Layerwise Federated Learning for Heterogeneous Quantum Clients using Quorus¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZwwFuVQv64
代码: 待确认
领域: 量子机器学习 / 联邦学习
关键词: 量子联邦学习, 异构客户端, 分层损失, 反向蒸馏, 参数化量子电路, 贫瘠高原

一句话总结¶

针对不同客户端只能跑不同电路深度的量子联邦学习场景，Quorus 用分层损失 + 反向蒸馏让深浅不一的量子模型协同训练，并设计了四种 shot/qubit/中路测量/Hilbert 空间各有取舍的量子分类器，平均比 SOTA 提升 12.4% 测试精度。

研究背景与动机¶

领域现状：量子机器学习（QML）有望以更少参数解决经典难题，当数据分散在多个私有客户端时，自然延伸出量子联邦学习（QFL）——各方在不泄露数据的前提下，通过经典信道交换参数协同训练参数化量子电路（PQC）。

现有痛点：现有 QFL 几乎都假设所有客户端跑相同架构的电路，但真实世界里不同客户端拥有的量子计算机代际、保真度差异巨大。由于硬件误差与电路深度成正比（退相干随时间损失振幅/相位信息），误差越大的设备只能跑越浅的电路。此外深电路还面临贫瘠高原（barren plateau，梯度随深度指数消失）和shot 成本（每步训练都要重复执行电路估计可观测量，IBM 机器跑一分钟约 $96）两大约束。

核心矛盾：经典异构 FL 方法（HeteroFL、DepthFL、ScaleFL、ReeFL）要么需要训练中间层、要么需要直接访问特征——这些在 PQC 上都不成立：训练中间层恰恰要求客户端把电路跑到那个深度（这正是瓶颈），而量子态的"特征"除非做态层析否则不可直接读取。最关键的是，分层损失需要在每层取出分类器输出，而量子测量会坍缩叠加态，测了第一层就破坏了传给后续层的态。

本文目标：让每个客户端在自己硬件能达到合理精度的深度上参与训练，且尽量多跑层数以获得更高表达力与精度，同时控制 shot 预算。

核心 idea：【分层损失 + 反向蒸馏】首次把 DepthFL 式的分层损失搬到量子场景，仅在共享参数的客户端间做参数聚合；【量子坍缩难题的工程化解法】针对"测量即坍缩"这一量子独有矛盾，提出 Layerwise/Ancilla/Blocking/Funnel 四种成本互斥的电路设计，让不同资源画像的客户端各取所需。

方法详解¶

整体框架¶

Quorus 沿用中心化 FL 的"本地训练→上传参数→服务器聚合→广播"循环，但做了三处量子化改造：(1) 各客户端按硬件能力训练不同深度 $d_k$ 的 PQC，聚合时只在共享该参数的客户端间进行；(2) 因为参数是 Bloch 球旋转角，聚合用圆形平均 $\text{angle}(z)=\text{atan2}(\text{imag}(z),\text{real}(z))$ 而非算术平均；(3) 本地损失是分层交叉熵 + 层间 KL 散度。难点全部集中在"如何在不引入线性 shot 开销的前提下取出每层的分类器输出"，由四种电路设计分情况求解。

flowchart TD
    S[参数聚合服务器<br/>圆形平均] -->|广播 θ| C1[客户端1 深度 d1]
    S -->|广播 θ| C2[客户端2 深度 d2]
    S -->|广播 θ| C3[客户端k 深度 dk]
    C1 -->|本地训练: 分层CE + 反向蒸馏KL| S
    C2 -->|上传共享参数 θ_:dk| S
    C3 -->|经典信道| S
    subgraph Client[客户端内部电路设计四选一]
        L[Layerwise: 重跑L次/省qubit]
        A[Ancilla: 一次跑完/多qubit]
        B[Blocking: 中路测量]
        F[Funnel: 逐层丢qubit/缩Hilbert空间]
    end
    C3 -.选择.-> Client

关键设计¶

1. 分层损失 + 反向蒸馏：让深浅模型共享同一优化目标。 客户端 $k$ 的损失为

\[L_k = \sum_{i=1}^{d_k} L_{ce}^i + \frac{1}{d_k-1}\sum_{i=1}^{d_k}\sum_{\substack{j=1\\ j\neq i}}^{d_k} D_{KL}(p_j \,\|\, p_i)\]

第一项是每个深度 $i$ 上分类器的二元交叉熵，第二项是所有层 logits 两两之间的 KL 散度。它沿用 DepthFL 的直觉：因为各客户端局部参数空间不同会产生参数错配，需要一个所有客户端共享的目标来对齐；而 KL 项实现"反向蒸馏"——让浅层分类器去帮助深层分类器（而非传统蒸馏的深教浅）。这一项把不同深度客户端的训练目标"同步"起来，使得参数聚合在异构深度下仍然有效。

2. 坍缩难题与 Layerwise 基线方案。 经典 DepthFL 默认中间层输出能被"复制"且原样传给下一层（经典开销可忽略），但量子里没有这个操作：一旦测量第一个 qubit 取分类输出，叠加态就坍缩，后续层拿到的就是变了的态。最直接的解法 Layerwise 是"重新制备"——既然知道制备电路，就把同一电路跑 $L$ 次，第 $i$ 次只跑到第 $i$ 层再测量。代价是 shot 预算随层数线性增长，对深电路、预算紧张的客户端不可行。它的优点是只需最近邻连接、qubit 数最省，作为与基线同架构的对照方案用于主实验。

3. Ancilla / Blocking：用辅助比特或中路测量换 shot。 为让"取每层输出"的 shot 数与层数无关，Ancilla 设计在每层后把第一个 qubit 与一个 $|0\rangle$ 辅助比特纠缠，通过计算辅助比特的边缘分布读出该层输出；电路只跑一次，但每层都要一个 ancilla，且纠缠会"去相位"（dephase）第一个 qubit——作者在 IBM 硬件上验证即使如此模型仍能有效训练。其逻辑等价物 Blocking（附录给出等价性证明）则不用 ancilla，直接对第一个 qubit 做中路测量后不重置、继续计算；适合能做快速中路测量的客户端，但现有中路测量耗时且易错。两者本质都是"以更多 qubit 或中路测量能力，换掉 Layerwise 的线性 shot 开销"。

4. Funnel：为最受限客户端逐层"漏斗式"丢弃 qubit。 面向既无高 shot 预算、又无 ancilla、也无中路测量能力的客户端，Funnel 让作用在第一个 qubit 上的操作逐层减少——每测一层就丢掉一个 qubit，使所有测量都能放到电路末尾，同时深层 unitary 作用的 qubit 越来越少（故名漏斗）。代价是要求问题本身能适配在越来越少的 qubit 上运算，即限制了 Hilbert 空间。这样四种设计（Layerwise/Ancilla/Blocking/Funnel）各自只付出一种成本（↑shot / ↑qubit / 中路测量 / ↓Hilbert 空间），需求互斥，覆盖了客户端的不同资源画像。

此外在 ansatz 选择上，作者对比了 Staircase、V 形、交替三种，均做数据重上传（Ry 门）并只测第一个 qubit（二分类够用），最终 V 形因 CNOT 上下穿梭更利于信息广播而表现最佳，作为默认 ansatz。

实验关键数据¶

设置：MNIST / Fashion-MNIST 二分类，每客户端 128 数据点，PCA 降到 10 维角度编码，每组对比跑 5 次取均值方差。

主实验：Quorus-Layerwise vs 基线（V 形 ansatz，测试精度 %）¶

按客户端容量（2L–6L）与不同类别对比，列出代表性数值：

容量	技术	MNIST 0/1	MNIST 3/4	MNIST 4/9	Fashion 裤/靴
3L	Q-HeteroFL	79.6 (↓18.7)	85.0 (↓11.9)	68.5 (↓11.9)	76.9 (↓22.3)
3L	Vanilla QFL(2L)	98.2	96.0	80.0	98.5
3L	Quorus-Layerwise	98.0	96.9	80.4	99.2
6L	Q-HeteroFL	88.6 (↓10.0)	85.1 (↓12.7)	73.9 (↓9.2)	95.3 (↓4.1)
6L	Quorus-Layerwise	98.6	97.8	83.1	99.4

平均比 Q-HeteroFL 高 12.4%。深度越大，Quorus 相对 Vanilla QFL（被迫用最浅深度）优势越明显，说明它真正释放了高容量客户端的表达力。

消融：Quorus 四种变体对比（V 形）¶

容量	Layerwise	Ancilla/Blocking	Funnel
4L MNIST 4/9	81.9 (↓1.3)	81.5 (↓1.7)	83.2
5L MNIST 4/9	82.5 (↓2.1)	81.9 (↓2.7)	84.6
6L MNIST 4/9	83.1 (↓2.1)	82.2 (↓3.0)	85.2

Layerwise 与 Funnel 综合最优，作为后续实验主选；Ancilla/Blocking 精度略低但带来 shot/连接性上的灵活度。

关键发现¶

更高梯度范数：Quorus 提升了高深度客户端的梯度幅值，缓解贫瘠高原效应，使深电路可训练。
真机可行：在 IBM 全系超导 QPU 上实现，精度与理想模拟相差 3% 以内。
小容量客户端例外：2L 等最小容量时 Quorus-Layerwise 未必最优，因其损失会同时惩罚第一层参数与深层客户端的 loss 值。

亮点与洞察¶

首个结构化、深度异构的 QFL 框架，把分层损失 + 反向蒸馏引入量子，填补了"异构需求量子客户端"的文献空白。
直面量子独有矛盾：测量即坍缩这个经典 FL 不存在的问题，被转化为四种成本互斥的电路设计，工程上非常干净——每个设计恰好只付一种代价，按客户端真实约束对号入座。
既看模拟也看真机：12.4% 提升、3% 真机差距、更大梯度范数三条证据互相印证，量子论文里少见的扎实硬件验证。

局限性 / 可改进方向¶

仅限二分类任务（只测第一个 qubit），多分类需重新设计输出读取方式。
数据规模小（每客户端 128 点、PCA 到 10 维），离真实 QML 应用尺度尚远。
分层损失对小容量客户端反而不利，第一层参数被多重惩罚，公平性/个性化仍待解决。
Ancilla 的去相位与 Blocking 的中路测量在 NISQ 设备上仍是误差源，长程 CNOT 的硬件代价未充分量化。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个深度异构 QFL 框架，对量子测量坍缩难题给出原创且互斥的多方案设计
实验充分度: ⭐⭐⭐⭐ 多容量×多数据集×5 次重复 + IBM 真机验证，扎实；但仅二分类、数据规模小
写作质量: ⭐⭐⭐⭐ 问题动机层层递进，四种设计的取舍用一张表讲清，逻辑清晰
价值: ⭐⭐⭐⭐ 推动 QFL 走向真实异构硬件，对 NISQ 时代分布式 QML 有实际意义