ICLR 2026 优化/理论低 tubal-rank 张量恢复因子化梯度下降小初始化过参数化 minimax 最优早停

The Power of Small Initialization in Noisy Low-Tubal-Rank Tensor Recovery¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=6lobo2PXdl
代码: 待确认
领域: 优化理论 / 低秩张量恢复 / 隐式正则化
关键词: 低 tubal-rank 张量恢复, 因子化梯度下降, 小初始化, 过参数化, minimax 最优, 早停

一句话总结¶

在带噪声、过估计 tubal-rank 的低秩张量恢复中，本文证明把因子化梯度下降（FGD）的初始化尺度取到接近 0（小初始化），就能让最终恢复误差只依赖于真实 tubal-rank \(r\)、而与被高估的秩 \(R\) 无关，从而逼近信息论 minimax 下界，并用验证集早停在无任何先验的情况下达到该误差。

研究背景与动机¶

领域现状：高光谱图像、视频、传感器阵列这类多维数据在张量形式下天然低秩，许多反问题（图像补全、压缩成像、背景建模、CT 重建）都能写成"从少量含噪线性测量 \(y=\mathcal{M}(\mathcal{X}^\star)+s\) 中恢复低秩张量"。在 t-SVD / t-product 框架下，秩用 tubal-rank 刻画。直接做核范数最小化需要反复算 t-SVD，维度一大就很贵；于是更流行的做法是借鉴矩阵的 Burer–Monteiro 分解，把大张量写成两个小因子张量的 t-product \(\mathcal{U}*\mathcal{U}^\top\)，再对因子做因子化梯度下降（FGD），大幅省算力。

现有痛点：FGD 需要知道真实 tubal-rank \(r\)，可现实中 \(r\) 往往未知，只能取一个偏大的估计秩 \(R>r\)（即"过参数化 / over-rank"）。问题在于：当测量被稠密噪声（如高斯噪声）污染时，过参数化会放大误差。Liu et al. (2024b) 证明谱初始化下 FGD 的恢复误差随高估秩 \(R\) 线性增长——\(R\) 估得越离谱，误差越大；而且过参数化还会让收敛从线性退化为亚线性，明显变慢。

核心矛盾：误差对 \(R\) 的依赖来自"过参数化方向"上累积的噪声分量。谱初始化给的是一个能量已经铺满整个 \(R\) 维因子空间的起点，噪声在所有 \(R\) 个方向上同时被拟合，于是误差自然带上 \(R\)。要想让误差只认真实秩 \(r\)，就得想办法让多出来的 \(R-r\) 个冗余方向"长不起来"。

本文目标：能否在带噪声的过参数化低秩张量恢复中，得到一个只依赖真实 tubal-rank \(r\)、与高估秩 \(R\) 无关的误差上界，并且这个误差在实践中可被无先验地达到？

切入角度：作者观察到一个反直觉现象（图 1）——把初始化尺度取到近乎为 0 时，FGD 会先线性收敛到与"已知精确秩"相同的低误差，停在那里一段时间，之后误差才慢慢爬升回谱初始化的水平。这说明小初始化制造了一个"低误差窗口"，关键是要在数学上刻画这个窗口何时出现、何时关闭。

核心 idea：用小初始化代替谱初始化，使信号方向先快速放大、冗余方向长期被压在初始化量级，再配合验证集早停在低误差窗口内停手——这样恢复误差只依赖 \(r\)，逼近 minimax 最优。

方法详解¶

整体框架¶

本文不是提出新算法，而是为"小初始化 + FGD + 早停"这套朴素流程建立一套四阶段分析框架，给出迄今最紧的误差上界。算法本身极简：把对称半正定的真张量记作 \(\mathcal{X}^\star=\mathcal{X}*\mathcal{X}^\top\)（\(\mathcal{X}\in\mathbb{R}^{n\times r\times k}\)），用 \(\mathcal{U}\in\mathbb{R}^{n\times R\times k}\) 做过参数化分解，最小化

\[\min_{\mathcal{U}}\ f(\mathcal{U})=\frac{1}{4m}\big\|y-\mathcal{M}(\mathcal{U}*\mathcal{U}^\top)\big\|^2,\]

FGD 更新为 \(\mathcal{U}_{t+1}=\mathcal{U}_t-\eta\cdot\big(\frac{1}{m}\mathcal{M}^*\mathcal{M}(\mathcal{U}_t*\mathcal{U}_t^\top-\mathcal{X}^\star)-\mathcal{E}\big)*\mathcal{U}_t\)，其中初始点每个元素 i.i.d. 采自 \(\mathcal{N}(0,\alpha^2/R)\)，\(\alpha\) 是初始化尺度，\(\mathcal{E}=\frac{1}{m}\mathcal{M}^*(s)\) 是噪声项。

分析的核心动作是把因子 \(\mathcal{U}_t\) 分解成"信号项"和"过参数化项"：借助真张量列空间 \(\mathcal{V}_{\mathcal{X}}\)，对 \(\mathcal{V}_{\mathcal{X}}^\top*\mathcal{U}_t\) 做 t-SVD 得到对齐子空间 \(\mathcal{W}_t\)，则

\[\mathcal{U}_t=\underbrace{\mathcal{U}_t*\mathcal{W}_t*\mathcal{W}_t^\top}_{\text{信号项}}+\underbrace{\mathcal{U}_t*\mathcal{W}_{t,\perp}*\mathcal{W}_{t,\perp}^\top}_{\text{过参数化项}}.\]

三个标量量刻画动力学：信号强度 \(\sigma_{\min}(\mathcal{U}_t*\mathcal{W}_t)\)、冗余能量 \(\|\mathcal{U}_t*\mathcal{W}_{t,\perp}\|\)、信号与真值的子空间对齐度 \(\|\mathcal{V}_{\mathcal{X}_\perp}^\top*\mathcal{V}_{\mathcal{U}_t*\mathcal{W}_t}\|\)。整条 FGD 轨迹被切成四个相位，误差最低点出现在第三相位，第四相位误差回升——这正是早停要拦截的地方。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["小初始化<br/>α≈0 的近零起点"] --> B["相位 I 对齐<br/>信号子空间转向真值"]
    B --> C["相位 II 信号放大<br/>σ_min 指数增长、冗余仍压在 α 量级"]
    C --> D["相位 III 局部精修<br/>子空间内误差快降→最低恢复误差 √r·κ²·‖E‖"]
    D -->|继续迭代冗余项开始增长| E["相位 IV 过拟合<br/>误差回升至谱初始化水平"]
    D -->|验证损失触底时停手| F["验证集早停<br/>无先验达到 Theorem 2 误差"]

关键设计¶

1. 小初始化：让恢复误差与高估秩 \(R\) 解耦

这一条直接打掉"误差随 \(R\) 线性增长"的痛点。谱初始化的起点能量铺满全部 \(R\) 个因子方向，噪声被所有方向同时拟合；小初始化（实验里 \(\alpha=10^{-10}\)）则让所有方向都从近零出发，梯度动力学使真实信号占据的 \(r\) 个方向因为有真值"引力"而指数放大，而多余的 \(R-r\) 个方向缺乏放大源、长期停留在初始化量级 \(\alpha\)。在最低误差相位，过参数化项 \(\|\mathcal{U}_t*\mathcal{W}_{t,\perp}\|^2\) 几乎可忽略，误差由子空间内分量主导。借助列空间投影 \(\mathcal{V}_{\mathcal{X}}\) 的一个关键不等式

\[\|\mathcal{V}_{\mathcal{X}}^\top*(\mathcal{U}_t*\mathcal{U}_t^\top-\mathcal{X}^\star)\|_F\le \sqrt{r}\,\|\mathcal{V}_{\mathcal{X}}^\top*(\mathcal{U}_t*\mathcal{U}_t^\top-\mathcal{X}^\star)\|,\]

最终误差被控制成 \(\|\mathcal{U}_{\hat t}*\mathcal{U}_{\hat t}^\top-\mathcal{X}^\star\|_F\lesssim\sqrt{r}\,\kappa^2\|\mathcal{E}\|\)——只含真实秩 \(r\)、条件数 \(\kappa\) 和噪声谱范数 \(\|\mathcal{E}\|\)，完全不含 \(R\)（Theorem 2）。这是已知第一个与高估张量秩无关的误差界，且对噪声分布不做具体假设，只要 \(\|\mathcal{E}\|\le c\kappa^{-2}\sigma_{\min}^2(\mathcal{X})\)。Theorem 2 还按 \(R=r\)、\(r<R<3r\)、\(R\ge 3r\) 三种过估计程度分别给出对初始化尺度 \(\alpha\) 的上界和所需迭代步数 \(\hat t\)，越过估、\(\alpha\) 要越小。

2. 四阶段轨迹分析：刻画"低误差窗口"为何出现又为何关闭

要证明上面的误差界，必须精确追踪信号项与冗余项随时间的此消彼长，本文为此把 FGD 轨迹切成四个相位：(I) 对齐相——对齐度 \(\|\mathcal{V}_{\mathcal{X}_\perp}^\top*\mathcal{V}_{\mathcal{U}_t*\mathcal{W}_t}\|\) 下降，信号子空间转向真值，此时信号与冗余都还很小；(II) 信号放大相——\(\sigma_{\min}(\mathcal{U}_t*\mathcal{W}_t)\) 指数增长直到至少 \(\sigma_{\min}(\mathcal{X})/\sqrt{10}\)，冗余项仍停在初始化尺度；(III) 局部精修相——误差被拆成 \(\|\mathcal{U}_t*\mathcal{U}_t^\top-\mathcal{X}^\star\|\le 4\|\mathcal{V}_{\mathcal{X}}^\top*(\mathcal{U}_t*\mathcal{U}_t^\top-\mathcal{X}^\star)\|+\|\mathcal{U}_t*\mathcal{W}_{t,\perp}\|^2\)，冗余平方项小、子空间内误差快速下降，到达全局最低误差；(IV) 过拟合相——冗余项 \(\|\mathcal{U}_t*\mathcal{W}_{t,\perp}\|\) 最终也开始增长，整体误差回升并逼近谱初始化的水平。

相比 Karnik et al. (2025) 把无噪声轨迹只分成"谱阶段 + 收敛阶段"两段，本文的四相分解能逐相追踪噪声演化，因而能在含噪声下拿到 minimax 级别的保证。把这套框架退化到 \(k=1\)（第三维为 1）就回到矩阵情形，t-product 退化为矩阵乘法。但张量情形并非平凡推广：当真张量的某些 tube 在傅里叶域不可逆时，值域与核不再互补、信号/冗余分解会失效，需要更精细的张量条件数；且测量算子会在所有频率切片间耦合信息，无法像 power method 那样逐切片独立分析。

3. minimax 下界：证明这个误差界"几乎到顶"

光有上界不够，还要回答"这已经多好了"。本文针对高斯噪声情形导出信息论 minimax 下界（Theorem 3）：在 \((r,\delta)\) t-RIP、\(s\sim\mathcal{N}(0,\sigma^2 I)\) 下，任意估计量 \(\mathcal{X}^{est}\) 的最坏均方误差满足

\[\sup_{\mathcal{X}^\star}\mathbb{E}\|\mathcal{X}^{est}-\mathcal{X}^\star\|_F^2\ge\frac{1}{1+\delta}\cdot\frac{nrk\sigma^2}{m},\]

即没有任何方法能把误差一致压到 \(\Theta(nrk\sigma^2/m)\) 之下。与之配套，Corollary 1 证明高斯噪声下小初始化 FGD 的误差为 \(\|\mathcal{U}_{\hat t}*\mathcal{U}_{\hat t}^\top-\mathcal{X}^\star\|_F^2\lesssim nkr\kappa^4\sigma^2/m\)，与下界相比只差常数因子和对条件数 \(\kappa\) 的依赖，因而是近 minimax 最优。样本复杂度方面，本文只需 \((2r+1,\delta)\) t-RIP（\(m\gtrsim nkr/\delta^2\)），而 Liu et al. (2024b) 需要 \((4R,\delta)\) t-RIP，采样需求随过估计程度上升——本文的需求与 \(R\) 无关，这也是张量设定下首个 minimax 误差分析。

4. 验证集早停：无先验地抵达最低误差

Theorem 2 给出的最优停步 \(\hat t\) 依赖未知的 \(\mathcal{X}^\star\)，停太早或太晚（落进相位 IV）误差都会变大，工程上没法直接用。本文用机器学习里常见的验证—早停来定位相位 III 的最低点：把观测 \(\{\mathcal{A}_i,y_i\}_{i=1}^m\) 随机切成训练集与验证集，只用训练集跑 FGD，每步算验证损失 \(e_t=\frac14\|y_{val}-\mathcal{M}_{val}(\mathcal{U}_t*\mathcal{U}_t^\top)\|^2\)，取 \(\check t=\arg\min_t e_t\) 对应的 \(\mathcal{U}_{\check t}*\mathcal{U}_{\check t}^\top\) 作为输出。Theorem 4 给出理论保证：当验证样本数满足 \(m_{val}\ge C_1\frac{m_{train}^2\log T}{(rnk\kappa^4)^2}\) 时，验证选出的解仍满足 \(\|\mathcal{U}_{\check t}*\mathcal{U}_{\check t}^\top-\mathcal{X}^\star\|_F^2\le C\,nkr\sigma^2\kappa^4/m_{train}\)，即匹配 Theorem 2 的上界。代入 \(m_{train}\gtrsim nkr^2\kappa^8\) 后验证集只需 \(m_{val}\gtrsim r^2\kappa^8\log T\)，相对训练集很小、实践可行；实验进一步显示取总样本的 5%–10% 作验证集即可。

损失函数 / 训练策略¶

目标函数即测量残差平方 \(f(\mathcal{U})=\frac{1}{4m}\|y-\mathcal{M}(\mathcal{U}*\mathcal{U}^\top)\|^2\)；优化用固定步长 FGD。关键超参是初始化尺度 \(\alpha\)（小初始化取 \(10^{-10}\)、大初始化取 \(10\) 并把步长降到 \(0.001\) 防发散）、步长 \(\eta\)、验证比例 \(m_{val}/m\)（推荐 5%–10%）以及由验证损失触发的早停步 \(\check t\)。

实验关键数据¶

仿真设置：合成 \(\mathcal{X}^\star=\mathcal{X}*\mathcal{X}^\top\)（元素采自 \(\mathcal{N}(0,1)\) 后归一化），高斯测量算子，噪声 \(s\sim\mathcal{N}(0,\sigma^2)\)，\(n=30,k=3,r=3\)，用相对平方误差 RSE \(=\|\mathcal{U}_t*\mathcal{U}_t^\top-\mathcal{X}^\star\|_F^2/\|\mathcal{X}^\star\|_F^2\) 衡量，重复 20 次。对比四种起点：精确秩 baseline、谱初始化、大随机初始化、小随机初始化（取最优步 best / 验证早停 ES）。

主实验（仿真，图 2 关键结论）¶

变化维度	谱初始化 / 大随机初始化	小初始化（best/ES）
过估计秩 \(R\) 增大	误差随 \(R\) 单调上升、明显高于小初始化	始终贴住 baseline，与 \(R\) 无关
噪声 \(\sigma\) 增大	高于小初始化	贴住 baseline
维度 \(n\) 增大	迭代足够多时与谱初始化持平	贴住 baseline
测量数 \(m=2C_m nrk\) 减小	误差偏高	\(m=3nrk\) 仍低误差，样本复杂度更省

核心观察：四种设置下小初始化都取得与"已知精确秩"相同的最低误差；ES 版在无任何先验下也逼近 baseline；谱/大随机初始化误差随高估秩增长且更高，大随机初始化因收敛慢误差尤其大。

真实数据实验（彩色图像补全，Table 2 摘录，\(p=0.3\)）¶

方法	\(\sigma=0.07\) PSNR↑	RE↓	\(\sigma=0.1\) PSNR↑	RE↓
TCTF（秩估计）	20.67	0.2008	20.63	0.2024
TNN（凸核范数）	22.06	0.1681	20.17	0.2082
GTNN（非凸）	23.15	0.1481	21.11	0.1867
FGD-ES（本文早停）	23.66	0.1426	22.72	0.1585
FGD-best（本文最优步）	23.84	0.1395	22.86	0.1559

在 Berkeley 数据集 50 张 \(481\times321\times3\) 彩色图、Bernoulli 采样 + 高斯噪声的补全任务上，FGD-best 在各采样率/噪声组合下 PSNR 全面领先，FGD-ES 略低但仍优于所有对比方法；值得注意的是张量补全并不满足 t-RIP，小初始化依然取得最低重建误差。

关键发现¶

小初始化是误差与 \(R\) 解耦的唯一关键开关：同样 FGD、同样早停，仅把起点尺度从谱/大随机换成近零，误差就从"随 \(R\) 线性增长"变成"恒等于精确秩 baseline"。
验证集比例存在甜区：验证样本太多会挤占训练数据使误差上升、太少（<5%）则验证不可靠，5%–10% 最稳（图 3）；验证损失最低点与真实 RSE 最低点高度吻合，证明用验证损失作停准是可靠的。
对秩高估钝感：真实数据中取 \(R=50/75/100/125\) 对 PSNR 影响很小（图 4），印证"秩未知时宁可取稍大值"是安全策略。

亮点与洞察¶

把矩阵的"小初始化隐式正则"现象首次严格搬到张量 t-SVD 设定并扩展到含噪声：核心难点在于张量值域/核不互补、频率切片在梯度更新中相互耦合，作者用四相分解 + 列空间投影 + 张量条件数把这些坑逐一填上。
上界与下界配对给出"近最优"判定，而不是只报一个上界——\(\sqrt{r}\kappa^2\|\mathcal{E}\|\) 的上界对照 \(\Omega(nrk\sigma^2/m)\) 的 minimax 下界，差距只在常数与 \(\kappa\) 依赖，结论有说服力。
"先收敛到最优、再过拟合回升"的非单调误差曲线被精确刻画为相位 III→IV 的转折，把早停从经验技巧变成有理论保证的步骤，这个"低误差窗口"视角可迁移到其他过参数化分解恢复问题。

局限与展望¶

理论建立在对称半正定假设 \(\mathcal{X}^\star=\mathcal{X}*\mathcal{X}^\top\) 上；一般非对称 \(\mathcal{X}\approx\mathcal{L}*\mathcal{R}^\top\) 需要先对称化构造、并额外分析两因子轨迹耦合带来的不平衡项，文中仅在附录给出简要讨论。
误差界仍带条件数 \(\kappa\) 的高次依赖（如 \(\kappa^4\)、初始化尺度上界含 \(\kappa^2\) 指数项），病态张量下常数可能很差，与 minimax 下界的差距正来自这部分。
t-RIP 是为理论保证服务的较强采样假设，作者也承认实践中远小于理论要求的样本就够用；真实任务（如补全）甚至不满足 t-RIP，理论与实践之间仍有缺口待弥合。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个与高估张量秩无关的误差界 + 张量设定下首个 minimax 分析，理论贡献清晰。
实验充分度: ⭐⭐⭐⭐ 仿真四维度扫描 + 真实图像补全验证理论，但以验证理论为主，未做大规模视频/高光谱主表。
写作质量: ⭐⭐⭐⭐ 四相框架与对比表把贡献讲得很清楚，公式密集、对非理论读者门槛偏高。
价值: ⭐⭐⭐⭐ "秩未知时取大秩 + 小初始化 + 验证早停"是即插即用且有理论背书的实用配方。