Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery¶

会议: CVPR2026
arXiv: 2603.01034
代码: YangyangXu2002/RepTRFD
领域: 3D视觉 / 低级视觉 / 张量分解
关键词: Tensor Ring分解, 隐式神经表示, 重参数化, 图像修复, 点云恢复, 频率分析

一句话总结¶

提出 RepTRFD：通过将 Tensor Ring 因子重参数化为"可学习隐张量 × 固定基"的形式，解决 INR 参数化 TR 因子的频谱偏置问题，在图像修复/去噪/超分/点云恢复等任务上全面超越 SOTA。

研究背景与动机¶

低秩张量分解广泛应用：CP、Tucker、TT、TR 等分解为图像/视频/遥感/医学影像等多维数据提供了紧凑表示，其中 TR 分解因环形结构在高阶张量建模中尤为高效。

离散 TR 局限于固定网格：传统 TR 分解本质是离散的，仅定义在固定 meshgrid 上，无法处理连续信号和分辨率无关的建模场景（如稀疏点云）。

INR 为张量函数化提供可能：已有工作将 Tucker/CP/TT 分解推广到连续域（如 LRTFR、DRO-TFF），但 TR 分解的连续化扩展尚属空白。

直接 INR 化 TR 因子效果差：将 INR 直接用于参数化 TR 因子时，重建结果被低频分量主导，高频细节丢失严重。

频域分析揭示根因：作者从频域视角证明，TR 因子的频谱特性会直接传递到重建张量——若因子缺乏高频成分，重建结果在对应维度也将缺失高频。

INR 固有频谱偏置是瓶颈：标准 INR（如 SIREN）倾向学习低频分量，难以捕获 TR 因子中所需的高频成分，需要新策略打破这一瓶颈。

方法详解¶

整体框架¶

这篇论文要解决的核心问题是：传统 Tensor Ring（TR）分解只定义在离散网格上，无法处理连续信号与分辨率无关的建模；而把隐式神经表示（INR）直接拿来参数化 TR 因子又会被低频主导、丢掉高频细节。RepTRFD 的思路是让 INR 来「生成」TR 因子，但在因子和网络之间插一层重参数化——网络只输出一个可学习的隐张量，再乘上一个固定基，组合出真正用于 TR 收缩的因子。

整条 pipeline 是这样转的：每个维度的坐标 \(v_k\) 先过一个所有模式共享的正弦频率嵌入层 \(\mathbf{z}_k = \sin(\omega_0(\mathbf{w}v_k + \mathbf{b}))\) 得到嵌入；每个模式各自有一个分支 MLP \(f_{\theta_k}\)，把嵌入映射成隐张量切片 \(\mathcal{C}^{(k)}_{:v_k:} \in \mathbb{R}^{r_k \times R_{k+1}}\)（其中 \(R_{k+1} = \beta r_{k+1}\)，\(\beta \geq 1\) 为扩展因子）；隐张量再通过 \(\mathcal{G}^{(k)} = \mathcal{C}^{(k)} \times_3 \mathbf{B}^{(k)}\) 与固定基 \(\mathbf{B}^{(k)}\) 收缩成真正的 TR 因子；最后用 TR 收缩算子 \(\Phi(\cdot)\) 的迹运算重建出目标张量的每个元素。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["坐标 v_k"] --> S1
    subgraph S1["共享频率嵌入 + 分支 MLP"]
        direction TB
        B["共享正弦频率嵌入<br/>z_k = sin(ω₀(w·v_k + b))"] --> C["模式分支 MLP f_θk<br/>输出隐张量切片 C⁽ᵏ⁾"]
    end
    S1 --> D["因子重参数化<br/>G⁽ᵏ⁾ = C⁽ᵏ⁾ ×₃ B⁽ᵏ⁾（固定基）"]
    D --> E["TR 收缩 Φ(·) 迹运算<br/>重建目标张量元素"]

关键设计¶

1. 共享频率嵌入 + 分支 MLP：让同一套坐标编码服务所有模式

直接给每个模式配一套独立 INR 容易让各模式学到不一致的频率响应、也更易过拟合。RepTRFD 让所有模式共享同一个正弦嵌入层 \(\mathbf{z}_k = \sin(\omega_0(\mathbf{w}v_k + \mathbf{b}))\)，只在后面用各自的分支 MLP \(f_{\theta_k}\) 分化出模式相关的隐张量切片。共享嵌入把跨模式的一致性约束进了参数层面，消融显示它比独立嵌入训练更稳、抗过拟合更强。

2. 因子重参数化：把「难学的高频」搬到对优化更敏感的空间

这是全文要害。前面说过，INR 有固有的频谱偏置（SIREN 这类天然偏向低频），而作者从频域证明 TR 因子的频谱会直接传导到重建张量——因子里没有的高频，重建结果对应维度也补不回来。RepTRFD 不去改网络结构，而是把每个 TR 因子拆成「可学习隐张量 \(\mathcal{C}^{(k)}\)（由 INR 生成）× 固定基 \(\mathbf{B}^{(k)}\)」的结构化组合。Theorem 2 证明存在特定基 \(\mathbf{B}\)，使重参数化后梯度对高频分量的响应比率不低于原始参数空间，也就是优化过程对高频细节更敏感，训练动态被显著改善。

固定基的取值不能乱设。Theorem 3 给出 Xavier 风格初始化 \(\mathbf{B}^{(k)}_{ij} \sim \mathcal{U}(-\sqrt{6/(r_{k+1}+R_{k+1})}, \sqrt{6/(r_{k+1}+R_{k+1})})\)，保证前向与反向传播的方差一致；Theorem 4 进一步证明整个 RepTRFD 映射全局 Lipschitz 连续，使模型对输入扰动不过度敏感。因为 \(\mathbf{B}^{(k)}\) 初始化后冻结、不参与梯度更新，这套重参数化带来的额外计算开销极小（实测约 +1 秒）。

损失函数¶

采用通用的「数据保真项 + 可选正则项」框架：\(\min_\phi \mathsf{L}_{\text{data}}(g_\phi; \mathcal{O}) + \mathsf{L}_{\text{reg}}(g_\phi)\)，根据具体任务（修复 / 去噪 / 超分 / 点云恢复）选择不同的数据项和正则化。

实验¶

主要结果¶

图像/视频修复（Inpainting）：在彩色图像、多光谱图像（MSI）、高光谱图像（HSI）和视频上全面超越 TRLRF、FCTN、HLRTF、LRTFR、DRO-TFF、NeurTV。

数据集	方法	SR=0.1 PSNR	SR=0.2 PSNR	SR=0.3 PSNR
彩色图像 (256²×3)	DRO-TFF	23.22	27.52	30.04
	NeurTV	24.16	27.81	30.28
	RepTRFD	25.70	29.37	32.01
MSI (256²×31)	DRO-TFF	38.45	42.28	45.00
	RepTRFD	39.34	44.66	47.74

点云恢复（SR=0.2，NRMSE↓）：

方法	Doll	Duck	Frog	Mario
WIRE	0.106	0.060	0.053	0.086
FINER	0.110	0.059	0.054	0.088
RepTRFD	0.093	0.053	0.050	0.080

消融实验¶

重参数化的效果：无重参数化 vs 有重参数化在 SR=0.2 下，彩色图像 PSNR 从 27.41→30.45（+3.04 dB），MSI 从 29.41→48.67（+19.26 dB），时间仅增加约 1 秒。
扩展因子 β 的影响：β 从 1 增大到 10 时 PSNR 持续提高且收敛更快，但收益递减。
基初始化敏感性：对 HSI Botswana，初始化尺度 \(a\) 从 0.01 到 1 变化，理论推导值 \(a \approx 0.165\) 取得最优 PSNR（45.27），过小或过大均导致显著退化。
共享频率嵌入：相比独立嵌入，共享嵌入训练更稳定、抗过拟合更强。
模型复杂度对比：在参数量和 FLOPs 匹配条件下，RepTRFD 一致优于 LRTFR。

关键发现¶

重参数化带来的增益在高阶数据（HSI、视频）上尤为显著，MSI 修复提升可达 19 dB。
计算开销增加极少（~1s），主要因为固定基 \(\mathbf{B}\) 不参与梯度更新。
超分任务中比纯 INR 方法（SIREN/WIRE/FINER）速度快 10-30 倍，PSNR 高约 1 dB。

亮点¶

首次将 TR 分解推广到连续域，填补了张量函数表示领域在 TR 格式上的空白。
频域分析视角新颖：从理论上揭示 TR 因子频谱→重建张量频谱的传导机制，为理解张量功能表示的频率瓶颈提供了理论基础。
重参数化策略简洁有效：仅引入一个固定基矩阵，无需改变网络架构或训练策略，即可显著提升高频学习能力。
理论保障完整：覆盖梯度动态（Theorem 2）、初始化（Theorem 3）和 Lipschitz 连续性（Theorem 4），实用且有指导意义。
四个任务统一框架：修复/去噪/超分/点云恢复共用同一架构，通用性强。

局限性¶

仍需手动设置超参：TR 秩 \(r_k\)、扩展因子 \(\beta\)、频率 \(\omega_0\) 需逐任务调优，缺乏自适应秩选择机制。
仅验证 3-4 阶张量：虽然理论上可扩展到任意阶，但实验仅涉及 3 阶（图像/MSI/HSI）和 4 阶（视频），更高阶数据（如光场、时空光谱）未验证。
无与深度学习端到端方法对比：所有 baseline 均为传统优化或 INR 方法，未涉及 U-Net/Transformer 等监督方法。
点云恢复仅测试小型模型：SHOT 数据集规模有限，未在大规模场景（如 ShapeNet、真实 LiDAR 点云）上验证可扩展性。
固定基不参与学习：\(\mathbf{B}^{(k)}\) 初始化后冻结，可能限制表达力上限，可探索可学习或自适应基。

评分¶

新颖性: ⭐⭐⭐⭐ — TR 连续化 + 频域分析 + 因子重参数化，三个贡献递进且互补
实验充分度: ⭐⭐⭐⭐ — 四种任务、多种数据类型、充分消融，但缺少与深度方法对比
写作质量: ⭐⭐⭐⭐⭐ — 理论推导严谨，图表清晰，逻辑线从问题→分析→解决方案→验证一气呵成
价值: ⭐⭐⭐⭐ — 为张量函数表示提供了新的 TR 格式和重参数化范式，有后续扩展空间