跳转至

🎨 图像生成

🔬 ICLR2026 · 352 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (490) · 💬 ACL2026 (5) · 🧪 ICML2026 (141) · 🤖 AAAI2026 (79) · 🧠 NeurIPS2025 (221) · 📹 ICCV2025 (213)

🔥 高频主题: 扩散模型 ×131 · 文生图 ×24 · 对齐/RLHF ×17 · 图像编辑 ×15 · 布局/合成 ×13

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

对扩散 Transformer 的条件嵌入进行首次系统分析,发现极端的角度相似性(类间余弦相似度>99%)和维度稀疏性(仅 1-2% 的维度携带语义信息),裁剪掉 2/3 的低幅维度后生成质量基本不变,揭示了条件嵌入中隐藏的语义瓶颈。

A Noise is Worth Diffusion Guidance

这篇论文提出 NoiseRefine:不去改扩散模型本身,而是训一个轻量网络把随机高斯噪声"精炼"成一份结构化噪声,使得不开任何采样引导、只跑一遍前向就能生成接近 CFG 引导质量的图像,从而把每步两次前向的引导开销直接省掉。

A Physics-Inspired Optimizer: Velocity Regularized Adam

本文提出 VRAdam(Velocity-Regularized Adam),把"四次方动能项"这一物理稳定机制翻译成一个随速度自动收缩的全局动态学习率 \(\eta_t=\alpha_0/(1+\min(\beta_3\|v_t\|^2,\alpha_1))\) 嵌进 AdamW,在权重更新过大时自动减速、抑制稳定边缘附近的震荡,并配上严格的 Lyapunov 稳定性与 \(O(\ln N/\sqrt N)\) 收敛证明,在图像分类、语言建模、GFlowNets、GPT-2 预训练与 LLM 微调上普遍优于 AdamW。

A Probabilistic Hard Concept Bottleneck for Steerable Generative Models

这篇论文把生成模型中的概念瓶颈改成一个概率化的硬二值概念层 VHCB,让用户既能从指定概念直接采样生成图像,也能对已有生成结果做概念干预,并在 StyleGAN2 与 DDPM 上系统验证其比软概念瓶颈更可控、更少概念泄漏。

AC-Sampler: Accelerate and Correct Diffusion Sampling with Metropolis-Hastings Algorithm

AC-Sampler 把扩散模型的生成过程截到中间时间步,用基于 score 的 Langevin proposal 产生候选,再用 Metropolis-Hastings 接受率校正到真实边缘分布,从而在不微调基础模型的前提下同时降低 NFE 并改善 FID。

ACCORD: Alleviating Concept Coupling through Dependence Regularization for Text-to-Image Diffusion Personalization

ACCORD 首次把文生图个性化里的"概念耦合"(主体与上下文被绑死)形式化成一个统计依赖问题,把总依赖偏差拆成"去噪依赖偏差"和"先验依赖偏差"两个可计算的来源,再用两个即插即用的正则化损失(DDLoss + PDLoss)分别消除它们,在主体/风格/人脸个性化上同时提升文本可控性与个性化保真度。

Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

RepTok 把预训练自监督 ViT 的 [cls] token 微调成「单个连续 token」的潜空间,配一个流匹配解码器就能高保真重建图像,再用一个无注意力的 MLP-Mixer 在这个一维潜空间里做生成,从而在 ImageNet/MS-COCO 上以不到对手 10% 的训练算力拿到有竞争力的 FID。

AEGIS: Adversarial Target-Guided Retention-Data-Free Robust Concept Erasure from Diffusion Models

AEGIS 把概念擦除的"擦除目标"从手挑的固定安全词换成迭代优化、逼近被擦概念语义中心的对抗目标 (AET),再用一个无需保留数据、只在梯度冲突时才投影的梯度校正 (GRP),同时把对抗提示攻击的成功率压到最低、又几乎不损失生成质量。

AlignFlow: Improving Flow-based Generative Models with Semi-Discrete Optimal Transport

AlignFlow 用半离散最优传输(SDOT)在训练前一次性算出"噪声分布 → 全体数据点"的确定性对齐映射,把它当作即插即用的耦合喂给各种流生成模型,以不到 1% 的额外开销让轨迹更直、收敛更快、FID 全面下降。

Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

本文提出 AlignTok——不再从零训练 VAE、也不靠语义正则化"逼"编码器学语义,而是把一个已经富含语义的预训练视觉基础编码器(DINOv2)通过三阶段渐进对齐改造成连续 tokenizer,得到既语义结构良好、又能精确重建的潜空间;在 ImageNet 256×256 上让扩散模型仅 64 epoch 就达到 gFID 1.90,收敛速度约为 VA-VAE 的 5 倍。

\(\alpha\)-DPO: Robust Preference Alignment for Diffusion Models via \(\alpha\) Divergence

本文从分布匹配视角证明 Diffusion-DPO 等价于最小化前向 KL 散度、因而对噪声偏好对天然敏感,提出用 α-散度替换 FKL 并配合动态 α 调度,让扩散模型偏好对齐在标签翻转噪声下显著更鲁棒。

AlphaFlow: Understanding and Improving MeanFlow Models

本文把 MeanFlow 的训练目标拆解成"轨迹流匹配 + 轨迹一致性"两项、发现二者梯度强负相关导致优化打架,进而提出统一了流匹配 / Shortcut / MeanFlow 的 α-Flow 目标族,用一个把 α 从 1 退火到 0 的课程策略平滑过渡,在 ImageNet-256 上用纯 DiT 从头训练把 1-NFE FID 刷到 2.58、2-NFE 刷到 2.15。

Amortising Inference and Meta-Learning Priors in Neural Networks (BNNP)

提出 BNNP(Bayesian Neural Network Process),一种将 BNN 权重作为隐变量、BNN 本身作为解码器的 neural process,通过逐层 amortised variational inference 在多数据集上联合学习 BNN 先验和推断网络,首次回答了"在良好先验下,近似推断方法还重要吗?"——答案是肯定的,没有免费午餐。

Any-Order Flexible Length Masked Diffusion

本文提出 FlexMDM,一种能在生成过程中插入新 token、从而建模变长序列的掩码扩散模型,它在理论上保留了掩码扩散"任意顺序并行解码"的能力,困惑度与定长掩码扩散持平但长度分布拟合显著更好,并且只需 16 张 H100 三天就能把预训练好的 LLaDA-8B 改造成变长模型,在 GSM8K(58%→67%)和代码填空(52%→65%)上明显提升。

Any-step Generation via N-th Order Recursive Consistent Velocity Field Estimation

本文提出 RCGM,用「N 阶递归速度场估计」把一致性模型、MeanFlow、shortcut 等少步生成方法统一成同一框架的 1 阶特例,并把它推广到 2 阶以上——高阶目标既不需要昂贵的 JVP,又能兼容激进 EMA 平滑,从而稳定地把少步生成训练扩展到 20B 大模型,在 ImageNet 256×256 上 2 步即达 1.48 FID。

Arbitrary-Shaped Image Generation via Spherical Neural Field Diffusion

ASIG 把整个场景先用"网格化球面隐扩散"在一颗细分二十面体球面上一次性生成出来,再用"球面神经场"按坐标条件从这颗球上任意采样,从而第一次在统一框架内对视角、FOV、分辨率做显式控制,并能无畸变地输出透视、全景、鱼眼乃至不规则形状的图像,质量全面超过各类专用方法。

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

AsynDM 通过为不同像素分配不同的时间步调度(prompt 相关区域去噪更慢),使其能利用更清晰的上下文参考,从而在不需要微调的情况下显著提升文图生成的语义对齐。

AttriCtrl: A Generalizable Framework for Controlling Semantic Attribute Intensity in Diffusion Models

AttriCtrl 通过把"亮度/细节/真实感/安全度"等美学属性统一量化到 \([0,1]\) 标量,再用一个轻量"值编码器"把数值翻译成可注入扩散模型的 token 序列,让用户能像调旋钮一样对单个或多个语义属性做连续、解耦、即插即用的强度控制。

Autoregressive-based Progressive Coding for Ultra-Low Bitrate Image Compression

ARPC 把视觉自回归模型 VAR 的「下一尺度预测」拿来做超低比特率图像压缩:编码端用多尺度残差量化器把图像拆成 K 套从粗到细的离散 token,只传前 k 套、其余由 VAR 自回归生成补齐,从而单模型就能连续调码率;再用 VAR 当概率估计器做无损算术编码、用分组掩码量化器进一步省比特,在 <0.05 bpp 下感知质量超过 13 个扩散/token 基线,解码还快 2∼6×。

Autoregressive Image Generation with Randomized Parallel Decoding

本文提出 ARPG,一种基于"引导解码"框架的视觉自回归模型,通过将位置引导(query)与内容表示(key-value)解耦,实现了完全随机顺序的训练与生成,并支持高效并行解码——在ImageNet-1K 256×256上以64步达到1.94 FID,吞吐量提升20倍以上,内存消耗降低75%以上。

Avoid Catastrophic Forgetting with Rank-1 Fisher from Diffusion Models

本文发现扩散模型在低信噪比时间步上的逐样本梯度近似共线,导致经验 Fisher 信息矩阵实质上是 rank-1 的,于是提出一个和对角近似一样廉价、却能抓住主曲率方向的 rank-1 EWC 惩罚,再配合生成蒸馏,在类增量图像生成任务上几乎消除了遗忘。

BAR: Refactor the Basis of Autoregressive Visual Generation

BAR 把自回归图像生成里"token 序列"这件事抽象成"图像向量在一组基向量上的投影",用一个可端到端学习的线性变换矩阵 \(A\) 统一了 VAR/xAR/RAR/PAR/FAR 等一众手工设计的预测单元与顺序,并让模型自己学出最优的基,在 ImageNet-256 上把 FID 刷到 1.15。

Beyond Text-to-Image: Liberating Generation with a Unified Discrete Diffusion Model

Muddit 把文本和图像放进同一套吸收态(掩码)离散扩散框架里,用一个从文生图模型 Meissonic 初始化的 MM-DiT 当共享生成器,只换条件信号 \(c\) 就能并行完成文生图、图生文、VQA 三类任务,用 1B 参数在质量和效率上追平甚至超过大得多的自回归统一模型。

BideDPO: Conditional Image Generation with Simultaneous Text and Condition Alignment

当文本提示和条件图(深度图/边缘图等)相互冲突时,现有可控生成模型只能二选一;本文提出双向解耦的 DPO 框架 BideDPO,把"对齐文本"和"对齐条件"拆成两组独立偏好对、用自适应损失平衡动态加权、再配上一条全自动构造"冲突感知偏好数据"的流水线和迭代自增强循环,在自建的 DualAlign 基准上把文本成功率最多提升 35%+ 的同时还改善了条件保真度。

Branched Schrödinger Bridge Matching

提出 BranchSBM 框架,通过参数化多个时间依赖的速度场和增长过程,将 Schrödinger Bridge Matching 扩展到分支场景,能够建模从单一初始分布到多个目标分布的分叉动态轨迹,在 LiDAR 表面导航和单细胞扰动建模等任务上显著优于单分支方法。

Bridging Degradation Discrimination and Generation for Universal Image Restoration

BDG 通过多角度多尺度灰度共生矩阵(MAS-GLCM)进行细粒度退化判别,并设计三阶段扩散训练(生成→桥接→修复)将退化判别能力与生成先验无缝融合,在 all-in-one 修复和真实世界超分辨率任务上取得显著的保真度提升。

Bridging Generalization Gap of Heterogeneous Federated Clients Using Generative Models

FedVTC 提出在模型异构联邦学习中,各客户端通过变分转置卷积网络(VTC)从聚合的特征分布统计量中生成合成数据来微调本地模型,无需公共数据集即可显著提升泛化能力,同时降低通信和内存开销。

Bridging the Distribution Gap to Harness Pretrained Diffusion Priors for Super-Resolution

DM-SR 不动预训练扩散模型一根毫毛,只训练一个图像编码器,把低分辨率图直接"翻译"到扩散模型熟悉的"含噪图像"分布上,再用固定去噪器一步生成超分结果,从而在单步扩散下取得当前最佳的感知质量。

Bringing Stability to Diffusion: Decomposing and Reducing Variance of Training Masked Diffusion Models

本文首次把掩码扩散模型(MDM)的训练方差系统分解为「掩码图案噪声 + 掩码率噪声 + 数据噪声」三项,并据此设计了以 P-POTS(帕累托最优 \(t\) 采样器)和 MIRROR(互补掩码反相采样)为核心的六种方差缩减方法,把 MDM 的复杂推理准确率提升 7–8%、把多次运行间的波动压到接近自回归模型(ARM)的水平。

BézierFlow: Learning Bézier Stochastic Interpolant Schedulers for Few-Step Generation

BézierFlow 把"少步生成要优化什么"从离散的 ODE 时间步换成连续的随机插值(SI)调度器,并用贝塞尔曲线的控制点来参数化这个调度器,只花 15 分钟轻量训练就让预训练扩散/流模型在 ≤10 步采样下 FID 提升 2–3 倍。

Carré du champ Flow Matching: 用几何感知噪声改善生成模型的质量-泛化权衡

本文提出 CDC-FM(Carré du champ Flow Matching),把标准 Flow Matching 里各向同性的同质高斯噪声换成由数据流形局部几何决定的各向异性、空间变化噪声,从而在不牺牲样本质量的前提下显著抑制记忆化、提升泛化,尤其适合数据稀疏或几何结构强的科学场景。

CASteer: Cross-Attention Steering for Controllable Concept Erasure

CASteer 是一个免训练的扩散模型概念擦除框架:先用成对正/负提示词预计算每个概念在交叉注意力层的「引导向量」,推理时按当前激活与该向量的投影大小动态地把这个方向减掉,从而只在概念真正出现的图块上精准抹除它(裸露、暴力、特定角色/画风都行),同时几乎不动其他内容,在多个基准上超过所有需要训练的 SOTA。

Charts Are Not Images: On the Challenges of Scientific Chart Editing

本文指出"图表不是图像"——图表是受图形语法约束的结构化数据渲染,编辑图表本质是结构化变换而非像素操作;据此提出 30K+ 规模、覆盖 10 种图表类型与五类渐进任务的 FigEdit 基准,并揭示主流图像编辑模型在像素指标上分数虚高、实际语义编辑却频繁失败。

ChronoEdit: Towards Temporal Reasoning for In-Context Image Editing and World Simulation

把图像编辑重新表述为「两帧视频生成」问题,复用预训练视频大模型的时序先验来保证编辑的物理一致性,并在推理时插入可丢弃的「时序推理 token」来想象一段合理的编辑轨迹,从而在世界模拟类编辑任务上达到 SOTA。

CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration

CIAR 把自回归图像生成的推测解码搬到端云协同框架里,用一个设备端的「区间头」(Inter-Head) 输出每个视觉 token 的连续概率区间来量化不确定性,让低不确定区域在设备本地直接生成、只把高不确定的边界细节 token 连同区间特征上传云端核验,配合 Inter-DRO 对齐训练,实现 2.18× 加速并把云端请求量砍掉 70%,同时几乎不掉画质。

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

CineTrans 发现视频扩散模型的注意力图天然呈"镜头内强相关、镜头间弱相关"的块对角结构,于是用一个由镜头时间戳直接构造的块对角掩码去操控注意力,再配合自建的 Cine250K 多镜头数据集微调,让模型能在任意指定位置生成符合电影剪辑风格的多镜头转场,且换上掩码后免训练也能用。

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

提出 Consistency Mid-Training (CMT),在预训练扩散模型和 flow map 后训练之间插入一个轻量级中间训练阶段,通过让模型学习将 ODE 轨迹上的任意点映射回干净样本来获得轨迹对齐的初始化,从而大幅降低训练成本(最多 98%)并达到 SOTA 两步生成质量。

Co-occurring Associated REtained concepts in Diffusion Unlearning

扩散模型在擦除有害概念(如裸露)时,往往把和它共现的良性概念(如"人")一起抹掉;本文定义了这类必须保留的共现概念 CARE 并提出 CARE score 量化指标,再用 ReCARE 框架从目标图像自动构建一份"良性共现词表"(CARE-set)来同时引导保留与擦除,在裸露 / 梵高风格 / 丁鱥三个任务上同时拿到鲁棒性、可用性和 CARE 保留的整体最优。

CoCoDiff: Correspondence-Consistent Diffusion Model for Fine-grained Style Transfer

CoCoDiff 是一个免训练的风格迁移框架,它直接从预训练 Stable Diffusion 的中间特征里挖出内容图与风格图之间的像素级语义对应,再用一个循环一致性的注意力注入机制把风格"贴"到结构对齐的区域上,在 FID/LPIPS/ArtFID/CFSD 四项指标上全面超过需要额外训练或标注的方法。

CoEmoGen: Towards Semantically-Coherent and Scalable Emotional Image Content Generation

CoEmoGen 把情绪从一个抽象类别转成句子级、上下文连贯的视觉语义描述,再用分层 LoRA 在 Stable Diffusion 中同时建模情绪极性共享的低层视觉风格和具体情绪独有的高层语义,从而比 EmoGen 等方法生成更符合目标情绪、语义更自然且更容易扩展到新数据源的图像。

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

提出 General Policy Composition (GPC),在测试时通过凸组合多个预训练扩散/Flow 策略的分布分数(score),无需额外训练即可产生超越任何单一父策略的更强策略,理论证明凸组合可改善单步分数误差且通过 Grönwall 界传播到全程轨迹。

Composition of Pretrained Diffusion Models: A Logic-Based Calculus

这篇论文把预训练扩散模型的交、并、非组合从经验性的 PoE/MoE 拼接提升为一套基于模糊逻辑的 Dombi score calculus,并在 Stable Diffusion 多提示词组合、复杂 SAT 式组合和多目标分子生成中展示了更稳定的模式覆盖与采样校正。

Compositional amortized inference for large-scale hierarchical Bayesian models

将组合分数匹配(CSM)扩展到层次贝叶斯模型,通过新的误差衰减估计器和 mini-batch 策略解决大量数据组下的数值不稳定问题,首次实现超过 75 万参数(25 万+ 数据组)的大规模层次模型的摊销推断,并在荧光寿命成像的真实科学应用中验证有效性。

Compositional Visual Planning via Inference-Time Diffusion Scaling

只训练一个短时程视频扩散模型并冻结,在推理时把长时程规划重写成一条由重叠视频片段构成的链式因子图,通过在 Tweedie 干净估计(而非含噪中间态)上做同步+异步消息传递来强制片段间边界一致,从而无需任何额外训练就把短片段拼成全局连贯的长时程机器人操作计划,并能泛化到训练中没出现过的起点-终点组合。

Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss

理论分析了自回归扩散损失模型相比条件扩散模型在条件误差修正上的优势(梯度范数指数衰减),并提出基于最优传输(Wasserstein Gradient Flow)的条件精炼方法来解决自回归过程中的"条件不一致性"问题,在 ImageNet 上达到 FID 1.31(基于 MAR)。

Condition Matters in Full-head 3D GANs

发现全头 3D GAN 中视角条件导致严重方向偏差(条件视角生成质量远优于其他视角),提出用视角不变的语义特征(正脸 CLIP 特征)替代视角作为条件,配合 Flux.1 Kontext 合成的 1120 万张 360° 平衡数据集,首次实现全视角一致的高保真多样全头生成。

Conditionally Whitened Generative Models for Probabilistic Time Series Forecasting

提出 CW-Gen(条件白化生成模型),通过联合估计条件均值和滑动窗口协方差矩阵来替代扩散模型/流匹配中的标准高斯终端分布,理论证明了当估计器满足充分条件时采样质量必然提升,在 5 个数据集 × 6 个生成模型上一致改善多变量时间序列概率预测性能。

Consis-GCPO: Consistency-Preserving Group Causal Preference Optimization for Vision Customization

Consis-GCPO 把主体定制生成(reference-to-image/video)里的 GRPO 强化学习重写成一个"离散时间因果优化"问题:在去噪的每一步分别"屏蔽文本"和"屏蔽参考图"做反事实干预,量化每个时间步上文本/视觉条件各自的因果贡献,再把它转成时间步加权的 advantage 去针对性地优化,从而在多主体复杂场景下同时拿到更高的主体一致性和更强的文本跟随。

Consistent Text-to-Image Generation via Scene De-Contextualization

揭示 T2I 模型中 ID 偏移的根本原因是"场景上下文化"(scene contextualization,场景 token 对 ID token 注入上下文信息),并提出 training-free 的 Scene De-Contextualization (SDeC) 方法,通过 SVD 特征值的方向稳定性分析识别并抑制 prompt embedding 中潜在的场景-ID 关联,实现逐场景的身份一致性生成。

Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models

本文提出 MaskGRPO,第一个能稳定扩展到多模态离散扩散模型(DDM)的 GRPO 强化学习框架:先为 DDM 的不可解似然给出一套可计算的重要性估计与 KL 近似,再按"语言/视觉"两类模态分别定制反掩码(re-mask)与采样策略——文本用淡出式 AR 反掩码、图像用高截断随机反掩码加 emerge 采样器,在数学推理、代码、文图生成上把 RL 收益几乎翻倍,同时训练提速最多 30%。

Constantly Improving Image Models Need Constantly Improving Benchmarks

本文提出 ECHO 框架,把社交媒体上用户对新图像模型的真实讨论(创意 prompt + 口碑反馈)自动蒸馏成结构化 benchmark,在 GPT-4o Image Gen 上抓出 31,000+ 条 in-the-wild prompt,既挖出现有 benchmark 没覆盖的新任务,又把 SOTA 与其它模型的差距拉大到 3.2 倍,还能把社区抱怨直接转成可量化的细粒度指标。

ContextBench: Modifying Contexts for Targeted Latent Activation and Behaviour Elicitation

本文把"自动生成流畅自然、又能精准点燃模型特定内部特征或行为的输入"这件事形式化为上下文修改(context modification),配套提出含 715 个任务、三大类目(SAE 激活 / 故事填空 / 后门触发器恢复)的基准 ContextBench,并在白盒方法 EPO 上引入 LLM 辅助变异和 LLaDA 扩散填充两个改进,让生成结果在"激活强度"和"语言流畅度"两个互斥目标上同时取得 Pareto 改进。

ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation

ContextGen 在 FLUX.1-Kontext 这套 Diffusion Transformer 上,用「把复合布局图和参考图一起塞进同一条上下文 token 序列」的思路,配合分层注意力掩码(前后层做全局布局锚定 CLA、中间层做实例级身份注入 ICA)和一套不重叠的位置索引,在多个主体的可控生成上同时把布局准确率和身份保真度做到了 SOTA,甚至在身份保持上反超 GPT-4o。

Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

首次系统研究 T2I 扩散模型的持续遗忘(continual unlearning)问题,发现现有遗忘方法在序列请求下因累积参数漂移导致"效用崩溃",提出一组附加正则化策略(L1/L2 范数、选择性微调、模型合并)和语义感知的梯度投影方法来缓解该问题。

Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling

CADD 给离散掩码扩散的每个 [MASK] 位置额外配一条"连续隐变量"轨道——被掩的 token 不再坍缩成毫无信息的吸收态,而是带着一个逐步加噪但仍保留语义的连续向量,去噪时把它当作"软提示"来引导离散预测,从而在文本、图像、代码三类生成上一致超过纯掩码扩散基线。

Contrastive Diffusion Guidance for Spatial Inverse Problems

针对前向算子不可微、不光滑、只部分已知的"空间逆问题"(典型场景:从人走过的轨迹反推房屋户型图),CoGuide 把基于似然的扩散引导从原始像素空间搬到一个用对比学习训出来的光滑嵌入空间里,用嵌入向量的内积充当似然代理来引导去噪,从而稳定地把噪声 steer 向与观测轨迹一致的户型图,在稀疏/中等轨迹下超过 6 个基线。

COSMO-INR: Complex Sinusoidal Modulation for Implicit Neural Representations

通过谐波失真分析与 Chebyshev 多项式逼近,严格证明了奇/偶对称激活函数在后激活频谱中存在系统性衰减,提出用复正弦项 \(e^{j\zeta x}\) 调制激活函数来保留完整频谱支持,并设计 COSMO-RC 激活函数与正则化先验嵌入器架构,在 Kodak 图像重建上 PSNR 平均领先最强基线 +5.67 dB,NeRF 上领先 +3.45 dB。

CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design

CreatiDesign 在 FLUX.1-dev 基础上仅加 4.1% 参数,把「主体图像 + 语义版面(描述+框)+ 全局 prompt」三类异质条件统一编码进同一 token 序列、用多模态注意力联合交互,再用一套注意力掩码让每个条件只精确控制自己那块画布区域且互不串味,配合一条全自动管线造出 40 万样本数据集,从而在主体保真、版面对齐、整体协调三方面同时超越单条件专家模型和已有多条件模型。

CREPE: Controlling Diffusion with Replica Exchange

提出 CREPE,一种基于 Replica Exchange(并行回火/Parallel Tempering)的扩散模型推理时控制方法,作为 SMC 的计算对偶——在去噪步维度上并行、在样本维度上串行生成,具有高样本多样性、可在线精炼、支持温度退火/奖励倾斜/模型组合/CFG 去偏等多种任务。

CroCoDiLight: Repurposing Cross-View Completion Encoders for Relighting

本文揭示几何视觉预训练模型 CroCo 的隐空间里其实已经隐式编码了光照信息,于是用极小数据(比 CroCo 少两个数量级)把其 patch 隐表示解耦成"一个全局光照向量 + 逐 patch 本征向量",从而免训练地撬动重光照、阴影去除、反照率估计等一系列光度任务。

Cross-ControlNet: Training-Free Fusion of Multiple Conditions for Text-to-Image Generation

本文提出 Cross-ControlNet,一个完全免训练的多条件文生图框架:利用不同 ControlNet 分支中间特征「空间天然对齐 + 条件强度可由方差度量」两个观察,用 PixFusion(像素级方差引导融合)、ChannelFusion(通道级一致性比门控融合)和 KV-Injection(前景/背景解耦的 key-value 注入)三个模块在推理时融合多路控制信号,在冲突条件下 mIoU 比最强免训练基线提升约 5.4%,并可零成本迁移到 DiT 架构的 FLUX。

D-AR: Diffusion via Autoregressive Models

D-AR 设计了一个「序列扩散 tokenizer」,把图像扩散过程重新编码成一串从粗到细的离散 token,让一个原封不动的 Llama 解码器用最标准的 next-token prediction 就能逐 token 生成图像、并在生成过程中实时解码出对应的扩散去噪步骤,在 ImageNet 256×256 上用 775M / 1.4B 参数拿到 2.09 / 2.00 FID。

Deconstructing Guidance: A Semantic Hierarchy for Precise Diffusion Model Editing

本文发现扩散模型 CFG 里的"引导差向量" \(\Delta\epsilon\)幅度编码了编辑的语义尺度(物体=大幅度、背景=小幅度),并用 Tweedie 公式把它证明成 Fisher 信息密度的必然结果;据此提出免训练、即插即用的 Prism-Edit,把引导信号按语义分层后定向放大被压制的背景信号,从而第一次让"背景修改"这一老大难任务变得稳定可控。

Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

作者把广泛使用的 DMD 蒸馏目标做了一次严格的梯度分解,发现真正把多步扩散模型压成少步生成器的「引擎」其实不是分布匹配,而是一个长期被忽视的 CFG Augmentation 项;分布匹配只是个稳定训练的「正则」——基于这个「矛/盾」分工,他们提出对两项使用解耦的再加噪 schedule(d-DMD),在 SDXL / Lumina / 6B 大模型上都拿到一致涨点。

Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling

把一个已经训好的流模型(SiT/DiT)当成编码器-解码器:编码器只看当前时间步 \(t\)、解码器只看下一时间步 \(r\),不改动任何架构就把它变成预测平均速度的「流图」,再微调几十个 epoch,就能在 1–4 步内生成出 ImageNet 256×256 上 FID=2.16(1 步)/ 1.51(4 步)的高质量图像,推理比原流模型快 100 倍以上。

Delay Flow Matching

把流匹配(Flow Matching)背后的常微分方程(ODE)换成时滞微分方程(DDE),让向量场依赖历史状态,从而天然支持轨迹交叉、异质分布间的精确迁移以及对时滞动力系统的建模,在合成数据、单细胞轨迹推断和图像生成上都优于 ODE 版 FM。

DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

DeLeaker 在 DiT 文生图模型的去噪过程中直接对注意力图做动态重加权——抑制实体间的跨实体注意力、强化每个实体的自身身份对齐——从而无需训练、无需外部输入地缓解"语义泄漏",并配套提出首个专用数据集 SLIM 与一套 VLM 自动评测框架。

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

解决 Flow Matching + GRPO 对齐中的稀疏奖励问题:通过 ODE 去噪预测中间潜变量的 step-wise 奖励增益作为密集奖励,并根据密集奖励自适应调整 SDE 采样器的逐时间步噪声注入来校准探索空间,在人类偏好对齐/组合生成/文字渲染三个任务上超越 Flow-GRPO。

DeRaDiff: Denoising Time Realignment of Diffusion Models

DeRaDiff 把语言模型里的"解码时再对齐"搬到扩散模型上:只对齐一次,就能在采样时用一个标量 \(\lambda\) 在线模拟出任意 KL 正则强度训练出的对齐模型,从而免去昂贵的正则强度扫参。

Designing Rules to Pick a Rule: Aggregation by Consistency

面对一大堆各有优劣的排名聚合规则(Borda、plurality、veto……)却不知道该用哪个的难题,本文提出"挑规则的规则"(RPR)这一全新框架,并给出一个具体方案 AbC——把投票者随机对半分两组,谁在两组上算出的排名最一致就选谁,从而无需事先承诺任何公理或生成模型,就能为每份数据自动挑出最合适的聚合规则。

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

本文证明基于范数的记忆检测指标仅在各向同性(isotropic)对数概率分布下有效,在低噪声各向异性(anisotropic)区域失效;提出结合高噪声范数和低噪声角度对齐(cosine similarity)的无去噪检测指标,在 SD v1.4/v2.0 上超越现有无去噪方法且快 5× 以上。

Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value

本文指出扩散模型的损失最优值并非 0 而是一个未知的正数,导致「损失大」无法区分是「数据本身难拟合」还是「模型容量不足」;作者推导出该最优损失的闭式解、设计出可扩展到大数据集的估计器(cDOL),并用它来诊断扩散训练、设计出更优的训练调度(CIFAR-10/ImageNet 上 FID 改善 2%–25%),以及让扩散模型的标度律更符合幂律。

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

提出 DiffInk,首个面向全行手写生成的潜在扩散 Transformer 框架,包含 InkVAE(通过 OCR + 风格分类双正则化学习结构化潜空间)和 InkDiT(在潜空间中做条件去噪生成),在中文手写生成上大幅超越 SOTA(AR 94.38% vs 91.48%),速度提升 800×。

DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities

DiffSDA 用一套基于扩散模型的概率框架,把视频/音频/时序数据无监督地拆成「静态因子」和「动态因子」,只靠单一的 score matching 损失(而非以往 VAE/GAN 那一堆正则项)就实现解耦,并在真实高分辨率视频上首次做到高质量的换装(swap)、零样本迁移和多因子探索。

DiffSparse: Accelerating Diffusion Transformers with Learned Token Sparsity

DiffSparse 把扩散 Transformer 的 token 缓存加速重新表述成"在固定压缩率下,逐层逐时间步分配稀疏率"的可微优化问题:用一个可学习的稀疏代价预测器吐出代价矩阵、再用动态规划求全局最优分配,并配合两阶段训练去掉传统方法必须保留的"满步计算",在 PixArt-α 上省 54% 算力的同时 FID 反超原模型。

Diffusion & Adversarial Schrödinger Bridges via Iterative Proportional Markovian Fitting

本文揭示实践中用来稳定 IMF 训练的「前向-后向交替」启发式其实暗含 IPF 迭代,从而把 IMF 与 IPF 统一为 IPMF(Iterative Proportional Markovian Fitting),给出首个对双向 IMF 的收敛性证明,并把「起始耦合」变成可调旋钮,在生成质量与输入输出相似度之间灵活权衡。

Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models

提出 Diffusion Blend,通过在推理时混合多个奖励微调模型的反向扩散过程来实现多偏好对齐:DB-MPA 支持任意奖励线性组合、DB-KLA 支持动态 KL 正则化控制、DB-MPA-LS 通过随机 LoRA 采样消除推理开销,理论上证明了混合近似的误差界并在实验中接近 MORL oracle 上界。

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

提出 SQDF(Soft Q-based Diffusion Finetuning),通过无需训练的可微软 Q 函数估计和重参数化策略梯度,在 KL 正则化 RL 框架下微调扩散模型,配合折扣因子、一致性模型和离策略回放缓冲三个创新组件,在优化目标奖励的同时有效缓解奖励过优化问题,保持样本的自然性和多样性。

Diffusion Negative Preference Optimization Made Simple

针对扩散模型偏好对齐里"显式建模负偏好需要训两个模型 + 权重合并"的笨重做法,本文提出 Diff-SNPO:把 CFG 天然的条件/无条件双分支当作正/负偏好的两个出口,在一个网络里同时学正偏好和负偏好,并用改造自 Bounded DPO 的有界目标解决朴素做法的"训练越久图越糊"问题,最终在 Pick-a-Pic v2 上以一半算力超过双模型的 Diff-NPO。

Diffusion Transformers with Representation Autoencoders

把潜空间扩散里沿用多年的 VAE 换成"冻结的预训练表示编码器(DINOv2 / SigLIP2 / MAE)+ 训练好的轻量 ViT 解码器",再用三处针对高维 latent 的改造把扩散 Transformer 重新调通,最终在 ImageNet 256×256 上做到无引导 FID 1.51、带引导 1.13,收敛速度比 SiT 快 47×、比 REPA 快 16×。

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

提出 DiffusionNFT,一种全新的扩散模型在线 RL 范式:不在反向采样过程上做策略优化(如 GRPO),而是在前向过程上通过 flow matching 目标对正样本和负样本做对比式训练,定义隐式的策略改进方向,比 FlowGRPO 快 3-25×,且无需 CFG。

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

提出 DrPose,通过直接奖励微调最大化 PoseScore(多视角潜变量图像与 GT 3D 姿态的骨骼一致性)+ KL 正则化防止 reward hacking,结合 DrPose15K 数据集(从 Motion-X 运动数据集采样 15K 多样姿态 + MIMO 视频生成器合成单视角图像),使多视角扩散模型在动态/杂技等困难姿态场景下的 3D 人体重建质量显著提升。

Directional Textual Inversion for Personalized Text-to-Image Generation

本文发现 Textual Inversion (TI) 学到的 token embedding 存在范数膨胀(norm inflation)问题,导致复杂 prompt 的文本对齐下降;提出 Directional Textual Inversion (DTI),将 embedding 范数固定在分布内尺度、仅在单位超球面上用 Riemannian SGD 优化方向,结合 von Mises-Fisher 先验,显著提升 prompt 忠实度。

Discrete Adjoint Matching

提出 Discrete Adjoint Matching(DAM),从纯统计学视角(而非控制论)推导出离散状态空间上的伴随变量,将连续域的 Adjoint Matching 推广到基于连续时间马尔可夫链(CTMC)的离散生成模型,实现了对扩散式 LLM(LLaDA-8B)的有效微调,在 Sudoku 上将准确率从 11.5% 提升至 89.2%。

Discrete Guidance Matching: Exact Guidance for Discrete Flow Matching

给定一个预训练的离散流匹配/扩散模型和目标-源分布的密度比,本文推导出精确的转移率引导公式,把每步采样从需要多次前向降到单次前向,并把能量引导、分类器引导、RLHF 偏好对齐统一为同一框架的特例。

Discrete Variational Autoencoding via Policy Search

把离散 VAE 编码器的训练重新表述成一个 KL 正则化的策略搜索问题——用非参数目标分布的自然梯度去更新参数化编码器(加权最大似然),从而完全绕开 Gumbel-Softmax、直通估计和反向传播采样路径,让自回归离散编码器在 ImageNet 这种高维数据上也能稳定训练并超过量化类方法。

DistillKac: Few-Step Image Generation via Damped Wave Equations

用阻尼波方程(telegrapher equation)及其随机 Kac 表示替代 Fokker-Planck 方程作为生成模型的概率流基础,实现有限速度传播的概率流,并提出端点蒸馏(endpoint distillation)方法实现少步生成,在 CIFAR-10 上 4 步 FID=4.14、1 步 FID=5.66。

Diverse Text-to-Image Generation via Contrastive Noise Optimization

提出 Contrastive Noise Optimization (CNO),通过在 Tweedie 去噪预测空间上对初始噪声施加 InfoNCE 对比损失,以预处理方式提升扩散模型生成多样性,同时保持保真度,无需修改采样过程或模型本身。

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

TADA 不再用扩散模型把整个训练集翻 10–30 倍,而是只挑出"早期训练学不会"的那 30–40% 慢学样本,用真实图像引导扩散生成"保留语义特征、只替换噪声"的合成图去定向放大它们;理论与实验都证明,只增强这一小撮样本反而比全量增强更强,并能让 SGD 在 CIFAR-100/TinyImageNet 上超过 SAM。

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

提出 SHINE,一个无需训练的图像合成框架,通过 Manifold-Steered Anchor Loss、Degradation-Suppression Guidance 和 Adaptive Background Blending 三个组件,利用预训练 T2I 模型(如 FLUX)内在的物理先验,实现在复杂光照条件下(阴影、水面反射等)的高质量物体插入。

DoFlow: Flow-based Generative Models for Interventional and Counterfactual Forecasting

提出DoFlow,一种基于连续正则化流(CNF)的因果生成模型,在因果DAG上统一实现观测、干预和反事实时间序列预测,并可通过显式似然进行异常检测,在合成和真实医疗数据上验证了有效性。

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

首个将 FLUX (DiT) 的强生成先验引入拖拽编辑的框架,通过区域级仿射监督替代传统点级监督,配合梯度掩码硬约束和 adapter 增强反演,大幅提升拖拽编辑质量。

Dragging with Geometry: From Pixels to Geometry-Guided Image Editing

GeoDrag 把"近的像素动得多、远的像素动得少"这条 3D 透视规律塞进拖拽式图像编辑:用一个同时编码 3D 几何(深度)和 2D 平面先验的统一位移场,在潜空间一步前向就完成结构一致的拖拽,并用 Voronoi 分区解决多点拖拽互相抵消的问题,在 DragBench 上把拖拽精度(DAI)相对次优方法提升 1.4 倍、平均距离(MD)提升 1.1 倍,且无需 LoRA 预热。

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

指出当前统一多模态模型中理解模块仅作翻译器而生成模块被迫同时充当"设计师"和"画家"的职责失衡问题,通过构建 DIM 数据集(14M 长上下文文图对 + 233K CoT 编辑蓝图)将设计责任转移给理解模块,4.6B 参数即超越 5 倍大的模型。

Dual-Path Condition Alignment for Diffusion Transformers

DUPA 把 REPA 里"用外部视觉编码器给噪声图打标签"的表征对齐,改成"把同一张图独立加噪两次、让模型自己提取的两套条件特征互相对齐"的无监督自对齐,无需任何外部图像/参数/算力,在 ImageNet 256×256 上仅训练 400 epoch 就拿到 FID=1.46,超过所有不依赖外部监督的方法。

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

提出 Dual-Solver,通过三组可学习参数(预测类型插值 \(\gamma\)、积分域选择 \(\tau\)、残差调整 \(\kappa\))泛化扩散模型多步采样器,用冻结预训练分类器(MobileNet/CLIP)的分类损失学习参数(无需教师轨迹),在 3-9 NFE 低步区间全面优于 DPM-Solver++ 等方法。

Dynamic Classifier-Free Diffusion Guidance via Online Feedback

这篇论文把扩散模型里固定不变的 classifier-free guidance scale 改成逐步在线选择的动态日程:在每个反向扩散步用轻量潜空间评估器给候选 CFG scale 打分,再贪心选择当前最优值,从而在几乎不增加采样成本的情况下同时改善文本对齐、视觉质量、文字渲染和计数能力。

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

提出 T2I-CoReBench,首个同时系统评估 T2I 模型组合能力(Composition)和推理能力(Reasoning)的综合性基准,涵盖 12 个评估维度、1080 条高难度 prompt 和约 13500 个 checklist 问题,通过对 38 个模型的大规模评测揭示:推理能力远远落后于组合能力,是当前 T2I 生成的核心瓶颈。

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

EchoGen 把"主体驱动生成"第一次搬到视觉自回归(VAR/Infinity)框架上,用一条语义路 + 一条内容路的双路注入解耦主体的"身份"与"细节",在 DreamBench 上做到与扩散方法相当甚至更优的保真度,而采样延迟从 10s+ 压到 0.5–5.2s。

Edit-Based Flow Matching for Temporal Point Processes

论文提出 EDITPP:把时间点过程(TPP)的生成建模成连续时间马尔可夫链(CTMC)上的编辑流,通过插入/删除/替换三类原子编辑把噪声序列逐步运输到目标事件序列,在无条件生成与条件预测任务上达到或接近 SOTA,同时减少编辑步数并显著提速采样。

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

构建了一个包含 200K 人工标注偏好对的高质量数据集 EditReward-Data,训练出 EditReward 奖励模型,在多个图像编辑评估基准上达到 SOTA 的人类对齐度,并验证其作为数据筛选器可显著提升下游编辑模型性能。

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

提出首个系统性的"基准评测→奖励模型→强化学习训练"图像编辑 RL 管线:构建 EditReward-Bench 基准,训练 EditScore 系列奖励模型(7B-72B,超过 GPT-5),并成功将其用于 Online RL 训练显著提升编辑模型性能。

EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing

EdiVal-Agent 把多轮图像编辑评测拆成对象分解、对象状态跟踪、指令生成和工具辅助打分,用 EdiVal-IF、EdiVal-CC、EdiVal-VQ 三类指标更细粒度地评估编辑模型是否改对目标、保住未编辑内容,并维持视觉质量。

Efficient Approximate Posterior Sampling with Annealed Langevin Monte Carlo

这篇工作提出了 Annealed Langevin Monte Carlo (ALMC) 的可证明版本:先在“只看测量一致性”的强凸目标上 warm start,再沿着“噪声先验的后验路径”逐步退火,在多项式时间内同时获得“对噪声后验的 KL 接近”与“对真实后验的 Fisher 接近”。

Efficient Sliced Wasserstein Distance Computation via Adaptive Bayesian Optimization

这篇论文把 Sliced Wasserstein 距离中的“投影方向选择”从固定的低差异采样改成可学习的贝叶斯优化过程,提出 BOSW/RBOSW/ABOSW/ARBOSW 四种可插拔策略,在不改下游损失和梯度公式的前提下,在多个 SW-in-the-loop 任务上达到或逼近 SOTA。

Efficient Zero-shot Inpainting with Decoupled Diffusion Guidance

这篇论文提出 DING(Decoupled INpainting Guidance),通过把似然引导中的去噪器输入与状态变量解耦,构造可精确采样的高斯后验转移,在不做任何任务微调的前提下实现了更快、更省显存且更高质量的零样本图像修复。

Eliminating VAE for Fast and High-Resolution Generative Detail Restoration

通过用 ×8 pixel-(un)shuffle 替代 VAE 的编码器和解码器,将潜空间扩散超分(GenDR)逆转为像素空间超分(GenDR-Pix),结合多阶段对抗蒸馏和 PadCFG 推理策略,实现 2.8× 加速和 60% 显存节省,同时保持可忽略的视觉退化,首次实现 1 秒内 4K 图像恢复仅需 6GB 显存。

Embracing Discrete Search: A Reasonable Approach to Causal Structure Learning

提出 FLOP(Fast Learning of Order and Parents),一个面向线性模型的基于得分的因果发现算法,通过快速父节点选择与迭代 Cholesky 得分更新大幅降低运行时间,使得迭代局部搜索(ILS)变得可行,在标准因果发现基准上实现近乎完美的图恢复,重新确立离散搜索在因果发现中的合理地位。

Enhanced Generative Model Evaluation with Clipped Density and Coverage

本文提出 Clipped Density 和 Clipped Coverage 两个生成模型评估指标,通过截断单样本贡献、限制异常近邻球半径并做线性校准,让 fidelity 与 coverage 分数既抗离群点干扰,又能解释为“等价好样本比例”。

Entering the Era of Discrete Diffusion Models: A Benchmark for Schrödinger Bridges and Entropic Optimal Transport

首个离散空间薛定谔桥(SB)/熵正则最优传输(EOT)评估基准:利用 CP 分解构造解析已知最优解的分布对,并同步提出 DLightSB、DLightSB-M 和 α-CSBM 三个新算法。

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

提出 ERK-Guid,利用嵌入式 Runge-Kutta 求解器的阶差误差作为 guidance 信号,在刚性区域自适应纠正局部截断误差(LTE),无需额外网络评估即可提升扩散模型采样质量。

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

提出 SpatialGenEval 基准,通过 1,230 条长且信息密集的提示覆盖 10 个空间子领域,系统评估 23 个 SOTA T2I 模型的空间智能,揭示空间推理是主要瓶颈;同时构建 SpatialT2I 数据集实现数据中心的空间智能提升。

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

提出 ECAD(Evolutionary Caching to Accelerate Diffusion models),利用遗传算法在速度-质量 Pareto 前沿上自动搜索最优缓存调度策略,无需修改模型参数,仅用 100 条校准提示即可实现扩散模型 2-3 倍推理加速并保持甚至提升生成质量。

Exploring the Design Space of Transition Matching

本文对 Transition Matching(TM)中长期被当作固定附件的"head"模块做了一次大规模系统性消融(56 个 1.7B 文生图模型、549 次评测),并提出一个零额外开销的随机采样器,最终给出最优配方 DTM++(MLP head + 对数正态时间加权 + 高频随机采样),在所有指标聚合排名上达到 SOTA。

FACM: Flow-Anchored Consistency Models

把 Flow Matching 当作"锚"和 Consistency Model 的"捷径"目标混在一个模型里联合训练,用一个"扩展时间区间"技巧把两个任务解耦到不同时间域,从根上治好了连续时间一致性模型的训练崩溃问题,在 ImageNet 256×256 上 NFE=1/2 分别刷到 FID 1.70/1.32,并能扩展到 14B 文生图模型。

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

首个系统性研究结构化图像(图表、数学公式、示意图等)生成与编辑的工作,构建了130万对代码对齐的训练数据集(含 CoT 推理标注)、统一的 VLM+扩散模型架构以及包含1700+样本的 StructBench 基准评测,揭示了推理能力是当前模型处理结构化视觉内容的关键瓶颈。

FALCON: Few-step Accurate Likelihoods for Continuous Flows

FALCON 给少步 flow map 加了一项"循环可逆性"正则,使其在 4–16 步内既能快速采样、又能廉价精确地算似然,从而把连续流玻尔兹曼生成器的推理成本压低两个数量级,并全面超过当前最强的离散归一化流。

FARI: Robust One-Step Inversion for Watermarking in Diffusion Models

FARI 发现「反演轨迹的曲率远低于生成轨迹」这一几何不对称性,据此把多步 DDIM 反演蒸馏成一步,再用轻量对抗 LoRA 微调专门强化水印提取的鲁棒性——单卡 A6000 微调 20 分钟,一步反演就在水印验证鲁棒性上超过 50 步 DDIM。

FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

FastFlow 是一个免训练、即插即用的流匹配(flow matching)推理加速框架:它用有限差分外推零成本地近似掉那些"几乎走直线"的冗余去噪步,并用一个多臂老虎机在线决定每次能安全跳几步,在图像/视频生成与编辑任务上拿到 2.6× 以上加速且基本不掉质量。

SSCP: Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning

提出 Single-Step Completion Policy (SSCP),通过在流匹配框架中预测"完成向量"(从任意中间状态到目标动作的归一化方向),将多步生成策略压缩为单步推理,在 D4RL 上与多步扩散/流策略持平但训练快 64×、推理快 4.7×,并扩展到 GCRL 中将层级策略扁平化。

Flow Along the \(K\)-Amplitude for Generative Modeling

本文提出 K-Flow,把流匹配的"时间"重新解释为组织频率/尺度的标度参数 \(k\),让生成沿着 K-amplitude(频带/系数)空间从低频到高频逐级展开,从而获得天然的尺度可控生成能力(类条件可省、频段可编辑、免训练复原),并在图像生成上取得有竞争力的 FID。

Flow Map Learning via Non-Gradient Vector Flow

SGFlow 利用一条只含 Jacobian-向量积、不含模型逆的偏微分方程恒等式,把流图(flow map)学习写成一个带 stopgrad 的非保守动力学目标,从零训练即可让真实流图成为唯一驻点,在 CIFAR-10 上以更省显存、更优 FID 实现少步采样。

Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

通过在流匹配训练中注入可控噪声扩大策略覆盖范围,并结合熵引导的采样机制在在线微调时动态平衡探索与利用,在有限交互预算下显著提升离线到在线RL的样本效率。

Flow Matching with Semidiscrete Couplings

把 OT 引导的流匹配从"每个 batch 现算 n×n 最优传输"换成"一次性拟合一个 N 维对偶势向量、训练时用一次最大内积搜索把噪声分配给数据点",在去掉 OT-FM 对 batch 大小 n 的二次依赖的同时,跨多个数据集、有条件/无条件、乃至 mean-flow 单步生成上全面超过 FM 和 OT-FM。

Flow Straight and Fast in Hilbert Space: Functional Rectified Flow

本文把 rectified flow 严格推广到无限维可分 Hilbert 空间,证明其"边际保持"性质在函数空间依然成立,并将函数式 flow matching、函数式概率流 ODE 统一为该框架下的非线性特例,同时去掉了已有理论中难以验证的测度论假设。

FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing

针对免反演流编辑(FlowEdit)轨迹不平滑、源一致性差的问题,FlowAlign 用最优控制框架在终端点加一个源相似性正则,把编辑速度场解耦成"语义引导 + 源一致性"两项,仅多 1 次 NFE 就显著提升源结构保持,并天然支持反向 ODE 重建。

FlowCast: Advancing Precipitation Nowcasting with Conditional Flow Matching

首次将条件流匹配(CFM)作为端到端概率生成模型应用于降水临近预报,在压缩潜空间中学习噪声到数据的直接映射,以更少的采样步数超越扩散模型的预测精度和概率性能。

FlowCast: Trajectory Forecasting for Scalable Zero-Cost Speculative Flow Matching

提出FlowCast框架,将投机解码思想引入Flow Matching模型,利用速度场的局部平滑性将当前速度预测作为零成本draft外推未来状态,通过MSE验证选择性跳过冗余步骤,实现>2.5×加速且无质量损失。

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

本文构建了 600 万张 FLUX 生成图 + 2000 万双语描述的推理导向文生图数据集 FLUX-Reason-6M(核心是"生成思维链 GCoT"标注),并配套提出七赛道、用先进 VLM 当裁判的细粒度评测基准 PRISM-Bench,揭示开源与闭源文生图模型在文字渲染、长文本指令跟随等维度上的真实差距。

Follow-Your-Preference: Towards Preference-Aligned Image Inpainting

本文不提新方法,而是回到基础系统性地回答「用 DPO + 公开奖励模型做图像修复偏好对齐」的几个根本问题——奖励模型是否可靠、偏好数据如何 scaling、reward hacking 从何而来——并发现简单地把 9 个奖励模型做集成排序就能消除各自偏差、显著超越 SOTA,给这个新方向立了一个简单而扎实的 baseline。

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

提出 Follow-Your-Shape,一个无需训练和掩码的形状感知编辑框架,通过计算反演与编辑轨迹间的 token 级速度差异构建 Trajectory Divergence Map (TDM) 来精确定位编辑区域,配合分阶段 KV 注入实现大幅形状变换且严格保持背景。

Foresight Diffusion: Improving Sampling Consistency in Predictive Diffusion Models

针对扩散模型用于预测学习时"样本之间方差太大、不够贴合真值轨迹"的问题,ForeDiff 把"理解条件"和"对目标去噪"两件事拆成两条独立的流,并用一个预训练好的确定性预测器提取表征来引导生成,从而在机器人视频预测和科学时空预报上同时提升了预测精度与采样一致性。

Forget Many, Forget Right: Scalable and Precise Concept Unlearning in Diffusion Models

ScaPre 用一个无需训练、无需额外数据的闭式解,同时解决大规模概念遗忘中的"更新冲突"和"误伤相似概念"两大顽疾,能在 120 秒内稳定遗忘 50 个概念,比最强基线多遗忘 5 倍概念而不崩坏生成质量。

Forward-Learned Discrete Diffusion: Learning how to noise to denoise faster

与其费劲让因式分解的反向过程去逼近复杂目标,FLDD 反过来让前向加噪过程变成可学习的,使它诱导出的反向目标恰好是因式分解的、容易被现有采样器匹配的形式,从而在不改采样器、不增推理开销的前提下把离散扩散的采样步数从上百步压到 10 步。

Free Lunch for Stabilizing Rectified Flow Inversion

提出PMI(Proximal-Mean Inversion)和mimic-CFG两个无训练方法,通过将速度场向其历史均值做近端梯度校正来稳定Rectified Flow反演,在PIE-Bench上以更少的NFE达到SOTA的重建和编辑质量。

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

本文先用「熵」这把尺子量化 CoT 与 RL 在自回归文生图里的分工——CoT 把生成探索空间撑大、RL 再把它收缩到高奖励区,并发现奖励与图像 token 熵的均值/方差都强负相关;据此提出 EG-GRPO:在 GRPO 基础上按 token 熵重新分配优化预算(低熵 token 只走 KL 保稳、高熵 token 加熵奖励促结构化探索),在 T2I-CompBench 和 WISE 上取得 SOTA。

From Parameters to Behaviors: Unsupervised Compression of the Policy Space

基于流形假设提出策略空间的无监督压缩——用行为重建损失(而非参数重建损失)训练自编码器将高维策略参数空间 \(\Theta \subseteq \mathbb{R}^P\) 压缩到低维潜在行为空间 \(\mathcal{Z} \subseteq \mathbb{R}^k\)(最高 121801:1 压缩比),在 Mountain Car、Reacher、Hopper、HalfCheetah 等环境上验证了行为流形的内在维度取决于环境复杂度而非网络大小,且在潜在空间中做 PGPE 优化可在 7/8 个任务上比 PPO、SAC 等 SOTA 收敛更快。

From Prediction to Perfection: Introducing Refinement to Autoregressive Image Generation

提出 TensorAR,将标准 AR 图像生成从 next-token prediction 升级为 next-tensor prediction:每步预测重叠 tensor(一组连续 token),后续 tensor 与前序重叠实现迭代精修;引入离散扩散噪声机制解决训练信息泄漏问题,作为即插即用模块兼容 LlamaGen / Open-MAGVIT2 / Janus-Pro 等 AR 模型,在 class-to-image 和 text-to-image 任务上持续提升生成质量。

GarmentGPT: Compositional Garment Pattern Generation via Discrete Latent Tokenization

GarmentGPT 把缝纫纸样(sewing pattern)的连续边界曲线用 RVQ-VAE 量化成离散 codebook token,再让微调后的 VLM 自回归地"选词"生成这些 token,从而把纸样生成从低层坐标回归变成高层符号化的组合推理任务,并配套造出百万级真实人像-纸样数据集。

GAS: Improving Discretization of Diffusion ODEs via Generalized Adversarial Solver

本文提出 Generalized Adversarial Solver (GAS):用一个无需训练技巧的"广义求解器"参数化(在理论求解器系数上学加性修正 + 把全部历史点也纳入线性多步签名),再叠加对抗损失,在 4~10 步少步采样下把扩散模型的 FID 系统性压到现有 solver 蒸馏方法之下。

Gauge Flow Matching: Efficient Constrained Generative Modeling over General Convex Set and Beyond

本文提出 Gauge Flow Matching(GFM),用一个显式双射的 gauge 映射把任意紧凸集上的约束生成问题等价转换到单位球上,使得在球内做低复杂度的反射/投影即可严格保证可行性,再映回原空间,从而以接近普通流匹配的开销实现「100% 约束满足 + 高质量 + 高速度」,并进一步推广到星凸、测地凸等非凸集合。

GenCompositor: Generative Video Compositing with Diffusion Transformer

GenCompositor 提出“生成式视频合成”任务,用一个专门设计的 DiT 管线把外部前景视频按用户指定轨迹和尺度注入背景视频,在保持背景一致性的同时继承前景的身份与动态,并在视频调和、轨迹控制和消融实验中都明显优于可替代方案。

GenCP: Towards Generative Modeling Paradigm of Coupled Physics

提出 GenCP,将耦合多物理场仿真建模为概率密度演化问题,利用 flow matching 从解耦数据学习条件速度场,推理时通过 Lie-Trotter 算子分裂合成耦合解,实现"解耦训练、耦合推理",并提供理论误差可控保证。

GenDR: Lighten Generative Detail Restoration

提出GenDR——面向生成式细节复原的轻量单步扩散超分模型:识别T2I和SR任务目标的根本分歧(T2I需多步+4通道 vs SR需少步+16通道)→构建定制SD2.1-VAE16基础模型(0.9B,通过REPA表示对齐扩展潜在空间而不增加模型规模)→提出CiD/CiDA一致性分数恒等蒸馏(将SR特定先验融入score distillation + 对抗学习 + 表示对齐)→极简pipeline仅含UNet+VAE→77ms推理在所有质量和效率指标上超越现有SOTA。

Generalised Flow Maps for Few-Step Generative Modelling on Riemannian Manifolds

把欧氏空间的「流映射」(Flow Map) 框架推广到任意黎曼流形,提出 Generalised Flow Maps (GFM),用三种自蒸馏损失从零训练出能在流形上「一步/少步」采样的几何生成模型,统一并提升了一致性模型、shortcut 模型、MeanFlow 到流形设定。

Generalization of Diffusion Models Arises with a Balanced Representation Space

本文是扩散模型泛化理论领域的重要突破。通过分析两层非线性 ReLU DAE 的最优解,统一刻画了记忆化和泛化两种行为模式,并创造性地从表征空间的角度提供了一个以表征为中心的泛化理解。理论结论在 EDM、DiT 和 Stable Diffusion v1.4 上获得了一致的实验验证,且催生了两个实用应用:记忆化检测和可控编辑。理论的深度与实用性兼备。

Generate Any Scene: Scene Graph Driven Data Synthesis for Visual Generation Training

提出 Generate Any Scene 数据引擎,基于 28K 物体×1.5K 属性×10K 关系的视觉元素分类法系统枚举场景图并转化为标题+VQA 对,支持四种应用:自我改进(SD1.5 +4%)、定向蒸馏(<800 条数据 TIFA +10%)、场景图奖励模型(DPG-Bench +5% vs CLIP)和内容审核增强。

Generating Directed Graphs with Dual Attention and Asymmetric Encoding

提出 Directo,首个基于离散流匹配(Discrete Flow Matching)的有向图生成模型,通过方向感知的双注意力机制和非对称位置编码捕获有向边的方向依赖,同时建立了有向图生成的标准化评测体系。

Generating Metamers of Human Scene Understanding

MetamerGen 用一个双流(中央凹+外周)条件化的潜在扩散模型,把人在自由观看场景时的少数注视点合成成「人脑理解中的场景」,并通过 same/different 行为实验筛出真正让人判为"相同"的场景元像,进而拆解出是哪些层级的视觉特征决定了人对场景的理解。

Generation then Reconstruction: Accelerating Masked Autoregressive Models via Two-Stage Sampling

把 Masked Autoregressive(MAR)图像生成拆成"先用棋盘格慢速搭骨架、再单步快速补细节"的两阶段采样,配合给高频细节 token 额外分配扩散步数,无需训练就让 MAR-H 提速 3.72×、FID/IS 几乎不掉。

Generative Blocks World: Moving Things Around in Pictures

把图像场景分解成一小堆可拖动的 3D 凸多面体(blocks world),用户直接在 3D 里挪动/缩放/旋转这些原语或移动相机,再由深度+纹理 hint 条件化的 FLUX 流模型重新渲染,实现几何一致、保身份的 3D 感知图像编辑。

Generative Modeling from Black-Box Corruptions via Self-Consistent Stochastic Interpolants

本文提出 Self-Consistent Stochastic Interpolant(SCSI),在只有退化观测样本和黑盒退化模拟器、没有干净样本和显式似然的情况下,反复学习“观测分布 → 潜在干净分布 → 再退化回观测分布”的自一致传输,从而恢复干净数据分布并可进一步训练生成模型。

GeoDiv: Framework for Measuring Geographical Diversity in Text-to-Image Models

提出 GeoDiv 框架,利用 LLM 和 VLM 的世界知识,从社会经济视觉指数(SEVI)和视觉多样性指数(VDI)两个维度系统评估 T2I 模型的地理多样性,揭示了模型对印度、尼日利亚等国家存在系统性贫困化偏见。

Geometric Image Editing via Effects-Sensitive In-Context Inpainting with Diffusion Transformers

GeoEdit 用 3D 重建驱动的几何变换 + 基于 DiT 的 in-context 重绘,再配一个软偏置的 Effects-Sensitive Attention 专门补光影阴影,让物体的平移/旋转/缩放编辑既几何精确又物理真实。

GGBall: Graph Generative Model on Poincaré Ball

提出 GGBall,首个完全基于 Poincaré 球模型的图生成框架,通过双曲向量量化自编码器(HVQVAE)和黎曼流匹配先验,在层次图和分子图生成上达到 SOTA,在层次图数据集上平均生成误差降低 18%。

GLASS Flows: Efficient Inference for Reward Alignment of Flow and Diffusion Models

提出 GLASS (Gaussian Latent Sufficient Statistic) Flows——一种"流模型中的流模型"新采样范式,通过高斯充分统计量重参数化将随机马尔可夫转移 \(p_{t'|t}(x_{t'} | x_t)\) 重铸为内部 ODE 求解问题(复用预训练去噪器,无需重训),在无需权衡 ODE 效率和 SDE 随机性的条件下实现 Feynman-Kac Steering,在 FLUX 文生图模型上一致超越 Best-of-N ODE 基线,刷新推理时奖励对齐 SOTA。

GoT-R1: Unleashing Reasoning Capability of Autoregressive Visual Generation with Reinforcement Learning

GoT-R1 把语言模型里 GRPO 那套"靠强化学习自己摸索推理策略"的成功经验搬到自回归图像生成上,用一个 MLLM 打分的双阶段多维奖励同时监督"推理链"和"最终图像",让模型在组合式 prompt(多物体 + 精确空间关系 + 属性绑定)上的生成保真度大幅提升。

Group Critical-token Policy Optimization for Autoregressive Image Generation

本文提出 GCPO,从因果依赖、熵梯度空间结构、组内 token 多样性三个角度筛出自回归图像生成中真正"关键"的 token,只对其中 30% 的 token 做 RLVR 优化并配以动态优势权重,就能超越对全部 token 做 GRPO 的效果。

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

本文揭露了一个被忽视的评估陷阱——HPSv2、ImageReward 等人类偏好指标对大引导尺度有强烈偏好,单纯调大 CFG 即可刷分;并提出"有效引导尺度校准"的 GA-Eval 框架做公平比较,结果发现近期八种扩散引导方法的"提升"大多只是在偷大引导尺度的红利。

Guidance Watermarking for Diffusion Models

本文提出一种"引导式水印"方法:用任意现成的后处理水印解码器(post-hoc decoder)反传梯度去引导扩散采样轨迹,从而把任何后处理水印方案零成本转化为生成内嵌(in-generation)水印,无需重训扩散模型或解码器,并能继承甚至增强解码器的鲁棒性。

Half-order Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer

本文提出 Recursive Likelihood Ratio (RLR) 优化器,把扩散链的每一步梯度估计统一进「一阶(FO)+ 半阶(HO)+ 零阶(ZO)」的设计空间,利用扩散模型自带的随机噪声做似然比估计,得到一个无偏、低方差、内存可控的扩散微调梯度估计器,同时解决了截断 BP 的结构性偏差与 RL 的高方差问题。

HiCache: A Plug-in Scaled-Hermite Upgrade for Taylor-Style Cache-then-Forecast Diffusion Acceleration

HiCache 发现 DiT 特征的有限差分近似服从多元高斯分布,据此用「缩放 Hermite 多项式」替换 TaylorSeer 中的单项式 Taylor 基,配合双重缩放保证数值稳定,在 FLUX.1-dev 上实现 5.55× 加速且画质反超原始模型,并能零额外 FLOPs 即插即用地升级现有缓存方法。

Hierarchical Entity-centric Reinforcement Learning with Factored Subgoal Diffusion

提出HECRL,一个层次化实体中心离线目标条件RL框架,结合基于价值的GCRL智能体和因子化子目标扩散模型,在多实体长时域任务中实现150%+的成功率提升。

HierLoc: Hyperbolic Entity Embeddings for Hierarchical Visual Geolocation

提出HierLoc,将地理定位重新建模为双曲空间中的图像-实体对齐问题,用24万个地理实体嵌入替代500万+图像嵌入,在OSV5M上降低19.5%平均测地误差并将子区域准确率提升43%。

HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

HiGS 是一个无需训练、无需额外网络前向的扩散采样插件,它用当前模型预测与历史预测 EMA 之间的差值来修正采样方向,在低 NFE 或低 CFG scale 下显著提升图像清晰度、结构和细节。

HOG-Diff: Higher-Order Guided Diffusion for Graph Generation

本文提出 HOG-Diff,一个利用高阶拓扑结构(如环、三角形、motif)作为生成引导的图扩散框架,通过胞复形过滤(CCF)提取高阶骨架并结合广义 OU 扩散桥实现"由粗到细"的渐进式图生成,在分子和通用图生成的 8 个基准上取得了 SOTA 性能。

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

把连续 token 自回归(AR)图像生成的所有输入输出(含 CFG 后的预测)都约束到固定半径的超球面上,用超球面 VAE 替换对角高斯 VAE,消除导致方差坍缩的尺度自由度,让纯 next-token 光栅序 AR 首次在同等参数规模上超过扩散与掩码生成模型(SphereAR-H 943M 在 ImageNet 256×256 上 FID 1.34)。

I-DRUID: Layout to Image Generation via Instance-Disentangled Representation and Unpaired Data

针对布局生成(L2I)的两大顽疾——注意力里实例特征纠缠导致的"属性泄漏"和成对数据不足导致的"跨场景泛化差"——I-DRUID 用一个实例解耦模块 + 解耦约束抽出干净的语义特征,再用一套只靠 prompt、不要配对图像的强化学习借 AI 反馈把模型适配到新场景,两者协同在 UNet 和 MM-DiT 架构上都拿到 SOTA。

Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

Recall 提出首个多模态引导的攻击框架,通过在隐空间中优化对抗图像 prompt(仅需一张参考图像),配合原始文本 prompt 利用扩散模型的 image-conditioning 通道,在 10 种 SOTA 遗忘方法上平均 ASR 达 65%~97%,显著超越纯文本攻击方法,揭示当前遗忘机制对图像模态攻击的脆弱性。

ImageDoctor: Diagnosing Text-to-Image Generation via Grounded Image Reasoning

ImageDoctor 把文生图质量评估从"打一个分"升级为"像医生看病"——以多模态大模型为底座,按"看-想-判(look-think-predict)"流程先定位缺陷区域、再推理、最后给出语义对齐/美学/合理性/总体四维分数与像素级缺陷热力图,并把这份密集反馈接入 DenseFlow-GRPO 作为奖励,让 T2I 模型的偏好对齐比标量奖励高约 10%。

ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

ImagenWorld 用 3.6K 条件集 × 6 任务 × 6 领域 + 2 万条细粒度人工标注,构建了一个能"指出模型错在哪个物体/哪个区域"的可解释图像生成评测基准,系统揭示了当前 14 个生成/编辑模型在局部编辑和文字密集内容上的共性失败模式。

ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

ImageRAG 把 LLM 里的 RAG 思路搬到图像生成:先让 T2I 模型生成初稿,再用 VLM 的引导式思维链找出"画错/画不出"的概念,按需检索参考图喂回模型,全程无需任何额外训练就能显著提升稀有、细粒度概念的生成能力。

Implicit Inversion turns CLIP into a Decoder

不训练任何生成解码器、也不微调 CLIP,仅靠"反演"一个冻结的 CLIP 图像编码器——用频率感知的隐式神经表示(INR)从一个文本嵌入反推出图像,就能实现文生图、风格迁移和图像重建,揭示判别模型里藏着尚未被利用的生成能力。

Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment (CODA)

提出 CODA 框架,通过引入 register slots 吸收残余注意力、微调交叉注意力投影以及对比对齐损失,解决基于扩散模型的物体中心学习中的 slot 纠缠和弱对齐问题,在合成和真实数据集上显著提升物体发现和组合式生成质量。

Improving Classifier-Free Guidance in Masked Diffusion: Low-Dim Theoretical Insights with High-Dim Impact

本文在 1D/2D 掩码扩散这个能解析求解的低维玩具模型上推导出 CFG 的精确效果,发现现有离散 CFG 的配分函数 \(Z_w\) 被错误地耦合进了跳转速率、导致早期解掩码过快而损害质量,进而提出一个"列归一化"修正(一行代码),并从理论上论证"前期弱、中后期强"的递增 guidance schedule 才是离散扩散的正解。

Improving Diffusion Models for Class-imbalanced Training Data via Capacity Manipulation

本文指出扩散模型在长尾数据上少数类崩坏的根因是「模型容量被多数类垄断」,提出 Capacity Manipulation (CM):用类 LoRA 的低秩分解把参数显式拆成"通用/多数"和"少数专家"两块,再用一致性+多样性损失把少数类知识强行塞进预留容量,无额外推理开销且与现有方法正交可叠加。

Improving Discrete Diffusion Unmasking Policies Beyond Explicit Reference Policies (UPO)

提出 Unmasking Policy Optimization(UPO),将 Masked Diffusion Model 的去噪过程建模为 KL 正则化 MDP,通过强化学习训练轻量级的 unmasking 策略模型来替代 max-confidence 等启发式调度器,在理论和实验上均证明学习到的策略能生成更接近真实数据分布的样本。

Inference-Time Scaling of Diffusion Models Through Classical Search

把经典 AI 搜索(BFS/DFS 全局树搜索 + 退火 Langevin MCMC 局部搜索)系统性地搬到扩散模型推理阶段,首次将"局部搜索"与"全局搜索"两个维度联合缩放,在图像生成、长程规划、离线 RL 上同时刷新效率—性能的 Pareto 前沿。

Inference-Time Scaling of Discrete Diffusion Models via Importance Weighting and Optimal Proposal Design

这篇论文把 Sequential Monte Carlo 引入离散扩散模型的推理阶段,通过可计算的重要性权重和接近最优的 proposal 设计,在不重新训练基模型的前提下提升 reward 对齐、CFG 采样和跨语言/生物/图像任务的可控生成效果。

Intention-Conditioned Flow Occupancy Models

提出 InFOM,利用流匹配(flow matching)构建意图条件化的占据模型(occupancy model),通过变分推断推理数据中的潜在意图,实现无标注数据上的 RL 预训练,在 36 个状态任务和 4 个视觉任务上取得 1.8× 中位回报提升和 36% 成功率提升。

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

把静电场匹配(EFM)推广成"任意成对相互作用场"框架(IFM),再借鉴夸克间强相互作用设计一个具体的场,让场线变直、不外溢、不反向,从根上治好 EFM 的反向场线、场线越界和训练体积不可控三大顽疾。

Interleaving Reasoning for Better Text-to-Image Generation

本文提出 Interleaving Reasoning Generation,让统一多模态生成模型按“文本思考 \(\rightarrow\) 初始图像 \(\rightarrow\) 文本反思 \(\rightarrow\) 改进图像”的轨迹生成图片,并用 IRGL-300K 的六类分解学习任务训练这一流程,在多项 T2I benchmark 上比 BAGEL self-CoT 和其他统一模型更强,尤其改善指令遵循、世界知识和细节质量。

Joint Distillation for Fast Likelihood Evaluation and Sampling in Flow-based Models

通过把"采样轨迹"和"对数似然(累积散度)"耦合进同一个流图(flow map)联合蒸馏,F2D2 让流匹配模型同时把采样和似然评估的 NFE 从上千步压到几步,首次实现了 CNF/扩散类模型的少步精确似然评估

JointDiff: Bridging Continuous and Discrete in Multi-Agent Trajectory Generation

提出 JointDiff,一个联合连续-离散扩散框架,首次将高斯扩散(用于轨迹)和多项式扩散(用于控球事件)统一建模,同时引入 CrossGuid 模块支持弱控球引导和文本引导的语义可控生成,在体育多智能体轨迹生成上达到 SOTA。

LapFlow: Laplacian Multi-scale Flow Matching for Generative Modeling

LapFlow 把图像拆成拉普拉斯金字塔残差,用一个带因果注意力的混合 Transformer(MoT)并行生成所有尺度,免去了级联方法尺度间的重加噪桥接,在 CelebA-HQ / ImageNet 上以更少的 GFLOPs 和更快的推理拿到更优的 FID。

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

提出 rCM(score-regularized continuous-time consistency model),首次将连续时间一致性蒸馏扩展到 14B 参数的文生图/视频模型,通过结合前向散度(一致性)和反向散度(score蒸馏),在保持多样性的同时匹配 DMD2 的质量,实现 15-50× 加速。

Latent Denoising Makes Good Tokenizers

本文指出现代生成模型本质上都在做"从破坏中重建"(denoising),据此提出 l-DeTok:在 tokenizer 训练时给 latent 注入插值噪声和随机掩码、再让 decoder 从重度破坏的 latent 重建原图,使 tokenizer 产出的 latent 天然对齐下游去噪目标,在六种生成模型上一致提升生成质量且无需任何语义蒸馏。

Latent Diffusion Model without Variational Autoencoder

提出 SVG,用冻结的 DINOv3 自监督特征替代 VAE 潜在空间构建扩散模型,通过轻量残差编码器补充细粒度细节,实现更快训练、更高效推理和跨任务通用的视觉表征。

Latent Stochastic Interpolants

本文提出 Latent Stochastic Interpolants (LSI),用连续时间推导的单一 ELBO 目标,把 Stochastic Interpolants 框架第一次搬进端到端联合训练的潜空间,让编码器、解码器和潜空间 SI 生成模型一起优化,在 ImageNet 上以更省 FLOPs 的采样达到与像素空间 SI 相当的 FID。

Latent Wavelet Diffusion for Ultra-High-Resolution Image Synthesis

LWD 用小波能量图从潜空间信号中提取"细节富集区"的空间显著性,再用时间相关的二值 mask 把训练损失集中到高频区域,配合一个尺度一致的 VAE 微调,实现了 2K–4K 超高清生成质量提升——不改架构、推理零额外开销。

LaTo: Landmark-tokenized Diffusion Transformer for Fine-grained Human Face Editing

LaTo 把人脸关键点坐标直接 VQ-VAE 量化成离散 token 喂进 DiT(而非渲染成图再过 VAE),配合位置映射的位置编码和关键点感知 CFG,实现指令驱动、细粒度可控且强身份保持的人脸编辑。

LayerSync: Self-aligning Intermediate Layers

LayerSync 发现扩散 Transformer 的深层中间表征本身就能当作语义教师,通过无参数的层间余弦对齐让浅层向强表征层靠拢,从而在不依赖外部模型和额外数据的情况下提升生成质量、加速训练,并可迁移到图像、音频、视频和人体动作生成。

LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

LazyDrag 用从拖拽指令直接构造的「显式对应图」替换掉以往拖拽编辑里靠注意力隐式匹配点的脆弱机制,让 MM-DiT 第一次能在全强度反演下稳定编辑、彻底摆脱逐图微调(TTO),同时解锁了高保真补全和文本引导生成。

Learn to Guide Your Diffusion Model

本文把 Classifier-Free Guidance 中手工设定的固定 guidance scale 学成一个依赖条件和去噪时间区间的函数,用自一致性分布匹配训练该函数,在 ImageNet、CelebA 和文本到图像生成中比固定 CFG 或有限区间 guidance 更好地权衡样本质量、分布匹配和提示词对齐。

Learning a Distance Measure from the Information-Estimation Geometry of Data

提出 Information-Estimation Metric (IEM),一种由数据概率密度几何诱导的新型距离函数,通过比较不同噪声水平下的 score 向量场来度量信号间距离,无监督训练的 IEM 在预测人类感知判断上可媲美有监督方法。

Learning an Image Editing Model without Image Editing Pairs

本文提出 NP-Edit(No-Pair Edit),一种完全不需要"编辑前-编辑后"配对数据的图像编辑训练范式:在训练中展开少步扩散生成器、用视觉语言模型(VLM)的可微梯度反馈判断"是否执行了指令、是否保住了无关内容",再叠加分布匹配损失(DMD)把输出拉回真实图像流形;在 4 步采样设定下与一众用大规模配对数据监督训练的编辑模型打平,并超过同样用 VLM 当奖励的 RL 方法 Flow-GRPO。

Learning AND-OR Templates for Compositional Representation in Art and Design

本文把 AND-OR Template 从物体识别扩展到艺术与设计中的场景构图,用最大熵 log-linear 模型给出可分解的一致性分数,并通过 EM 式 block-pursuit 与半监督结构扩展学习可解释模板,在审美分类、人类偏好对齐、摄影指导和 AIGC 构图约束上展示了轻量、可解释且数据高效的结构先验。

Learning to Generate Stylized Handwritten Text via a Unified Representation of Style, Content, and Noise

InkSpire 把风格、内容、噪声塞进同一个潜空间,用 FLUX 扩散 Transformer 的上下文补全能力直接在原始多行手写页面上做掩码 inpainting,从而扔掉了过往方法里那些独立的风格/内容编码器和手工损失,单模型就能高保真生成任意长度的中英双语手写并支持字符级编辑。

Let Features Decide Their Own Solvers: Hybrid Feature Caching for Diffusion Transformers

HyCa 把扩散 Transformer 的隐特征演化看成「不同维度服从不同 ODE」的混合系统,对每一簇维度离线挑一个最合适的数值求解器来预测/复用特征,从而在 FLUX、HunyuanVideo、Qwen-Image 上实现 5.5×~6.2× 的近无损训练无关加速。

LLM2Fx-Tools: Tool Calling for Music Post-Production

提出 LLM2Fx-Tools,首个将 LLM 工具调用应用于音效模块的框架,通过多模态 LLM 理解音频输入,利用 CoT 推理选择音效类型、确定顺序并估计参数,实现可解释和可控的音乐后期制作。

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

提出 Locality-aware Parallel Decoding (LPD),通过灵活并行化自回归建模架构和局部性感知的生成顺序调度,将 256×256 图像的生成步数从 256 降至 20,实现至少 3.4× 的延迟降低。

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

HiRM 提出"更新位置与擦除目标解耦"的概念擦除策略——仅更新 CLIP 文本编码器第一层的权重,但将擦除监督施加在最后一层的高层语义表征上,通过引导目标概念表征偏向随机方向(HiRM-R)或语义方向(HiRM-S),在 UnlearnCanvas 和 NSFW 基准上实现风格/物体/裸体的高效擦除,且可零样本迁移到 Flux 架构。

LogiStory: A Logic-Aware Framework for Multi-Image Story Visualization

提出"视觉逻辑"(visual logic)这一概念,用一个多智能体规划 + 因果验证的框架 LogiStory,把多图故事可视化从"画好看的孤立图片"变成"显式建模角色-动作-场景之间因果连贯性"的推理问题,并配套构建带因果标注的 LogicTale 基准。

Long-Text-to-Image Generation via Compositional Prompt Decomposition

PRISM 把一段冗长的描述性提示在文本表示空间里"折射"成若干语义组件,让冻结的预训练 T2I 模型对每个组件独立去噪、再用能量模型的概念合取(concept conjunction)把噪声预测加和成一步组合去噪,从而在不微调主干、不损失细节的前提下,让 T2I 模型能渲染 500+ token 的长段落。

Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall

识别离散扩散模型中的"采样壁"问题(分类分布信息在采样后坍塌为 one-hot 向量),提出 Loopholing 机制引入确定性潜在路径传播丰富的分布信息,将生成困惑度降低最多 61%,大幅缩小与自回归模型的差距。

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

提出 LVTINO,首个基于视频一致性模型(VCM)先验的零样本视频逆问题求解器,通过在 VCM 采样过程中注入无需自动微分的测量一致性约束,在超分辨率、去模糊、修复等多种视频逆问题上以极少的神经网络函数评估(NFE)实现了超越逐帧图像方法的感知质量和时间一致性。

Market Games for Generative Models: Equilibria, Welfare, and Strategic Entry

形式化三层模型-平台-用户市场博弈,分析生成模型竞争下纯策略 Nash 均衡的存在条件、市场结构、社会福利影响,并设计模型提供者的最优进入策略。

Massive Activations are the Key to Local Detail Synthesis in Diffusion Transformers

本文系统揭示 Diffusion Transformer(DiT)中"巨大激活值(Massive Activations, MA)"专门负责局部细节合成、几乎不影响整体语义,并据此提出训练无关的自引导策略 Detail Guidance(DG)——用"破坏 MA 后的退化模型"反向引导原模型生成更精细的细节。

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

MeanCache 把扩散/Flow Matching 的特征缓存从"瞬时速度"视角搬到"区间平均速度"视角,用缓存的雅可比-向量积(JVP)从瞬时速度重建更平滑的平均速度,并用一个预算约束下的"峰值抑制最短路"调度决定何时缓存、复用多长,从而在 FLUX.1、Qwen-Image、HunyuanVideo 上分别达到 4.12×、4.56×、3.59× 加速且画质优于现有缓存方法。

Measurement Score-based Diffusion Model (MSM)

不去硬学"干净图像的 score",而是直接在测量域里学被子采样、带噪声的"局部测量 score",再通过随机掩码聚合还原出完整测量——让扩散模型完全用退化观测就能训练,既能无条件生成又能解线性逆问题。

MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning

MILR 把"推理增强图像生成"搬进文本与图像共享的统一潜在向量空间,在测试时用策略梯度(REINFORCE)+ 图像质量 critic 联合优化文/图 token 的中间表征,不动任何模型参数就在 GenEval/T2I-CompBench/WISE 上全部刷到 SOTA,尤其在知识密集的 WISE 上把基座提升 80%。

Mirror Flow Matching with Heavy-Tailed Priors for Generative Modeling on Convex Domains

针对凸域上的受约束生成建模,本文指出"对数障碍镜像映射会诱导重尾对偶分布 + 高斯先验匹配重尾目标失效"两大病灶,提出正则化镜像映射 + Student-t 先验的 Mirror Flow Matching,既保证对偶分布有限矩、又给出速度场时空 Lipschitz 性与 Wasserstein 收敛率的首个多项式尾界理论保证。

Mitigating Noise Shift in Denoising Generative Models with Noise Awareness Guidance

作者发现扩散/流模型在采样时中间状态实际编码的噪声水平会系统性地偏向"更大"(称为 noise shift),并提出 Noise Awareness Guidance (NAG)——一种类似 CFG、但沿"噪声条件"轴而非"类别条件"轴施加的免分类器引导,把跑偏的轨迹拉回预定噪声调度,从而显著提升生成质量。

Mitigating Semantic Collapse in Generative Personalization with Test-Time Embedding Adjustment

本文提出并刻画了生成式个性化中的"语义崩塌问题"(SCP)——学到的个性化 token V 会在嵌入空间里既膨胀模长又偏转方向,最终在复杂提示词中压倒所有上下文;作者用一个免训练的测试时嵌入调整 (TEA) 把 V 的模长和方向往原始语义概念 c 拉回,显著改善文图对齐。

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

针对"先推理后画图"的串行 thinking-aware 范式会因推理错误传播反而拉低图像质量的问题,本文提出纯离散扩散的并行多模态框架 MMaDA-Parallel——让文本与图像在整条去噪轨迹上双向交互、同步生成,再用沿轨迹打语义奖励的 Parallel RL(ParaRL)强化跨模态一致性,在自建 ParaBench 上把 Output Alignment 比 SOTA 开源模型 Bagel 提升 6.9%。

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

提出 Mod-Adapter,一种无需测试时微调的多概念个性化方法,通过在 DiT 的调制(modulation)空间中预测概念特定的调制方向,实现对物体和抽象概念(姿态、光照、材质等)的解耦化定制生成,在多概念个性化上大幅超越现有方法。

MOLM: Mixture of LoRA Markers

提出 MOLM 水印框架,将 LoRA 适配器重新解释为水印载体,通过二进制密钥驱动的路由机制在冻结生成模型中嵌入可验证、鲁棒的水印,无需逐密钥重训练。

Monocular Normal Estimation via Shading Sequence Estimation

本文提出了RoSE方法,将单目法线估计问题重新定义为着色序列(Shading Sequence)估计问题,利用图像到视频(Image-to-Video)生成模型预测多光照下的着色序列,再通过简单的最小二乘法将着色序列转换为法线图,在真实世界基准数据集上达到SOTA性能。

MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement

MOSAIC 把多主体个性化生成重新表述为「表征优化」问题:用一套带稠密语义点对应标注的数据集 SemAlign-MS,配合「对齐损失」逼参考→目标的注意力点对点对准、「解耦损失」把不同主体推进正交的注意力子空间,从而在 4 个以上参考主体时仍保持高保真,避开了既有方法 3 主体后就身份混淆、属性泄漏的崩溃。

Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening

提出 Motion Prior Distillation (MPD),一种推理时蒸馏方法,将前向路径的运动残差蒸馏到后向路径中,从根本上解决了时间反转采样中双向运动先验冲突的问题,无需额外训练即可实现更连贯的生成式帧插值。

Multi-Subspace Multi-Modal Modeling for Diffusion Models: Estimation, Convergence and Mixture of Experts

本文提出"低秩高斯混合的子空间混合"(MoLR-MoG)建模,把真实图像数据刻画为多个低维线性子空间、每个子空间内再放一个高斯混合,由此诱导出天然带 MoE 结构的非线性 score 函数,既在理论上把估计误差降到 \(\sqrt{\sum_k n_k}\sqrt{\sum_k n_k d_k}/\sqrt{n}\)(摆脱维度灾难)并证明局部强凸的收敛保证,又在实验上用比 U-Net 少 10× 参数的网络生成清晰图像。

Multiplicative Diffusion Models: Beyond Gaussian Latents

本文提出乘性得分扩散模型(MSGM),用斜对称乘性噪声取代经典扩散的加性高斯噪声,让前向过程在保持数据范数分布不变的前提下收敛到一个非高斯、且天然贴近数据的隐分布,从而在重尾、各向异性数据上更准确地生成罕见极端事件。

MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning

提出 MVAR(Markovian Visual AutoRegressive),通过引入尺度 Markov 假设(仅依赖相邻尺度而非所有前序尺度)和空间 Markov 注意力(限制邻域大小 k),将 VAR 模型的注意力计算复杂度从 \(\mathcal{O}(N^2)\) 降至 \(\mathcal{O}(Nk)\),在 ImageNet 256×256 上实现同等或更优性能的同时,推理显存降低 3.0-4.2×,且仅需 8 张 RTX 4090 即可训练。

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

提出多视角定制(multi-view customization)新任务并设计 MVCustom 框架,通过视频扩散骨干网络结合密集时空注意力实现整体帧一致性,在推理阶段引入深度感知特征渲染和一致性感知潜码补全两项技术,首次同时实现相机位姿控制、主体身份保持和跨视角几何一致性。

Neon: Negative Extrapolation From Self-Training Improves Image Generation

提出 Neon,一种仅需 <1% 额外训练计算的后处理方法:先用模型自身生成的合成数据微调导致退化,再反向外推远离退化权重,证明 mode-seeking 采样器导致合成/真实数据梯度反对齐,因此负外推等价于向真实数据分布优化,在 ImageNet 256×256 上将 xAR-L 提升至 SOTA FID 1.02。

NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

提出 NeuralOS,使用 RNN 状态追踪 + 扩散渲染器的双组件架构,直接从用户输入事件(鼠标移动/点击/键盘)预测操作系统图形界面帧序列,首次实现用神经生成模型模拟操作系统。

Next Visual Granularity Generation

提出 Next Visual Granularity (NVG) 生成框架,将图像分解为不同粒度级别的结构化序列,从全局布局到精细细节逐级生成,相比 VAR 系列在 FID 上一致提升。

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

用一个 14B 因果 Transformer 直接对连续图像 token做 next-token prediction,配一个仅 157M 的轻量 flow matching 头当采样器,在不依赖重型扩散主干、也不做向量量化的前提下,把纯自回归文生图的质量做到了与顶级扩散模型同档。

OmniPortrait: Fine-Grained Personalized Portrait Synthesis via Pivotal Optimization

OmniPortrait 把"身份定制"拆成粗到细两步:先用一个冻结去噪器、只训编码器的 Pivot ID Encoder 给出粗粒度身份"枢轴",再在推理时用无需训练的 RB-Guidance 对扩散中间特征做参考图匹配并梯度优化,从而在不损害文本可编辑性的前提下精细还原参考人脸的细节,身份相似度 SIM 与文本对齐 CLIP-T 同时刷到新 SOTA。

OmniText: A Training-Free Generalist for Controllable Text-Image Manipulation

OmniText 不训练任何参数,仅通过操控现成文本扩散模型 TextDiff-2 的自注意力与跨注意力,就把"文本擦除 + 内容可控 + 风格可控"统一进一个通才框架,覆盖擦除/编辑/插入/重缩放/重定位/风格迁移六类文本图像操作(TIM),在多项指标上超过同类文本合成方法、逼近各任务的专用模型。

On the Design of One-Step Diffusion via Shortcutting Flow Paths

本文把各种"从零训练的一步扩散(shortcut model)"统一进一个"用一步预测逼近两步 flow map 目标"的设计框架,借此把纠缠在一起的组件(流路径、时间采样器、网络参数化、损失度量)解耦做对照实验,并据此提出 plug-in 速度、渐进时间采样器等改进,在 ImageNet-256×256 上以单步生成(1-NFE)取得 FID50k 2.85(2× 训练步达 2.53)的新 SOTA,且不需要预训练、蒸馏或课程学习。

One Step Further with Monte-Carlo Sampler to Guide Diffusion Better

针对训练无关引导(DPS 系)中"用单点 \(\hat{x}_0(x_t)\) 近似条件期望 \(\mathbb{E}_{x_0|x_t}[f(x_0)]\)"导致的系统性梯度偏差,本文提出 ABMS:多走一步反向去噪、在中间态上做蒙特卡洛采样再平均,得到更准的引导梯度;它是即插即用的,配合超球面约束的步长控制与"双焦点"评测,在手写轨迹、图像逆问题、分子逆设计、文本风格等任务上一致提升生成质量。

Overshoot and Shrinkage in Classifier-Free Guidance: From Theory to Practice

本文用统计物理的"动力学相变"框架重新分析 Classifier-Free Guidance(CFG),证明在足够高的维度下 CFG 其实能精确还原目标分布("维度的祝福"),并精确刻画了低维下出现的均值过冲与方差收缩,进而提出把分数差做非线性幂律放大的 Power-Law CFG,在理论上同时缓解这两种伪影、在 DiT/EDM2/文生图等 SOTA 模型上一致提升画质与多样性。

PairFlow: Closed-Form Source-Target Coupling for Few-Step Generation in Discrete Flow Models

PairFlow 用闭式的离散流速度场(由 Hamming 距离决定),从数据出发反向反演出与之配对的源样本,仅花不到训练成本 1.7% 的预处理就能让离散流模型实现少步生成,效果追平甚至超过需要预训练教师 + 微调的蒸馏方法。

Pareto-Conditioned Diffusion Models for Offline Multi-Objective Optimization

提出 Pareto-Conditioned Diffusion (PCD),将离线多目标优化重构为条件采样问题,直接以目标权衡为条件生成高质量解,无需显式代理模型,在多种基准上实现最佳一致性。

Pareto Variational Autoencoder

针对高斯 VAE 低估尾部概率、过度正则化潜空间的问题,本文提出一种基于 \(\ell_1\) 范数的多元重尾分布——对称 Pareto(symPareto),并用信息几何里的 γ-power 散度替换 KL 散度,构造出有闭式损失的 ParetoVAE,在图度数重建、词频分析、图像去噪等重尾任务上显著优于高斯/Laplace/t 分布的 VAE。

Partition Generative Modeling: Masked Modeling Without Masks

本文提出"划分生成模型"(PGM),用"把序列切成两个互不可见的组、互相预测"取代掩码生成模型(MGM)的 [MASK] 机制,从而在采样时只处理"干净 token"(像自回归模型一样省算力),同时保留并行、任意序生成(像 MGM 一样灵活);在 OpenWebText 上比 MDLM 快 5–5.5×、生成困惑度更低,在 ImageNet 上以 7.5× 吞吐量逼近 MaskGIT 的 FID。

PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models

提出 PCPO,通过稳定目标重构和原则性时间步重加权,修正扩散/流模型策略梯度中固有的不成比例信用分配问题,显著加速收敛并缓解模型崩溃。

PCPO: Proportionate Credit Policy Optimization for Preference Alignment of Image Generation Models

本文发现把策略梯度(PPO/GRPO)用到扩散/流模型对齐时,采样器的数学结构会给不同去噪时间步分配严重不成比例的信用权重 \(w(t)\),是训练不稳定与模型坍塌的根因;PCPO 通过「数值更稳的 log-hinge 目标重构 + 让各时间步权重趋于均匀的有原则重加权」来修正这一点,从而显著加速收敛、缓解坍塌、在 DanceGRPO 等 SOTA 基线上全面胜出。

PI-Light: Physics-Inspired Diffusion for Full-Image Relighting

提出 π-Light(PI-Light),一个两阶段的全图像重光照框架:第一阶段通过物理引导的扩散模型进行内蕴属性(albedo、法线、roughness 等)分解,第二阶段通过物理引导的神经渲染模块实现光照条件下的重新渲染,引入批量感知注意力机制和物理启发损失以实现对真实场景的优秀泛化能力。

PICABench: How Far are We from Physically Realistic Image Editing?

本文指出当前指令式图像编辑模型只追"语义对不对"而忽视"物理像不像"(删了物体却没删影子和倒影),于是构建了覆盖光学/力学/状态转换三大维度共八个子维度的 PICABench 基准、配套区域级问答评测协议 PICAEval,并用"文生图渲染场景 + 图生视频模拟物理变化"自动造出 PICA-100K 训练集,把现有编辑模型微调到物理一致性显著提升。

PixNerd: Pixel Neural Field Diffusion

PixNerd 把扩散 Transformer 最后那层线性投影换成一个由 Transformer 特征动态生成权重的"逐 patch 隐式神经场头",用它去解码大 patch 内部的精细像素,从而在不依赖 VAE、不搞级联多尺度的前提下,单阶段端到端地在原始像素空间做扩散,在 ImageNet 256×256 上拿到 1.93 FID,延迟比此前像素扩散模型低近 8 倍。

PolyGraph Discrepancy: a classifier-based metric for graph generation

提出 PolyGraph Discrepancy (PGD),通过训练分类器区分真实图和生成图来逼近 Jensen-Shannon 距离的变分下界,解决了 MMD 指标缺乏绝对尺度、不同描述符间不可比、小样本高偏差高方差的三大核心问题。

PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

PosterCraft 抛弃"VLM 规划布局 + 单独生成背景再叠加"的模块化老路,用一个标准扩散骨干(Flux-dev)跑一条四阶段级联训练流水线(文本渲染优化 → 高质量海报微调 → 美学-文本强化学习 → 视觉-语言反馈精修),并为每个阶段配套自动构建的专用数据集,最终端到端直出文字准确、布局协调、整体美观的海报,在文本指标上逼近闭源商业系统。

PQGAN: Product-Quantised Image Representation for High-Quality Image Synthesis

PQGAN 把经典的乘积量化(Product Quantisation, PQ)塞进 VQGAN 的量化模块,把每个潜向量切成 \(S\) 个子空间各自量化,从而用很小的子码本组合出指数级大的"虚拟码本",在 ImageNet 重建上把 PSNR 从 27 dB 拉到 37.4 dB、FID 低至 0.036,甚至超过连续 VAE,并且能直接塞进预训练扩散模型实现翻倍分辨率或数倍提速。

Preserve and Personalize: Personalized Text-to-Image Diffusion Models without Distributional Drift

针对个性化文生图微调时"模型只会复刻参考图、忽略 prompt"的过拟合问题,本文证明现有目标函数在原理上无法保住预训练分布,转而提出一个基于 Lipschitz 连续性的正则项——本质上是对参数偏移量做 L2 约束——既保住了原模型的生成能力,又把训练时间砍掉一半以上。

Product of Experts for Visual Generation

本文把可控图像/视频生成统一成「多个异构专家模型的乘积分布采样」问题——生成模型当先验、判别模型(VLM)当软约束、物理仿真器当硬约束,再用「退火 MCMC + SMC 重采样」在推理时无需重训地从这个乘积分布里采样,从而比单一大模型获得更强的可控性与保真度。

Projected Coupled Diffusion for Test-Time Constrained Joint Generation

领域现状:扩散模型已经成为图像、视频、语言、图、机器人轨迹等生成任务里的通用建模工具。很多实用系统并不只需要“无条件生成一个样本”,而是在推理阶段加入额外目标,例如 classifier guidance、inpainting、reward guidance 或 projected diffusion,让已有模型在不重训的情况下朝某个条件或约束采样。

ProReGen: Progressive Residual Generation under Attribute Correlations

ProReGen 把相关属性条件 \(x_1,x_2\) 改写为正交的 \(x_1,\gamma\),先用大量多数样本学习主干生成器,再用少量少数样本学习残差生成层,从而提升条件 VAE、GAN 和扩散模型在少数属性组合上的生成正确性。

Purrception: Variational Flow Matching for Vector-Quantized Image Generation

提出 Purrception,一种将变分流匹配(Variational Flow Matching)适配到向量量化(VQ)隐空间的图像生成方法,通过在连续嵌入空间中计算速度场的同时学习编码本索引上的分类后验分布,桥接了连续传输动力学和离散监督,在 ImageNet-1k 256×256 上实现了更快的训练收敛和与 SOTA 可比的 FID 分数。

Pyramidal Patchification Flow for Visual Generation

让 Diffusion Transformer 在高噪声时间步用更大的分块(更少 token)、低噪声时间步用更小的分块(更多 token),共享同一套 DiT 主干、只为不同分块尺寸学各自的线性投影,从而在画质几乎不掉的前提下把去噪推理加速约 1.6×~2.0×。

Quantization-Aware Diffusion Models for Maximum Likelihood Training

针对"真实数字图像其实是离散量化值、而扩散模型却把它当连续信号"这一根本矛盾,本文给信号预测器设计了一种"软取整 + 超指数衰减残差"的参数化,使反向 SDE 在 \(t\to0\) 时必然收敛到量化点,从而把扩散模型的密度估计推到极致——CIFAR-10 的 NLL 从此前 SOTA 的 2.42 bpd 暴降到 0.27 bpd。

Quasi-Monte Carlo Methods Enable Extremely Low-Dimensional Deep Generative Models

本文提出 QLVM(quasi-Monte Carlo latent variable model):扔掉 VAE 的 encoder 和变分下界,直接用随机化准蒙特卡洛(QMC)格点积分逼近边际似然来训练 decoder,从而在 1/2/3 维这种极低维隐空间里训出比同维度 VAE/IWAE 更好、且天然可直接可视化的深度生成模型。

QVGen: Pushing the Limit of Quantized Video Generative Models

提出 QVGen,一种面向视频扩散模型的量化感知训练(QAT)框架,通过引入辅助模块降低梯度范数以改善收敛性,并设计秩衰减策略在训练中逐步消除辅助模块的推理开销,首次在 4-bit 量化下实现接近全精度的视频生成质量。

reAR: Rethinking Visual Autoregressive Models via Token-wise Consistency Regularization

reAR 指出视觉自回归生成的核心瓶颈不是单个 token 预测精度本身,而是生成器产出的离散 token 序列与 tokenizer 解码器不一致,并用噪声上下文正则和码本嵌入正则在训练期约束每个 token 的隐藏表示,在不改 tokenizer、生成顺序和推理流程的情况下显著提升 ImageNet 图像生成质量。

Reconciling Visual Perception and Generation in Diffusion Models

GenRep 在同一个扩散模型里同时做判别式感知和生成式建模:用蒙特卡洛把扩散模型的分布知识蒸馏给感知任务,再把感知学到的高层语义反过来引导生成的去噪过程,并用梯度对齐协调两个目标,最终在感知和生成两类基准上都达到领先。

ReDDiT: Rehashing Noise for Discrete Visual Generation

ReDDiT 把离散扩散里单一的 [mask] 吸收态扩展成一组随机的多索引吸收态(rehashing noise),并配套一个用 torch.multinomial 做低差异采样的 rehash 采样器,取代 MVTM 那套靠 Gumbel-max 调出来的 remask 启发式,把 ImageNet-256 上的 gFID 从基线 6.18 压到 1.61,第一次让离散扩散在生成质量上追平连续扩散。

RefAny3D: 3D Asset-Referenced Diffusion Models for Image Generation

提出 RefAny3D,一个 3D 资产参考的图像生成框架,通过联合建模 RGB 图像和点图(point map)的双分支生成策略,实现生成图像与 3D 参考资产在几何和纹理上的精确一致性。

Referring Layer Decomposition

提出 Referring Layer Decomposition (RLD) 任务,根据用户提供的灵活提示(空间/文本/混合)从单张 RGB 图像中预测完整的 RGBA 图层,并构建了包含 111 万样本的 RefLade 数据集和自动评估协议。

ReFocusEraser: Refocusing for Small Object Removal with Robust Context-Shadow Repair

针对扩散模型移除小物体时细节丢失的问题,ReFocusEraser 用「相机自适应放大 + LoRA 微调修补」先把小目标放大后修好,再用「掩码贴回 + 接缝-阴影感知解码器」无痕贴回原图并自动去掉残留阴影,在 RORD 上把 PSNR 从 25.0 提到 31.3。

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

RegionE 观察到指令图像编辑中未编辑区域的生成轨迹近似直线、编辑区域轨迹更弯但相邻步速度相似,于是用自适应区域划分、区域级 KV 注入和速度衰减缓存,在不训练新模型的情况下把 Step1X-Edit、FLUX.1 Kontext、Qwen-Image-Edit 加速约 2.06-2.57 倍,并基本保持原模型输出质量。

Reinforcing Diffusion Models by Direct Group Preference Optimization

本文提出 DGPO(Direct Group Preference Optimization),把 GRPO 的"群内相对偏好"思想从 policy-gradient 框架里解耦出来,让扩散模型可以直接用高效的确定性 ODE 采样器做在线 RL 后训练,在 GenEval 上把 SD3.5-M 从 0.63 提到 0.97,且训练比 Flow-GRPO 快约 20×(GenEval 上近 30×)。

RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning

RePrompt 用强化学习训练一个小语言模型(Qwen2.5-3B),让它在改写用户提示词时先做显式链式推理、再产出结构化的增强提示词,并用一套"图像级"集成奖励直接优化下游生成结果,在 GenEval 和 T2I-Compbench 上把空间位置、计数等组合能力刷到新 SOTA,同时推理延迟远低于迭代式优化方法。

Rethinking Global Text Conditioning in Diffusion Transformers

本文系统分析了扩散 Transformer 里「pooled 文本嵌入经调制层注入」这条全局条件通路,发现它在常规用法下几乎不起作用,但把它从「条件」改用作「引导方向」后,能以训练无关、几乎零开销的方式显著提升文生图/视频和图像编辑的画质与可控性。

RIDER: 3D RNA Inverse Design with Reinforcement Learning-Guided Diffusion

提出 RIDER 框架,首次将强化学习引入 RNA 3D 逆向设计,先预训练条件扩散模型 RIDE 学习序列-结构关系,再用 RL 微调以直接优化 3D 结构相似性而非序列恢复率,在所有 3D 自一致性指标上实现超过 100% 的提升。

RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation

提出 RMFlow,在 1-NFE MeanFlow 传输后加入一步噪声注入精炼来弥补单步传输的误差,同时在训练中加入最大似然目标来最小化学习分布与目标分布间的 KL 散度,在 T2I、分子生成、时间序列生成上实现接近 SOTA 的 1-NFE 结果。

RNE: plug-and-play diffusion inference-time control and energy-based training

提出 Radon-Nikodym 估计器 (RNE),基于路径分布间的密度比揭示边际密度与转移核的基本联系,提供统一的即插即用框架,同时实现扩散密度估计、推理时控制和能量扩散训练。

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

提出 ProMoE,一种针对扩散 Transformer 的 MoE 框架,通过两步路由器(条件路由 + 原型路由)和路由对比损失提供显式语义引导,促进专家特化,在 ImageNet 上显著超越现有 MoE 和稠密模型。

SafeFlowMatcher: Safe and Fast Planning using Flow Matching with Control Barrier Functions

提出 SafeFlowMatcher,一种将流匹配与控制障碍函数 (CBF) 结合的安全规划框架,通过预测-修正 (PC) 积分器将路径生成与安全认证解耦,在保持流匹配高效性的同时提供形式化安全保证。

Safety-Guided Flow (SGF): A Unified Framework for Negative Guidance in Safe Generation

本文用一个基于最大均值差异(MMD)势函数的能量框架统一了两种"负向引导"安全生成方法(Shielded Diffusion 与 Safe Denoiser),并借助控制屏障函数(CBF)理论从数学上证明了:负向引导只需在去噪早期的"临界时间窗口"内施加、之后衰减到零,就能在保证安全的同时维持图像质量。

SAIL: Self-Amplified Iterative Learning for Diffusion Model Alignment with Minimal Human Feedback

SAIL 让扩散模型充当自己的"老师":从极少量人工标注的偏好种子出发,模型自己生成样本、用从扩散损失推导出的隐式奖励给样本排序、再用这些自标注数据闭环微调自己,仅用约 6% 的偏好数据就在 HPSv2、Pick-a-Pic、PartiPrompts 上超过 DiffusionDPO。

Sample-Efficient Evidence Estimation of Score-Based Priors for Model Selection

提出 DiME,一种沿扩散后验时间边缘积分的模型证据估计器,无需先验评分或密度评估,仅用少量后验样本(如 20 个)即可准确估计扩散模型先验下的模型证据,用于先验选择和模型验证。

Sample Reward Soups: Query-efficient Multi-Reward Guidance for Text-to-Image Diffusion Models

在不训练扩散模型的前提下,本文用"插值搜索梯度"代替"逐权重组合逐个查询黑盒奖励",让文生图模型在推理时同时对齐多个黑盒奖励,且在去噪早期大幅减少奖励查询次数(最高省 2.7×),同时避免微调方法常见的奖励过优化。

Scalable Energy-Based Models via Adversarial Training: Unifying Discrimination and Generation

本文提出 Dual Adversarial Training (DAT),用对抗训练(PGD 造对比样本 + BCE 损失)替换 JEM 中不稳定的 SGLD 采样来学习能量函数,再对判别分支也做对抗训练,配合两阶段训练策略,首次让"能量模型式判别-生成混合模型"稳定扩展到 ImageNet 256×256,同时拿到 SOTA 级鲁棒分类与生成质量(FID 3.29,比肩自回归 VAR-d16、超过 ADM-G/LDM-4-G)。

Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization

这篇论文针对向量量化(VQ)分词器训练不稳定、大码本几乎用不满的老毛病,提出一个只在训练期挂载、推理时直接丢弃的投影器 VQBridge(compress–process–recover),配合学习率退火,让码本在 16k 到 262k 的各种配置下都能达到 100% 利用率,重建 rFID 刷到 0.88,接到 LlamaGen 上做图像生成后 FID 反超 VAR 和 DiT。

Scale-wise Distillation of Diffusion Models

SwD 提出"按尺度蒸馏"框架,把任意预训练扩散模型蒸成一个 few-step 生成器,并让它在每个采样步上逐级提高分辨率——前几步在低分辨率上跑、最后才到全分辨率,从而在不增加步数的前提下又把单步算量砍掉一半;同时配套提出一个基于 MMD 的 patch 级蒸馏损失,单独用就能逼近 SOTA,让文生图提速约 2×、文生视频提速约 3× 且画质不降。

Scaling Group Inference for Diverse and High-Quality Generation

针对"用户一次看到一组图(4-8 张)但 i.i.d. 采样出来的图高度雷同"这个痛点,本文把"为一个 prompt 生成一组图"重新表述成一个二次整数规划(QIP)选择问题——从大候选池里挑一个子集,同时最大化单图质量(一元项)和组内多样性(二元项);再用"中间预测可作为最终图的可靠预览"这一观察做渐进式剪枝,把复杂度从 \(O(MT)\) 降到 \(O(M+KT)\),在质量-多样性 Pareto 前沿上全面压过 CFG、Interval Guidance、Particle Guidance 等基线。

Scaling Laws for Diffusion Transformers

本文在 1e17 到 6e18 FLOPs 的计算预算范围内系统训练扩散 Transformer(DiT),首次拟合出 DiT 的显式缩放定律——预训练 loss 与计算量呈幂律关系,从而能在给定算力下精确预测最优模型规模、数据量乃至最终生成质量(FID),并验证这套幂律可外推到 1.5e21 FLOPs、可跨数据集迁移。

Score Distillation Beyond Acceleration: Generative Modeling from Corrupted Data

这篇论文提出 Restoration Score Distillation,把只在腐化观测上训练的扩散 teacher 蒸馏成一步生成器,并发现蒸馏在腐化数据场景下不只是加速采样,还能显著把生成分布拉近干净图像分布。

SDErasure: Concept-Specific Trajectory Shifting for Concept Erasure via Adaptive Diffusion Classifier

SDErasure 发现「每个概念的生成只依赖一小段关键去噪时间步」,于是用扩散分类器自适应地为每个待擦除概念挑出这些关键步,只在这些步上做轨迹偏移微调,再配上两路质量保护损失,在彻底擦除目标概念的同时把 MSCOCO FID 从 9.51 压到 6.74。

Secure Inference for Diffusion Models via Unconditional Scores

针对扩散模型在安全多方计算(MPC)下推理太慢的问题,本文用更激进的低次多项式逼近来加速非线性算子,再用「在明文里无误差跑出的无条件分数」去纠正被逼近误差污染的条件分数,从而在几乎不增加开销的前提下把激进逼近导致的画质损失大幅找回。

Seek-CAD: A Self-Refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

提出 Seek-CAD,首个基于本地部署的推理 LLM(DeepSeek-R1)的无训练 CAD 参数化模型生成框架,通过分步视觉反馈与思维链 (CoT) 协同实现自我精炼,并设计新的 SSR 三元组设计范式支持复杂 CAD 模型生成。

Self-Improving Loops for Visual Robotic Planning

提出 SILVR 框架,通过迭代更新域内视频生成模型在自收集的在线轨迹上进行微调,实现视觉机器人规划器在未见任务上的持续自我改进,在 MetaWorld 和真实机器人上实现高达 285% 的性能提升。

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

提出 SenseFlow,通过隐式分布对齐(IDA)和段内引导(ISG)将分布匹配蒸馏(DMD)扩展到大规模 flow-based 文生图模型(SD 3.5 Large 8B / FLUX.1 dev 12B),实现 4 步高质量图像生成。

SERUM: Simple, Efficient, Robust, and Unifying Marking for Diffusion-based Image Generation

提出SERUM水印方法,将唯一水印噪声添加到扩散模型初始噪声中,训练轻量检测器直接从生成图像识别水印(无需昂贵的DDIM反演),在多种攻击下达到最高检测率,且注入/检测极快,支持多用户场景。

SESaMo: Symmetry-Enforcing Stochastic Modulation for Normalizing Flows

SESaMo 提出"随机调制"机制,让归一化流先把先验分布搬进目标分布的某一个模式,再用一个由随机变量控制的对称变换把概率质量按学习到的权重铺到所有等价模式上,从而在无数据的变分推断里精确施加对称性、还能首次学到"破缺对称性",在 8-高斯混合、复 \(\phi^4\) 场论和 Hubbard 模型上把有效样本量做到接近 1。

Shortcut Diffusion Training with Cumulative Consistency Loss: An Optimal Control View

这篇论文把 shortcut diffusion 的少步生成训练解释为一个受控 flow-matching 过程,指出原始 self-consistency loss 只惩罚当前一步误差,进而提出沿轨迹累计未来错位的 Cumulative Self-Consistency Loss,在几乎相同训练预算下显著提升一到四步图像生成质量。

SIGMA-GEN: Structure and Identity Guided Multi-Subject Assembly for Image Generation

SIGMA-GEN 把"每个主体长什么样(身份)"和"每个主体放在哪、什么朝向、谁挡谁(结构)"统一编码进两张控制图,让一个扩散 Transformer 在单次前向里就同时塞进多达 10 个保持身份的主体,配套自造了带身份/掩码/深度/2D/3D 框标注的合成数据集 SIGMA-SET27K,在多主体场景下身份保真、画质和速度全面超过需要逐个插入的迭代式 baseline。

SketchEvo:用绘画动态过程提升草图引导图像生成

SketchEvo 把"草图从第一笔到完成"的绘画动态序列当成偏好优化的多样性来源——训练时用不同完成度的草图作条件构造差异显著的正负样本对来对齐人类审美,推理时用初始草图笔画引导回滚机制强化语义增益,从而在保持草图保真度的同时显著提升生成图像的美学质量。

SketchingReality: 从手绘场景草图到照片级真实图像

这篇论文提出 SketchingReality,用一个"语义调制 + 注意力监督"的方案,把抽象、变形的手绘场景草图(而非整齐的边缘图)转成既忠于草图语义、又照片级真实的图像,并设计了一种无需像素对齐真值图的训练损失。

SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling

首次系统研究 SMOTE 的隐私泄露问题,提出 DistinSMOTE 和 ReconSMOTE 两种攻击,证明 SMOTE 本质上是非隐私保护的,且过度暴露少数类记录。

Soft-Di[M]O: Improving One-Step Discrete Image Generation with Soft Embeddings

Soft-Di[M]O 把一步离散图像生成器输出的 token 分布松弛成可微的期望 embedding,让 Di[M]O 蒸馏后的 Masked Diffusion Model 可以继续接入 GAN、可微软奖励微调和测试时 embedding 优化,在 ImageNet-256 上把一步 FID 推到 1.56,并在文本到图像任务上超过对应教师模型的 GenEval 与 HPS 指标。

SoftCFG: Uncertainty-guided Stable Guidance for Visual Autoregressive Model

针对视觉自回归(AR)模型用 CFG 时的「引导衰减」与「过度引导」两大顽疾,SoftCFG 让每个已生成 token 按自身置信度对无条件分支的 value cache 施加加权扰动、并用「步归一化」约束累积扰动,免训练、免改结构地把 ImageNet 256×256 上 AR 模型的 FID 从 1.37 推到 1.27,刷新 AR 模型 SOTA。

SONA: Learning Conditional, Unconditional, and Matching-Aware Discriminator

SONA 把条件 GAN 判别器拆成"自然度"和"对齐度"两个相互正交的投影项,分别用 SAN 损失和两类 Bradley–Terry 损失训练,再用一个带约束的自适应加权机制平衡三类目标,在类别条件与文生图任务上同时拿到更高的样本质量和更好的条件对齐。

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

提出 SongEcho 框架,通过实例自适应元素级线性调制(IA-EiLM)实现翻唱歌曲生成,在保持原始歌曲旋律轮廓的同时生成新的歌声和伴奏。

Source-Guided Flow Matching

本文提出 SGFM 框架,把流匹配的「引导生成」问题等价转化为「从一个修改过的源分布采样」——只改源分布、完全不动预训练向量场,从而精确恢复目标分布,并保留最优传输向量场的直线轨迹(快推理),还能让用户按需挑选采样器(重要性采样 / HMC / 优化)。

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

SPEED 提出基于零空间(null space)约束的闭式模型编辑方法,通过影响力先验过滤(IPF)、定向先验增强(DPA)和不变等式约束(IEC)三种互补技术精化保留集,实现可扩展(5 秒内擦除 100 个概念)、精确(非目标概念语义零损失)且高效的概念擦除。

SpikeGen:用隐空间生成框架解耦「视杆-视锥」视觉表征

SpikeGen 把脉冲相机(视杆,高时间分辨率)和 RGB 相机(视锥,高色彩/空间分辨率)的视觉信息分别编码进同一个 VAE 隐空间,再用一个改造过的 MAR + 逐 token 扩散框架在隐空间里做生成式融合,从而用一套预训练模型同时打通条件去模糊、脉冲流稠密帧重建、高速场景新视角合成三类任务,并在三者上都达到或超过 SOTA。

SPRINT: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

SPRINT 把扩散 Transformer 的浅层密集局部特征和深层稀疏全局特征用残差方式融合起来,使 DiT 能在 75% token dropping 下高效预训练,并进一步用 Path-Drop Guidance 降低采样成本。

SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation

提出 Scaled Spatial Guidance (SSG),一种无需训练的推理时引导方法,通过频域先验构建和语义残差放大,增强视觉自回归模型的粗到细层级生成质量。

Stage-wise Dynamics of Classifier-Free Guidance in Diffusion Models

本文在多模态(高斯混合)条件分布假设下,第一次把 Classifier-Free Guidance(CFG)的采样过程拆成"方向偏移 → 模态分离 → 模内收缩"三个阶段,用三条定理分别刻画 CFG 在每个阶段对轨迹的作用,统一解释了"引导越强、对齐越好但多样性越差"这一长期经验现象,并顺手给出一个低-高-低的时变引导日程同时提升质量与多样性。

Steer Away From Mode Collisions: Improving Composition In Diffusion Models

针对扩散模型多概念 prompt 中的概念缺失/碰撞问题,提出"模式碰撞"假说(联合分布与单概念分布的模式重叠),设计 CO3(Concept Contrasting Corrector)通过在 Tweedie 均值空间中组合校正分布 \(\tilde{p}(x|C) \propto p(x|C) / \prod_i p(x|c_i)\) 来远离退化模式,实现即插即用、无梯度、模型无关的组合生成改进。

Step-Aware Residual-Guided Diffusion for EEG Spatial Super-Resolution

提出 SRGDiff,一种步感知残差引导的扩散模型,将 EEG 空间超分辨率重新定义为动态条件生成任务,通过每步残差方向校正和步依赖仿射调制实现高保真重建。

Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

本文提出S²-Guidance,通过在去噪过程中随机丢弃transformer block激活子网络作为弱模型进行自引导,无需额外训练即可修正CFG的次优预测,在文生图和文生视频任务上一致超越CFG及其他高级引导策略。

STORK: 通过同时解决刚性与结构依赖来加速扩散与流匹配采样

STORK 把数值分析里专治"刚性 ODE"的稳定龙格-库塔(SRK)方法搬进扩散与流匹配采样,再用泰勒展开把 SRK 高昂的函数评估次数(NFE)压成"虚拟 NFE",得到一个既能扛刚性、又不依赖半线性结构的训练无关求解器,在 7–20 NFE 的极低预算下 FID 全面优于 DPM-Solver++ 与 UniPC。

Story-Iter: A Training-free Iterative Paradigm for Long Story Visualization

Story-Iter 把长故事可视化从“一次性依赖固定参考图”改成训练免的外部迭代过程:先用文本生成整条故事,再反复把上一轮的全长帧作为全局参考,通过 GRCA 注意力模块同时保持角色一致性和细粒度文本交互,在 100 帧长故事上显著优于已有故事生成范式。

Strictly Constrained Generative Modeling via Split Augmented Langevin Sampling

针对"生成模型给科学问题采样时无法严格满足物理约束"的痛点,本文借鉴 Langevin 动力学的变分视角与拉格朗日对偶,提出 CASAL(Constrained Alternated Split Augmented Langevin)——用变量分裂把"探索"和"满足约束"拆给两个变量、再用对偶变量纠偏,从而在严格满足非凸约束的同时保留 Langevin 的探索能力,可零样本套到预训练扩散模型上,在受约束的场生成、数据同化、最优控制可行性问题上都显著优于投影法和惩罚法。

Structured Flow Autoencoders: Learning Structured Probabilistic Representations with Flow Matching

这篇论文提出 Structured Flow Autoencoders,把概率图模型中的结构化潜变量接入条件连续归一化流,并用 Structured Conditional Flow Matching 同时学习高保真生成分布和可解释的后验表示,在图像、RNA-seq 和序列视频数据上比 VAE / SVAE 更好地兼顾生成质量、样本多样性与潜空间结构。

Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models

这篇论文提出 HistVis 历史视觉基准,用 3 个开源文生图扩散模型生成 3 万张跨时代活动图像,并从隐式风格联想、历史一致性和人口统计表示三个维度系统揭示模型如何把“过去”画成刻板、错位且人口分布失真的合成历史。

TAVAE: A VAE with Adaptable Priors Explains Contextual Modulation in the Visual Cortex

扩展 VAE 形式主义提出 Task-Amortized VAE (TAVAE),通过在已学表示上灵活学习任务特异性先验来解释视觉皮层 V1 中的上下文调制现象,包括方向辨别任务中训练刺激与测试刺激不匹配时出现的双模态群体响应。

TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

TempFlow-GRPO 指出现有 flow 模型的 GRPO 训练把所有去噪步「一视同仁」是核心瓶颈,通过「轨迹分叉做过程奖励 + 按噪声水平重加权 + 种子分组」三件套,让优化强度匹配每一步真实的探索潜力,在 GenEval 和 PickScore 上以更少步数取得 SOTA(GenEval 0.63→0.97,约 10× 训练效率)。

Temporal Concept Dynamics in Diffusion Models via Prompt-Conditioned Interventions

提出 PCI(Prompt-Conditioned Intervention)框架,通过在去噪轨迹不同时间步切换文本提示,量化概念何时在扩散模型中锁定,并将此发现应用于时间感知的图像编辑。

Terminal Velocity Matching

本文提出 Terminal Velocity Matching(TVM),把流匹配从「在轨迹起点匹配速度」改成「在轨迹终点匹配速度」,从而用单阶段训练直接学到任意两时刻之间的位移映射,可证明地上界 2-Wasserstein 距离;配合半-Lipschitz 架构修正和支持反传的 Flash Attention JVP 核,在 ImageNet-256 上做到 1 步 3.29 FID、4 步 1.99 FID,刷新 from-scratch 少步生成的 SOTA。

Test-Time Iterative Error Correction for Efficient Diffusion Models

提出 IEC(Iterative Error Correction),一种测试时的即插即用方法,通过迭代修正高效扩散模型的推理误差,将误差累积从指数增长降低为线性增长。

MADFormer: Mixed Autoregressive and Diffusion Transformers for Continuous Image Generation

MADFormer 把图像生成同时在「token 轴」和「层轴」上混合自回归与扩散——块间用 AR 做一次性全局条件、块内用扩散做迭代细化,并把 Transformer 前几层当 AR 条件器、后几层当扩散去噪器,作为一个统一可控的测试台系统性回答「AR 和扩散该怎么分配算力」,在受限推理算力下把 FID 最多改善 60–75%。

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

本文系统研究了文本提示(prompt)复杂度对T2I模型合成数据的质量、多样性和一致性三个关键维度的影响,提出了新的评估框架,并发现提示扩展(prompt expansion)作为一种推理时干预手段能最优地平衡多样性与美学质量。

The Spacetime of Diffusion Models: An Information Geometry Perspective

从信息几何视角提出扩散模型的"时空"概念,证明标准拉回几何在扩散模型中退化为直线,转而引入 Fisher-Rao 度量的时空几何,并导出可实际计算的散度编辑距离(DiffED)和转移路径采样方法。

There and Back Again: On the Relation between Noise and Image Inversions in Diffusion Models

深入分析 DDIM 反转的误差机制,发现潜在编码在平滑图像区域(如天空)呈现低多样性和高相关性,并追溯到反转初始步骤的噪声预测不准确,提出用正向扩散替代前几步反转的简单修复方案。

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-Training

本文提出 EPG(End-to-end Pixel-space Generative model),用「自监督预训练编码器 + 端到端微调解码器」的两阶段框架,彻底丢掉 VAE、直接在像素空间训练扩散和一致性模型,在 ImageNet-256 上做到 1.58 FID(75 NFE),用约 30% 的 DiT 训练算力反超 DiT/SiT,并首次在不依赖 VAE/预训练扩散模型的前提下把一致性模型直接训到 8.82 FID(单步)。

TIPO: Text to Image with Text Pre-sampling for Prompt Optimization

TIPO 用一个 200M 的轻量自回归语言模型,把用户随手写的简单 prompt 扩写(而非重写)成与 T2I 模型训练文本分布对齐的详细 prompt,靠 30M 图文对语料和多任务"文本预采样"实现,在保住原意的前提下显著提升出图质量、文本对齐与人类偏好,且比 RL/大模型方案更快更省。

ToProVAR: Efficient Visual Autoregressive Modeling via Tri-Dimensional Entropy-Aware Semantic Analysis and Sparsity Optimization

提出 ToProVAR 框架,利用注意力熵统一分析 VAR 模型的 token/层/尺度三个维度的稀疏性,实现最高 3.4× 加速且图像质量几乎无损,显著优于 FastVAR 和 SkipVAR。

Towards Better Optimization for Listwise Preference in Diffusion Models

本文提出 Diffusion-LPO,把扩散模型的 DPO 偏好对齐从"成对比较"推广到"整条排序列表"——用 Plackett-Luce 模型导出一个让每张图都优于所有比它低排名图的列表式目标,在文生图、图像编辑、个性化对齐三类任务上一致超过成对 Diffusion-DPO(SD1.5 上 PickScore 胜率提升超 12%)。

Towards Sequence Modeling Alignment Between Tokenizer and Autoregressive Model

本文指出常规图像 tokenizer 编码出的 token 之间存在双向依赖,与自回归(AR)模型严格单向的预测范式根本冲突;提出 AliTok,用一个因果解码器去约束双向编码器,逼出既语义丰富又高度可预测的 token 序列,让一个仅 662M 参数的标准 decoder-only AR 模型在 ImageNet-256 上达到 gFID 1.28,首次超过 SOTA 扩散模型且采样快 10×。

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

将 reward-guided 图像编辑重新建模为轨迹最优控制问题,将扩散/Flow模型的反向过程视为可控轨迹,通过基于 Pontryagin 最大值原理(PMP)的伴随状态迭代优化整条轨迹,在无需训练的情况下实现有效的奖励引导编辑且不发生 reward hacking。

ColorCtrl: 基于多模态扩散 Transformer 的免训练文本引导颜色编辑

ColorCtrl 是一种免训练(training-free)的文本引导颜色编辑方法,通过直接操纵 MM-DiT 注意力图与 value token,把"结构"和"颜色"解耦开,在 SD3、FLUX.1-dev、CogVideoX 等多种模型上实现精确、且对几何/材质/光照一致性几乎零破坏的颜色编辑,并支持词级别的颜色强度调节。

Translate Policy to Language: Flow Matching Generated Rewards for LLM Explanations

提出一个通用框架,利用Rectified Flow生成分布式奖励来训练解释生成LLM,通过连续归一化流(CNF)捕捉人类对解释评判的多元概率特性,并在理论上证明CNF能有效恢复真实人类奖励分布,在SMAC、MMLU、MathQA等任务上显著超越RLHF/RLAIF基线。

TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

把扩散/流模型的去噪过程重新看作一棵搜索树——从共享噪声出发、只在调度好的 SDE 窗口里分叉、ODE 步骤复用公共前缀,再把叶子奖励沿树回传得到逐步(per-edge)优势来做 GRPO 更新,从而在同样采样预算下训练快 2.4×、并在效率-奖励的 Pareto 前沿上全面超过 DanceGRPO / MixGRPO。

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

提出 TwinFlow:通过将 flow matching 时间区间从 \([0,1]\) 扩展到 \([-1,1]\),构造"孪生轨迹"形成自对抗信号,使模型无需判别器或冻结教师即可实现单步生成。首次将 1-NFE 生成能力扩展到 20B 参数的 Qwen-Image 模型,1-NFE GenEval 0.86 逼近原始 100-NFE 的 0.87,推理成本降低 100×。

Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models

Uni-X提出一种两端分离、中间共享的X型架构来缓解统一多模态模型(UMM)中视觉与文本模态的梯度冲突,通过将浅层和深层设为模态专属、中间层共享参数,3B参数即可匹配或超越7B AR-UMM在图像生成和多模态理解上的性能。

UniCalli: A Unified Diffusion Framework for Column-Level Generation and Recognition of Chinese Calligraphy

UniCalli 把中文书法的列级生成与识别统一到一个多模态扩散 Transformer 中,通过非对称加噪、盒图空间先验和联合训练,让模型既能生成具有连笔与章法的整列书法,也能在长尾书家和字体上保持较好的识别能力。

UniEdit-Flow: Unleashing Inversion and Editing in the Era of Flow Models

针对流匹配模型(SD3、FLUX)"直线、不相交轨迹"带来的反演崩塌与延迟注入失效问题,本文提出一套无需训练、模型无关的预测-校正框架:用 Uni-Inv 通过复用上一步速度构造隐式欧拉闭式解实现高保真反演,再用 Uni-Edit 在编辑阶段加入校正步 + 区域自适应引导 + 速度融合,从而在 15 步以内同时做到强编辑和强背景保持,在重建和 PIE-Bench 编辑两项任务上全面 SOTA。

RealUID:用真实数据监督蒸馏所有 Matching 模型(无需 GAN)

RealUID 用一个"线性化 + 逆向优化"的统一视角把 SiD / FGM / IBMD 这些只针对单一框架的一步蒸馏方法收编成同一个 min-max 损失,并由此设计出一种不依赖 GAN、不加判别器就能把真实数据直接注入蒸馏目标的损失,在 CIFAR-10 上把 flow 蒸馏的 FID 从 2.58 压到 1.98(无条件)、2.21 压到 1.87(有条件),收敛速度也快约 3 倍。

Value Matching: Scalable and Gradient-Free Reward-Guided Flow Adaptation

把"用奖励适配大规模流/扩散模型"重新表述成随机最优控制问题,只在线学习一个小的值网络而冻结基模型,从而支持不可微(黑盒)奖励、按需调节显存,在图像与分子生成上用不到微调方法 5% 的显存达到可比性能。

Variational Autoencoding Discrete Diffusion with Enhanced Dimensional Correlations Modeling

针对掩码扩散模型(MDM)在少步采样时"各维度独立预测"导致样本崩坏的问题,本文提出 VADD:给去噪分布加一个高斯隐变量 \(z\),用变分自编码(VAE)的方式联合训练去噪模型与识别模型,从而隐式建模维度间相关性——在保持 MDM 采样开销不变的前提下,把"几步出图/出文"的样本质量大幅拉高。

Verification of the Implicit World Model in a Generative Model via Adversarial Sequences

提出对抗序列生成方法验证生成式序列模型的隐式世界模型健全性,在国际象棋领域通过多种对抗策略(IMO/BSO/AD)系统评估,发现所有模型均不健全,但训练方法和数据集选择对健全性有显著影响,且线性棋盘状态探针在大多数模型中无因果作用。

VFScale: Intrinsic Reasoning through Verifier-Free Test-time Scalable Diffusion Model

VFScale提出无需外部验证器的测试时可缩放扩散模型,通过MRNCL损失和KL正则化改善能量景观使其内在能量函数可作为验证器,结合混合MCTS去噪实现高效搜索,在6×6训练的迷宫模型能解决88%的15×15迷宫,而标准扩散模型完全失败。

ViPO: Visual Preference Optimization at Scale

针对视觉生成的偏好优化"放大不动"的问题,本文一手做算法、一手做数据:提出只加两行代码、调一个超参 \(\alpha\) 的 Poly-DPO 让训练变成"置信度感知"以扛住噪声偏好,并构建百万级、类目均衡、1024px 的 ViPO 偏好数据集;二者互相印证——数据质量足够高时 Poly-DPO 自动退化为标准 DPO(\(\alpha\to0\)),而数据有噪声时 Poly-DPO 在 GenEval 上比 Diffusion-DPO 最高提升 6.87 分。

Visual Autoregressive Modeling for Instruction-Guided Image Editing

提出VAREdit,将指令引导的图像编辑重新定义为多尺度预测问题,通过Scale-Aligned Reference模块解决最细尺度条件化的尺度失配问题,在编辑遵循度和效率上大幅超越扩散模型方法。

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

VisualPrompter 是一个免训练的文生图提示工程框架,它先用 LLM 把用户提示拆成原子概念、再让 VLM 对照生成图逐一核验找出"漏画"的概念,然后只针对这些缺失概念做原子级扩展与重组,在不破坏用户原意的前提下把提示改写成模型偏好的句子,在 DSG / TIFA 两个文图对齐基准上取得新 SOTA。

VLM-Guided Adaptive Negative Prompting for Creative Generation

这篇论文提出一种无需训练的 VLM 引导自适应负提示方法,在扩散模型去噪过程中不断识别当前图像里显露出的常规概念,并把它们累积成负提示来推开生成轨迹,从而生成更有新意但仍属于目标类别的图像。

VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis

针对"把两张物体图融成一个全新混合物体"这件事,本文提出 VMDiff:在噪声层用引导去噪+反演构造携带双物体信息的语义噪声(拼接而非插值),在隐空间层用球面插值把两个嵌入融成单一连贯表示,并用一个相似度分数驱动的零阶搜索自动调参,从而同时解决"两物体只是并排没真融合"和"一个物体压倒另一个"两大顽疾。

VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By Value Sign Flip

针对蒸馏后的 few-step(1-8 步)扩散/流匹配模型无法用 CFG 做负向提示的问题,本文提出 Value Sign Flip(VSF):在注意力计算内部把负向提示的 value 符号翻转,用 token 级、随层/步/区域自适应的方式抵消不想要的内容,几乎零额外开销就把负向遵循度从 0.32–0.38 提到 0.42–0.55,还超过了非 few-step 模型的 CFG。

W-Edit: A Wavelet-based Frequency-aware Framework for Text-driven Image Editing

W-Edit 把扩散特征用小波变换分解成多尺度频带,把"低频管结构、高频管细节"这一频域先验注入预训练 DiT 的注意力 K/V,从而免训练地在保结构和改局部之间取得平衡,在 PIE-Bench 上把 FID 降到 65.44、CLIP 提到 31.84,全面超过此前的免训练编辑方法。

Weak-to-Strong Diffusion with Reflection

W2SD 提出在扩散采样过程中交替执行「强模型去噪 + 弱模型反演」的反射操作,用一对现成强/弱模型之间可估计的「弱到强差距」去逼近不可观测的「强到理想差距」,从而免训练地把采样轨迹拉向真实数据分布;在图像/视频、UNet/DiT/MoE 等多种设定上显著提升人类偏好与美学质量,Juggernaut-XL 上 HPSv2 胜率最高可达 90%。

WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction

WeTok 是一个离散视觉 tokenizer,用「分组无查表量化(GQ)」把超大码本切成多个小组分别量化、绕开熵损失的显存爆炸,再用「生成式解码器(GD)」把解码器从确定性回归改成以噪声为条件的 GAN 生成,从而在高压缩比下也能重建细节——在 ImageNet 50k 上以 400% 压缩比拿到 zero-shot rFID 0.12,反超连续 tokenizer FLUX-VAE(0.18)和 SD-VAE 3.5(0.19)。

What Exactly Does Guidance Do in Masked Discrete Diffusion Models

这篇论文在低维(1D/2D)可解析的设定下,第一次严格刻画了 classifier-free guidance(CFG)在掩码离散扩散模型里到底干了什么——它把概率质量从"类间重叠区域"挪到"类专属区域",并且让反向采样动力学向目标分布收敛的速度随引导强度 \(w\)双指数加速。

What Matters for Representation Alignment: Global Information or Spatial Structure?

本文系统证明:表示对齐(REPA)能加速扩散模型训练,靠的不是目标表示的全局语义信息(ImageNet 线性探针精度),而是其 patch token 之间的空间自相似结构;据此提出仅 4 行代码的 iREPA(卷积投影 + 空间归一化),在 27 个编码器、多种模型尺寸和训练配方上一致加速 REPA 收敛。

When Scores Learn Geometry: Rate Separations under the Manifold Hypothesis

在流形假设下揭示score学习中几何信息与分布信息的尺度分离现象——流形几何信息强度为 \(\Theta(\sigma^{-2})\),比分布信息强 \(O(\sigma^{-2})\) 倍,由此证明扩散模型的成功主要来自学习数据流形而非完整分布,并提出一行代码修改即可生成流形上的均匀分布。

Why Adversarially Train Diffusion Models?

这篇论文把分类器里的对抗训练重新改写成适合扩散模型的“等变平滑”正则,让去噪网络在训练数据高度污染或采样轨迹被攻击时仍能沿着更干净、更稳定的 score field 生成样本。

WILD-Diffusion:一种受 WDRO 启发的有限数据扩散模型训练方法

本文把 Wasserstein 分布鲁棒优化(WDRO)引入扩散模型训练,通过在以有限数据分布为中心的 Wasserstein 不确定集内迭代生成"最坏情况"样本来动态扩张训练支撑集,从而在仅用 20% 数据时把 FID 降低 10% 以上,并给出了带收敛保证的即插即用训练框架。

WithAnyone: Toward Controllable and ID Consistent Image Generation

针对身份定制生成里"模型直接把参考脸贴到输出上"的 copy-paste 顽疾,本文构建了 50 万张配对的多人数据集 MultiID-2M、给出能量化 copy-paste 的基准 MultiID-Bench,并用配对训练 + 扩展负样本的 ID 对比损失训出 WithAnyone(基于 FLUX),在保持最高 SimGT 的同时把 copy-paste 打到同档最低,打破了"像得越准、抄得越狠"的固有 trade-off。

WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark

针对"只给原因不给结果"的隐式编辑指令(如"把球扔向仙人掌"),本文构建了强调真实世界因果变换的 11k 高质量数据集 WorldEdit 与配套基准 WorldEdit-Test,并用"CoT 监督微调 + Flow-GRPO 强化学习(含逆向因果验证奖励)"两阶段微调 Bagel,把开源模型的因果编辑能力拉到接近 GPT-4o / Nano-Banana 的水平。