跳转至

🎨 图像生成

🧠 NeurIPS2025 · 250 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (11) · 📷 CVPR2026 (240) · 🔬 ICLR2026 (154) · 🤖 AAAI2026 (78) · 📹 ICCV2025 (219) · 🧪 ICML2025 (115)

🔥 高频主题: 扩散模型 ×93 · 文生图 ×13 · 对抗鲁棒 ×9 · 多模态 ×8 · 布局/合成 ×7

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float (DFloat11)

DFloat11 利用 BFloat16 权重中指数位(exponent)的低熵特性,通过 Huffman 编码将 LLM/扩散模型无损压缩至原始大小的约 70%(等效 ~11 bit),并设计了层次化查找表和两阶段 GPU kernel 实现高效在线解压,使 Llama 3.1 405B 可在单节点 8×80GB GPU 上无损推理。

A Closer Look at Model Collapse: From a Generalization-to-Memorization Perspective

发现扩散模型在自消耗循环(用生成数据训练下一代模型)中存在从"泛化"到"记忆"的转变过程,揭示训练集熵与模型泛化能力的强线性相关性(Pearson r=0.91),并提出基于熵的数据选择策略(Greedy Selection / Threshold Decay Filter)有效减缓该转变,在 CIFAR-10 accumulate 范式下第 8 轮 FID 从 75.7 降至 44.7。

A Connection Between Score Matching and Local Intrinsic Dimension

证明去噪得分匹配损失(denoising score matching loss)的下界恰好是数据流形的局部固有维度(LID),从而将 DSM loss 本身作为一个高效的 LID 估计器——无需梯度计算或多次前向传播,在 Stable Diffusion 3.5 上内存占用仅为 FLIPD 的 60%,且量化后估计更稳定。

A Data-Driven Prism: Multi-View Source Separation with Diffusion Model Priors

提出 DDPRISM 方法,利用多视图观测中不同线性变换的结构性差异,在 EM 框架下为每个未知源学习独立的扩散模型先验,无需预先获得任何单独的源样本即可完成源分离和后验采样,在合成问题和真实星系观测上超越现有方法。

A Diffusion Model for Regular Time Series Generation from Irregular Data with Completion and Masking

提出两步框架从不规则采样时序数据生成规则时序:先用 TST 自编码器补全缺失值构造"自然邻域",再在视觉扩散模型中用 masking 策略仅在观测像素上计算损失,避免对补全值的过度依赖,在判别分数上平均改善 70%,训练速度提升 6.5 倍。

A Gradient Flow Approach to Solving Inverse Problems with Latent Diffusion Models

提出 DWGF(Diffusion-regularized Wasserstein Gradient Flow),将隐空间扩散模型的后验采样问题严格形式化为 KL 散度在 Wasserstein-2 空间上的正则化梯度流,推导出隐空间中的 ODE 系统用于求解图像逆问题,在 FFHQ-512 上的修复和超分辨率任务中 PSNR 大幅超越基线。

Accelerating Parallel Diffusion Model Serving with Residual Compression

提出 CompactFusion 框架,通过残差压缩(仅传输相邻去噪步骤间的激活差异而非完整激活)来消除并行扩散推理中的通信冗余,在 4×L20 上实现 3.0× 加速且生成质量远优于 DistriFusion,在模拟以太网带宽下实现 6.7× 加速,甚至在 100× 压缩下仍优于 DistriFusion。

AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models

揭示扩散模型量化中的误差累积现象——每步的量化误差会传递并放大到后续步骤——并提出在 PTQ 校准阶段显式模拟连续多步去噪过程来联合优化量化参数的方法,同时通过巧妙的目标函数设计将内存从 O(n) 降至 O(1)。

Adapting Speech Language Model to Singing Voice Synthesis

将 1.7B 参数的 TTS 预训练 Speech Language Model 适配到歌声合成(SVS)任务,通过乐谱 tokenization + multi-stream LM 预测 + conditional flow matching 精修 + vocoder,仅用 135 小时合成歌声数据达到与专用 SVS 系统可比的性能。

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

提出ALE-Bench,首个面向分数制算法工程竞赛(AtCoder Heuristic Contest)的AI基准,收集40道NP-hard优化赛题并提供交互式Agent评估框架,发现最强模型o3-high在one-shot设置下仅达人类平均水平,且AI在跨问题一致性和长时间迭代改进上与人类专家差距显著。

Aligning Compound AI Systems via System-level DPO

将复合 AI 系统建模为 DAG,提出 SysDPO 框架将 DPO 扩展到多组件联合对齐,通过 DAG 分解将系统级偏好转化为可端到端优化的损失函数,理论证明了 β-完美对齐保证,在 LLM+扩散模型和 LLM+LLM 系统上显著提升协作质量。

Aligning Text to Image in Diffusion Models is Easier Than You Think

提出 SoftREPA——一种轻量级对比微调策略,通过引入可学习 soft text token(不到 1M 参数)在冻结的预训练 T2I 扩散模型上进行对比学习,显式提高文本和图像表征的互信息,在 SD1.5/SDXL/SD3 上显著提升文本-图像对齐质量,且适用于图像生成和图像编辑任务。

Amortized Sampling with Transferable Normalizing Flows

提出 Prose——一个 285M 参数的全原子可迁移归一化流,基于 TarFlow 架构训练在 21,700 个短肽 MD 轨迹上(总计 4.3ms 模拟时长),实现对任意短肽系统的零样本无相关性提议采样,在能量评估预算相同时超越 MD 基线,生成速度比之前的可迁移玻尔兹曼生成器 (TBG) 快 4000 倍。

AugGen: Synthetic Augmentation using Diffusion Models Can Improve Recognition

提出 AugGen,一种自包含的合成数据增强方法:在目标数据集上训练类条件扩散模型,通过混合不同类别的条件向量生成新的"混合类"样本,增强判别模型训练,在人脸识别基准上实现 1-12% 的性能提升,无需任何外部数据或辅助模型。

BADiff: Bandwidth Adaptive Diffusion Model

提出 BADiff——首个带宽自适应扩散模型,通过将目标熵约束作为条件嵌入扩散反向过程,配合可微熵正则化损失和自适应停止策略,使模型根据实时带宽动态调整生成质量并自适应提前终止采样,在保持感知质量的同时减少计算开销,从根本上避免了传统"高质量生成→后压缩"流程中的压缩伪影和计算浪费。

Balanced Conic Rectified Flow

针对 k-rectified flow 中 reflow 步骤导致的分布漂移问题,提出 conic reflow:利用真实图像的反演噪声及其 Slerp 扰动构成锥形监督轨迹,大幅减少所需 fake pair 数量的同时获得更优的生成质量和更直的 ODE 路径。

Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking

Prime(Partial masking scheme)通过将每个token用base-b子token序列表示并在子token级别独立掩码,为掩码扩散模型引入中间状态,实现细粒度去噪过程,在OpenWebText上以15.36困惑度首次让MDM在不使用自回归公式的情况下超越ARM(17.54)。

BitMark: Watermarking Bitwise Autoregressive Image Generative Models

提出 BitMark——首个针对比特级自回归图像生成模型(Infinity、Instella)的水印方案,在生成过程中通过对 logit 加偏置将 bit 序列引向"绿色列表",实现可靠检测(z-test)、高图像保真度(FID 几乎不变)、对多种攻击的鲁棒性和放射性(训练在水印图上的下游模型也带有水印),为防止模型坍缩提供了关键工具。

Blameless Users in a Clean Room: Defining Copyright Protection for Generative Models

重建生成模型可证明版权保护的理论基础——证明现有的 Near Access-Freeness (NAF) 定义不能防止逐字复制("被污染"),提出"无辜用户"(blameless) 框架和净室版权保护 (\((\kappa,\beta)\)-clean) 定义,其中用户在反事实"净室设置"中不会复制则在真实世界中也不太可能复制,并证明差分隐私训练在"黄金数据集"假设下蕴含净室版权保护。

Blind Strong Gravitational Lensing Inversion: Joint Inference of Source and Lens Mass with Score-Based Models

首次将 score-based 生成模型先验应用于强引力透镜的盲反演——联合推断背景源天体形态和透镜质量分布参数,通过将 GibbsDDRM 扩展到连续时间域实现采样,重建残差与观测噪声一致,透镜参数边际后验无系统偏差。

BlurDM: A Blur Diffusion Model for Image Deblurring

提出 BlurDM,将运动模糊的物理形成过程(连续曝光导致渐进模糊累积)集成到扩散模型——双扩散前向(同时加噪声+模糊)+ 双去噪去模糊反向,作为隐空间先验生成器一致性增强 4 种去模糊方法在 4 个数据集上的效果,GoPro 平均 +0.31 dB,RealBlur-J 平均 +0.78 dB,仅增加 ~4 GFLOPs 和 ~9ms。

BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Edit

提出 BlurGuard——在生成对抗扰动之前先对图像做轻度模糊预处理,使扰动更鲁棒地抵御 JPEG 压缩、高斯噪声等后处理操作,从而更有效地保护图像不被 Stable Diffusion 等 AI 编辑工具篡改,在保护成功率上比不模糊基线提升 20%+。

BoltzNCE: Learning Likelihoods for Boltzmann Generation with Stochastic Interpolants

BoltzNCE 用 Score Matching + InfoNCE 混合训练 Energy-Based Model 来近似 Boltzmann Generator 的似然,避免了昂贵的 Jacobian trace 计算,在丙氨酸二肽构象生成上实现 100× 推理加速且自由能误差仅 0.02 \(k_BT\)

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

提出ReDi (Representation Diffusion)框架,在扩散模型中联合建模VAE图像latent和DINOv2语义特征——两者在同一扩散过程中从纯噪声同步去噪,仅需最小修改DiT架构即实现23倍训练收敛加速和SOTA FID,并解锁Representation Guidance推理策略。

Breaking AR's Sampling Bottleneck: Provable Acceleration via Diffusion Language Models

从信息论角度为掩码扩散语言模型建立了完整的采样收敛理论:证明 KL 散度形式的采样误差以 \(O(1/T)\) 速率衰减、与 token 间互信息线性相关,并给出匹配的下界证明了分析的紧性,理论上论证了扩散模型可以在 \(T < L\)(序列长度)步内生成高质量样本。

CADMorph: Geometry-Driven Parametric CAD Editing via a Plan-Generate-Verify Loop

提出 CADMorph,一个迭代式 plan–generate–verify 框架,利用预训练的 Parameter-to-Shape (P2S) 扩散模型和 Masked-Parameter-Prediction (MPP) 大语言模型协同工作,在无需三元组训练数据的情况下实现几何驱动的参数化 CAD 编辑。

CAMILA: Context-Aware Masking for Image Editing with Language Alignment

提出 CAMILA,一种上下文感知的图像编辑方法,利用多模态大语言模型(MLLM)自动判断指令是否可在给定图像上执行,生成 [MASK]/[NEG] 专用 token 区分可编辑区域和应忽略区域,实现精准多指令编辑并有效过滤不可执行指令。

CaMiT: A Time-Aware Car Model Dataset for Classification and Generation

提出 CaMiT 数据集(787K 标注 + 5.1M 无标注汽车图像,2005–2023),系统研究细粒度视觉类别的时间漂移问题,并在静态预训练、时间增量预训练、时间增量分类器学习和时间感知图像生成四个场景下提供 benchmark。

Can Knowledge-Graph-based Retrieval Augmented Generation Really Retrieve What You Need?

提出 GraphFlow 框架,将知识图谱上的检索建模为 GFlowNet 的流匹配问题,通过详细平衡目标和局部探索策略联合训练检索策略与流估计器,在 STaRK 基准上检索准确率和多样性均超越 GPT-4o 约 10%。

CDFlow: Building Invertible Layers with Circulant and Diagonal Matrices

提出 CDFlow,利用循环矩阵和对角矩阵的交替乘积构造可逆线性层,将参数复杂度从 \(\mathcal{O}(n^2)\) 降至 \(\mathcal{O}(mn)\),矩阵逆复杂度从 \(\mathcal{O}(n^3)\) 降至 \(\mathcal{O}(mn\log n)\),对数行列式从 \(\mathcal{O}(n^3)\) 降至 \(\mathcal{O}(mn)\),在密度估计和周期性数据建模上超越同类方法。

Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data

提出 CompFlow,通过复合流匹配架构(在离线流输出分布上构建在线流)估计离线-在线环境间的动态差异(Wasserstein 距离),并结合高动态差异区域的主动探索策略,在 27 个动态偏移 RL 任务中平均回报超越最强基线 14.2%。

Composition and Alignment of Diffusion Models using Constrained Learning

提出统一的约束优化框架,将扩散模型的奖励对齐和多模型组合问题形式化为约束优化,通过拉格朗日对偶方法自动确定最优权重,避免手动超参数搜索。

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

提出PAR(Panoramic AutoRegressive model),首次用掩码自回归建模统一文本到全景图和全景图外延两大任务,通过循环平移一致性损失和双空间循环填充解决ERP全景图的边界不连续问题,在Matterport3D上取得37.37 FID,同时展示出良好的可扩展性和零样本泛化能力。

Constrained Discrete Diffusion

提出 CDD(Constrained Discrete Diffusion),将可微约束优化投影算子嵌入离散扩散模型的去噪过程中,无需重训练即可在采样时强制满足序列级约束,在毒性文本生成、分子设计和指令遵循三类任务上实现零约束违反。

Contextual Thompson Sampling via Generation of Missing Data

提出 Generative Thompson Sampling (TS-Gen),将上下文老虎机中的不确定性建模为缺失数据而非未知参数,通过生成模型对缺失结果做自回归填充来实现 Thompson 采样,建立了与离线预测损失直接挂钩的遗憾界。

Continuous Diffusion Model for Language Modeling

提出 RDLM(Riemannian Diffusion Language Model),在统计流形(超球面)上构建连续扩散过程来建模离散分布,建立了离散扩散与连续流的理论联系,通过径向对称性实现无模拟训练和维度分裂技术处理大词表,在 Text8 上以 1.32 BPC 超越所有离散和连续扩散模型。

Continuous Uniqueness and Novelty Metrics for Generative Modeling of Inorganic Crystals

针对无机晶体生成模型评估中广泛使用的离散距离函数 (StructureMatcher) 的四大缺陷,提出基于 Magpie 指纹(成分)和 AMD 向量(结构)的连续距离函数,实现更可靠的 uniqueness 和 novelty 度量。

CORAL: Disentangling Latent Representations in Long-Tailed Diffusion

深入诊断长尾数据下扩散模型尾类生成退化的根因为 U-Net 瓶颈层的"表示纠缠"(representation entanglement),提出 CORAL 通过在瓶颈层施加监督对比损失来解耦类别表示,在 CIFAR10/100-LT、CelebA-5、ImageNet-LT 上全面超越 DDPM/CBDM/T2H 等基线。

CORAL: Disentangling Latent Representations in Long-Tailed Diffusion

本文发现扩散模型在长尾数据上训练时,U-Net 瓶颈层的潜在表征出现"表征纠缠"——尾部类别与头部类别特征空间严重重叠,并提出 CORAL 方法通过在瓶颈层添加投影头和监督对比损失,促进类别间潜在表征分离,显著提升尾部类别生成质量和多样性。

Co-Reinforcement Learning for Unified Multimodal Understanding and Generation

提出 CoRL(Co-Reinforcement Learning)框架,通过"统一RL→精细化RL"两阶段策略对统一多模态模型(ULM)同时进行理解和生成能力的强化学习优化,实现理解生成双能力的协同进化,在 1.5B 参数量下生成提升 7%、理解提升 23%。

Counterfactual Identifiability via Dynamic Optimal Transport

利用动态最优传输 (dynamic OT) 理论,首次解决了高维多变量 Markovian SCM 中反事实的可辨识性问题——证明 OT flow 机制产生唯一的单调保序反事实传输映射,并扩展至非 Markovian 设置(IV/BC/FC 准则)。

Coupling Generative Modeling and an Autoencoder with the Causal Bridge

在存在未观测混淆因子的因果推断中,提出将生成模型与自编码器耦合来提升因果桥函数 (causal bridge) 的估计质量——通过共享编码器在处理/控制/结果变量间传递统计强度,并将框架扩展到生存分析。

Cross-fluctuation Phase Transitions Reveal Sampling Dynamics in Diffusion Models

借鉴统计物理中的涨落理论(fluctuation theory),提出了一种通过 交叉涨落(cross-fluctuation) 检测扩散模型采样过程中离散相变的框架,从而在无需重新训练的情况下加速采样、改进条件生成、提升零样本分类和风格迁移。

Curly Flow Matching for Learning Non-gradient Field Dynamics

提出 Curly Flow Matching (Curly-FM),通过设计带有非零参考漂移的 Schrödinger Bridge 问题,使 flow matching 能够学习周期性、旋转性等非梯度场动力学,突破了传统方法只能建模梯度场的限制。

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

本文提出 DD2,将自回归图像模型重新解释为条件分数模型,通过条件分数蒸馏(CSD)损失训练单步生成器匹配原始 AR 模型的输出分布,在 ImageNet-256 上实现 FID 仅增加约 2-3.5 的单步生成,获得 8-238 倍加速,相比 DD1 将单步性能差距缩小 67%。

DeCaFlow: A Deconfounding Causal Generative Model

提出 DeCaFlow,一个去混淆的因果生成模型,在给定因果图和观测数据的情况下,只需训练一次即可正确估计所有 do-calculus 可识别的因果查询(包括干预和反事实),即使存在隐藏混淆因子。

Decomate: Leveraging Generative Models for Co-Creative SVG Animation

提出 Decomate 交互系统,利用多模态大语言模型 (MLLM) 将非结构化 SVG 图形自动分解为语义组件,设计师通过自然语言为各组件指定动画行为,系统生成可生产的 HTML/CSS/JS 动画代码,支持迭代协作创作。

DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models

提出DEFT(Decompositional Efficient Fine-Tuning),通过将权重更新分解为子空间投影和低秩调整两个组件来高效微调T2I模型,在个性化生成和通用图像生成任务上超越LoRA和PaRa。

Denoising Weak Lensing Mass Maps with Diffusion Model and Generative Adversarial Network

将扩散模型(DM)应用于弱引力透镜质量图去噪任务,与 GAN(pix2pix)在相同实验设置下进行系统性对比,证明 DM 在训练稳定性、多样本平均鲁棒性和多种统计量重建精度上全面优于 GAN。

Detecting Generated Images by Fitting Natural Image Distributions

提出一致性验证框架 ConV,利用自然图像流形与生成图像之间的几何差异,通过两个梯度正交的函数实现无需训练的生成图像检测,并引入 Normalizing Flow 增强版 F-ConV 进一步放大流形偏差。

Detection and Simulation of Urban Heat Islands Using a Fine-Tuned Geospatial Foundation Model

提出一套利用微调地理空间基础模型(Granite-GFM)的三阶段统一工作流——先通过绿地冷却效应建立实证基线验证模型物理真实性,再外推未来气候情景下的城市温度,最后通过 inpainting 模拟绿化干预的降温效果——将基础模型从评估工具升级为城市规划的交互式模拟平台。

DEXTER: Diffusion-Guided EXplanations with TExtual Reasoning for Vision Models

提出 DEXTER,一个无需数据的框架,通过优化文本提示驱动扩散模型生成最大化目标分类器激活的图像,再用 LLM 对合成样本进行推理,生成全局性、可读的文本解释,实现模型行为的偏差发现和全局解释。

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

发现预训练DiT的全局self-attention在生成任务中主要捕获局部模式存在大量冗余,提出用标准卷积模块+紧凑通道注意力(CCA)构建纯卷积扩散模型DiCo,在ImageNet-256上FID达2.05超越DiT-XL/2且推理速度快2.7倍,512分辨率下更快3.1倍。

Diff-ICMH: Harmonizing Machine and Human Vision in Image Compression with Generative Prior

提出 Diff-ICMH,一种基于扩散模型的生成式图像压缩框架,通过语义一致性损失(SC loss)保持语义完整性,通过标签引导模块(TGM)激活生成先验,以单一编解码器和码流同时服务 10+ 种智能任务和人类视觉感知,无需任何任务特定适配。

DiffEye: Diffusion-Based Continuous Eye-Tracking Data Generation Conditioned on Natural Images

提出 DiffEye,首个基于扩散模型直接利用原始眼动轨迹数据、以自然图像为条件生成连续且多样化眼动轨迹的框架,同时引入对应位置嵌入 (CPE) 对齐注视空间与图像语义空间。

Diffusion-Based Electromagnetic Inverse Design of Scattering Structured Media

提出基于条件扩散模型的电磁逆设计框架,从目标微分散射截面 (DSCS) 直接生成介电球超表面几何结构,绕过昂贵的迭代优化,并自然处理逆问题的非唯一性,性能优于 CMA-ES 进化优化且速度快数个数量级。

Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL

提出 Diffusion-Classifier Synergy (DCS) 框架,通过在扩散模型和分类器之间建立互相增强的闭环,利用多层次奖励函数(特征级+logits级)引导扩散模型生成对分类器最有益的图像,在 FSCIL 基准上取得 SOTA。

Diffusion-Driven Progressive Target Manipulation for Source-Free Domain Adaptation

提出 DPTM 框架,利用潜在扩散模型对不可信目标样本进行语义变换,生成伪目标域并通过渐进式重建机制迭代缩小与真实目标域的差距,在大域偏移场景下比现有 SFDA SOTA 提升高达 18.6%。

Diffusion Adaptive Text Embedding for Text-to-Image Diffusion Models

提出 DATE(Diffusion Adaptive Text Embedding),在扩散模型采样过程中根据当前去噪中间结果动态更新文本嵌入,无需额外训练即可提升文本-图像语义对齐。

Diffusion Classifiers Understand Compositionality, but Conditions Apply

全面研究零样本扩散分类器在组合理解任务上的判别能力:覆盖3个扩散模型(SD 1.5/2.0/3-m)×10个数据集×30+任务,引入Self-Bench诊断基准(用扩散模型自己生成的图像消除域差异),发现扩散分类器确实理解组合性但受域差距和时间步加权影响——"条件适用"。

Diffusion Generative Modeling on Lie Group Representations

提出在李群表示空间(而非李群本身)上构建扩散过程的新理论框架,通过广义分数匹配将非阿贝尔李群的弯曲动力学映射到欧几里得空间中,实现无模拟训练的李群扩散模型,并证明标准分数匹配是其平移群的特例。

Diffusion Models Meet Contextual Bandits

将预训练扩散模型作为上下文赌博机 (contextual bandits) 问题中动作参数的表达性先验,提出 diffusion Thompson Sampling (dTS) 算法,通过高效的层次化后验近似实现快速更新与采样,在大动作空间下显著优于传统方法。

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

本文提出Distilled Decoding 2(DD2),通过将自回归图像模型重新解读为条件分数模型,设计了条件分数蒸馏(CSD)损失,将多步AR采样压缩为一步生成,在ImageNet-256上实现FID从3.40到5.43的微小退化同时获得8.0x加速(VAR)和238x加速(LlamaGen),相比DD1缩小了67%的性能差距且训练快12.3倍。

DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution

提出 DOVE,基于 CogVideoX 预训练视频生成模型,通过两阶段潜空间-像素空间训练策略和高质量 HQ-VSR 数据集实现单步推理的视频超分辨率,比多步扩散方法快 28 倍且性能相当或更优。

Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable

提出 Dual Data Alignment (DDA),通过像素域和频域双重对齐生成训练用合成图像,消除数据集偏置导致的虚假相关性,使检测器仅学习伪造相关特征,在11个基准上平均准确率达到90.7%,大幅超越现有方法。

EditInfinity: Image Editing with Binary-Quantized Generative Models

提出 EditInfinity,首次将经典"图像反演-图像编辑"范式应用于二值量化自回归生成模型 Infinity,利用量化表示可获取精确中间监督的优势实现高精度图像反演,配合分段线性平滑核实现高保真编辑效果,在 PIE-Bench 上全面超越扩散模型基线。

EEGReXferNet: A Lightweight Gen-AI Framework for EEG Subspace Reconstruction via Cross-Subject Transfer Learning and Channel-Aware Embedding

提出 EEGReXferNet,一种轻量级生成式 AI 框架,通过邻域通道感知输入选择、频带特定子窗口卷积编解码、动态滑窗隐空间和参考统计量缩放,在跨被试迁移学习设置下实现 EEG 子空间重建,参数减少约 45%、推理延迟 <1ms,同时保持 PSD 相关性 \(\geq 0.95\) 和谱图 RV 系数 \(\geq 0.85\)

Efficient Rectified Flow for Image Fusion

提出 RFfusion,首次将 Rectified Flow 引入图像融合任务,实现无需额外训练的单步采样,同时设计面向融合的两阶段 VAE 训练策略,在速度和质量上全面超越现有扩散融合方法。

Elucidated Rolling Diffusion Models for Probabilistic Forecasting of Complex Dynamics

提出 ERDM,首次将滚动扩散(Rolling Diffusion)框架与 EDM 的原则性设计(噪声调度、预条件化、Heun 采样器)成功统一,通过渐进噪声调度显式建模不确定性增长,在 Navier-Stokes 和 ERA5 天气预报任务上显著优于自回归 EDM 基线。

Emergence and Evolution of Interpretable Concepts in Diffusion Models

首次将 Sparse Autoencoders (SAEs) 系统性地应用于多步扩散模型 (Stable Diffusion v1.4),揭示了图像构图在第一步反向扩散就已涌现、风格概念在中期阶段形成的时间演化规律,并据此设计了时间自适应的因果干预技术。

Encoder-Decoder Diffusion Language Models for Efficient Training and Inference

提出 E2D2,一种面向离散扩散语言模型的编码器-解码器架构,通过轻量解码器迭代去噪、大型编码器定期更新表征,同时实现更快推理(~3× vs MDLM)和更高效的 block diffusion 训练(FLOPs 减半)。

Energy Loss Functions for Physical Systems

提出基于物理能量的损失函数框架,通过反向 KL 散度与玻尔兹曼分布推导出以成对距离为基础的能量差损失,天然满足 SE(d) 不变性,在分子生成和自旋基态预测中显著优于 MSE 和交叉熵损失。

Enhancing Diffusion Model Guidance through Calibration and Regularization

针对分类器引导扩散模型中分类器过度自信导致梯度消失的问题,提出两类互补方案:(1) Smooth ECE 校准损失微调分类器,FID 改善 ~3%;(2) 基于 f-散度的正则化采样引导(RKL/FKL/JS),无需重训练即在 ImageNet 128×128 上达到 FID 2.13。

Entropy Rectifying Guidance for Diffusion and Flow Models

提出 Entropy Rectifying Guidance (ERG),通过操控注意力层的 Hopfield 能量景观(温度缩放、步长调整)来获取弱预测信号,替代传统 CFG 中的无条件预测,在文本到图像、类条件和无条件生成中同时提升质量、多样性和一致性。

Epistemic Uncertainty for Generated Image Detection

提出 WePe(Weight Perturbation),通过对预训练视觉大模型(DINOv2)施加权重扰动来估计认识不确定性(epistemic uncertainty),利用自然图像与 AI 生成图像在不确定性空间的差异实现检测,无需训练即可使用。

Equivariant Flow Matching for Symmetry-Breaking Bifurcation Problems

提出等变 flow matching 框架,结合 symmetric coupling 策略,用生成式 AI 建模对称性破缺分岔问题中的多模态概率分布,在物理系统(屈曲梁、Allen-Cahn 方程)上显著优于确定性模型和 VAE。

Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation

系统评估了 12 种文本-图像组合对齐指标与人类判断的一致性,发现没有单一指标在所有组合任务上一致表现最优,VQA 指标并非总是最好的,embedding 类指标(ImageReward、HPS)在特定类别上更强。

EVODiff: Entropy-aware Variance Optimized Diffusion Inference

从信息论角度分析扩散模型推理过程,提出通过优化条件方差来减少条件熵的 EVODiff 方法,在不修改模型的前提下显著加速采样并提升生成质量。

Evolve to Inspire: Novelty Search for Diverse Image Generation

提出 Wander 框架,基于新颖性搜索(novelty search)和 LLM 驱动的 prompt 进化,从单个文本提示出发生成高度多样化的图像集合,在 Vendi Score 上超越现有进化式 prompt 优化基线。

Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction

提出多维度指令不确定性缩减框架 InSUR,通过 ResAdv-DDIM 采样器稳定对抗优化方向、上下文编码的攻击场景约束、以及基于 WordNet 的语义抽象评估,首次实现了从自然语言指令生成 2D/3D 语义约束对抗样本(SemanticAE)。

Exploring Variational Graph Autoencoders for Distribution Grid Data Generation

系统评估了四种变分图自编码器(VGAE)解码器架构在生成合成配电网拓扑任务上的表现,发现 Iterative-GCN 解码器在小型同质数据集上能较好复现真实电网的结构和频谱特征,但在大型异质数据集上所有方法均存在断连组件和重复模式等严重问题。

Failure Prediction at Runtime for Generative Robot Policies

提出 FIPER 框架,在生成式机器人策略(扩散/流匹配)运行时,通过观测端 RND-OE(OOD 检测)和动作端 ACE(动作块熵)双指标联合判断,无需任何失败数据即可实现早期、准确的失败预测,并借助共形预测提供统计保证。

FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models

提出 FairImagen 后处理去偏框架,通过在 CLIP prompt 嵌入空间应用 FairPCA 投影去除人口统计信息,结合经验噪声注入和跨人口统计联合去偏,在不重训模型的前提下显著提升文本到图像生成的公平性。

FALCON: Few-step Accurate Likelihoods for Continuous Flows

提出 FALCON,通过混合训练目标(flow matching + 平均速度损失 + 可逆性正则化)使连续归一化流在少步采样下仍能提供足够精确的似然估计,从而实现比传统 CNF 快两个数量级的 Boltzmann 采样。

Fast Data Attribution for Text-to-Image Models

将精确但缓慢的 Attribution by Unlearning 方法蒸馏到一个轻量特征嵌入空间中,通过 learning-to-rank 训练使得简单的余弦相似度检索就能近似昂贵的归因排序,首次在 Stable Diffusion + LAION-400M 规模上实现毫秒级数据归因。

Fast Solvers for Discrete Diffusion Models: Theory and Applications of High-Order Algorithms

首次将高阶数值方法引入离散扩散模型推理,提出 θ-RK-2 和 θ-Trapezoidal 两种二阶求解器,在理论上证明 θ-Trapezoidal 的离散化误差从一阶 \(\mathcal{O}(\kappa T)\) 提升到二阶 \(\mathcal{O}(\kappa^2 T)\),实验覆盖 200M–8B 模型在文本、图像和数学推理上的一致性提升。

FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies

基于马尔可夫随机场(MRF)理论,提出局部像素依赖(LPD)特征表示,通过中值滤波重建暴露生成图像的纹理不一致性,配合仅 1.1M 参数的轻量卷积网络 FerretNet,在仅用 4 类 ProGAN 数据训练的情况下,实现跨 22 个生成模型 97.1% 的平均检测准确率。

Flatten Graphs as Sequences: Transformers are Scalable Graph Generators

提出 AutoGraph,通过分段欧拉邻域路径(SENT)将图无损展平为 token 序列,直接用 decoder-only Transformer 建模,实现比扩散模型快 100× 的图生成速度,同时在合成和分子基准上达到 SOTA。

Flattening Hierarchies with Policy Bootstrapping

提出 SAW(Subgoal Advantage-Weighted Policy Bootstrapping),通过在数据集内轨迹上采样子目标并用优势值加权的重要性采样进行策略自举,将层次 RL 的长时序推理优势蒸馏到单一扁平策略中,无需学习子目标生成模型,在 20 个离线 GCRL 数据集上匹配或超越 SOTA。

Flex-Judge: Text-Only Reasoning Unleashes Zero-Shot Multimodal Evaluators

提出 Flex-Judge,仅用 1K 条纯文本推理数据微调多模态大模型,即可零样本泛化到图像/视频/音频/分子等多模态评判任务,性能媲美甚至超越 GPT-4o 等商业 API 和大规模标注训练的专用评估器。

Flow Matching Neural Processes

提出 FlowNP,将 flow matching 引入神经过程框架,通过 transformer 预测目标点的流速度场实现对条件分布的并行采样,在 1D GP、图像和气象数据三大基准上全面超越现有 NP 方法。

FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

提出 FocalCodec——基于 Focal Modulation 的低比特率语音编解码器,使用单个二值码本将语音压缩至 0.16–0.65 kbps,在语音重合成、语音转换和多项下游任务中达到与多码本 SOTA 方法可比甚至更优的性能。

FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency

首次在 flow-based 视觉运动策略中引入频域一致性约束,利用 DCT 变换将动作块的速度场投影到频域并施加自适应频率分量损失,实现了高质量一步动作生成(93.5 Hz),在仿真和真实机器人任务中均优于现有一步生成方法。

From Cradle to Cane: A Two-Pass Framework for High-Fidelity Lifespan Face Aging

提出 Cradle2Cane 两阶段人脸老化框架:第一阶段通过自适应噪声注入(AdaNI)实现精准年龄控制,第二阶段通过 SVR-ArcFace 和 Rotate-CLIP 双身份嵌入(IDEmb)强化身份一致性,在全寿命跨度(0-80岁)人脸老化中实现年龄精度与身份保持的最优平衡。

GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data

GeneMAN 提出一种无需人体参数模型(如 SMPL)的通用单图 3D 人体重建框架,通过在大规模多源人体数据上训练人体专属的 2D/3D 扩散先验模型,结合几何初始化-雕刻流水线与多空间纹理精炼,实现了对野外图片中不同体型比例、复杂姿态与个人物品的高保真 3D 人体重建。

Generative Model Inversion Through the Lens of the Manifold Hypothesis

从流形几何视角揭示生成式模型逆向攻击 (MIA) 的本质是通过将损失梯度投影到生成器切空间实现隐式去噪,提出梯度-流形对齐假说(对齐越高→模型越脆弱)并设计无需训练的 AlignMI 方法在多个 SOTA 攻击上取得一致且显著的提升。

GenIR: Generative Visual Feedback for Mental Image Retrieval

提出 GenIR,一种利用文本到图像扩散模型生成"合成视觉反馈"的多轮交互式图像检索框架,将系统对用户查询的理解显式可视化,使用户能直观地识别差异并迭代改进查询,在 Mental Image Retrieval (MIR) 任务上大幅超越纯文本反馈方法。

GeoRemover: Removing Objects and Their Causal Visual Artifacts

提出几何感知的两阶段框架 GeoRemover,将目标移除解耦为几何移除(深度域)与外观渲染(RGB域),通过修改场景几何表示来隐式消除被移除物体的阴影和反射等因果视觉伪影。

Gradient Variance Reveals Failure Modes in Flow-Based Generative Models

本文通过分析 CFM 损失的梯度方差(gradient variance),揭示了 Rectified Flow 在确定性插值下会不可避免地记忆训练配对而非学习最优传输映射,并证明引入随机性(stochastic interpolant)可打破该记忆化通道、恢复泛化能力。

GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

提出 GraLoRA——将 LoRA 的权重更新矩阵分割为 \(k^2\) 个独立子块、每块配独立低秩适配器,在不增加参数量和计算量的前提下将有效秩从 \(r\) 提升至 \(kr\),解决 LoRA 在高秩下因梯度纠缠导致的性能退化问题,在代码生成上 Pass@1 最高提升 +8.5%。

Graph-based Neural Space Weather Forecasting

提出基于图神经网络的空间天气神经模拟器,在 Vlasiator 混合 Vlasov 模拟数据上训练,实现确定性和概率性自回归预测近地空间状态,速度比原始模拟快 100 倍以上,并通过隐变量生成集合预报来量化预测不确定性。

Graph Diffusion that can Insert and Delete

提出 GrIDDD 模型,首次将离散去噪扩散模型(DDPM)扩展为支持在生成过程中动态插入和删除图节点,使分子图的大小可在扩散过程中自适应变化,在性质靶向和分子优化任务上达到或超过现有方法。

Graph Distance as Surprise: Free Energy Minimization in Knowledge Graph Reasoning

将神经科学的 Free Energy Principle (FEP) 与知识图谱推理连接,提出用图的最短路径距离作为 surprise 的度量,将 Murphy et al. 的树结构 surprise 理论推广到一般有向图,为 KG-based agent 的 entity grounding 提供了一个有原则的理论框架。

GSPN-2: Efficient Parallel Sequence Modeling

GSPN-2 通过算法-系统联合重设计(单 kernel 融合、紧凑通道传播、共享内存优化),将 GSPN-1 的 2D 空间传播加速最高 40×,在 ImageNet 分类和文本到图像生成中达到 Transformer 级精度且计算成本显著更低。

Guided Diffusion Sampling on Function Spaces with Applications to PDEs

提出 FunDPS(Function-space Diffusion Posterior Sampling),在函数空间中训练无条件扩散模型,推理时通过梯度引导实现 plug-and-play 的 PDE 逆问题后验采样;理论上将 Tweedie 公式推广到无穷维 Banach 空间,实验上在 5 个 PDE 任务中仅用 3% 观测即可获得比 DiffusionPDE 平均高 32% 的精度并减少 4 倍采样步数。

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

提出 GuideFlow3D,一种无需训练的 3D 外观迁移框架,通过在预训练 rectified flow 模型的采样过程中交替注入可微引导损失(部件感知外观损失 + 自相似性损失),实现几何差异显著的物体间鲁棒的纹理与几何细节迁移。

Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation

提出将文本到图像(T2I)模型中的幻觉定义为偏差驱动的偏离,建立了包含属性、关系和物体三类幻觉的分类学,并论证幻觉评估作为提示对齐评估的"上界",可揭示模型隐藏偏差。

Head Pursuit: Probing Attention Specialization in Multimodal Transformers

将经典稀疏信号恢复算法(SOMP)重新解释为一种多样本可解释性工具,发现 LLM 和 VLM 中注意力头存在细粒度语义专业化现象,仅通过翻转约 1% 的头即可可靠地抑制或增强特定概念(如国家名、毒性内容、颜色等)的生成。

Hephaestus: Mixture Generative Modeling with Energy Guidance for Large-scale QoS Degradation

提出 Hephaestus 三阶段生成框架(Forge-Morph-Refine),结合预测路径加压算法、能量引导的混合 CVAE 和潜在空间 RL 优化,用于大规模网络 QoS 降级问题的求解。

Hierarchical Koopman Diffusion: Fast Generation with Interpretable Diffusion Trajectory

基于 Koopman 算子理论,将扩散模型的非线性去噪动力学提升到线性 Koopman 空间,通过层次化分解实现一步采样,同时保留中间生成状态的可解释性和可控性。

High-order Equivariant Flow Matching for Density Functional Theory Hamiltonian Prediction

提出 QHFlow,首次将条件 flow matching 引入密度泛函理论(DFT)哈密顿矩阵预测任务,通过高阶 SE(3) 等变向量场和对称性感知先验分布,在 MD17 上将哈密顿预测误差降低 73%,并可作为 SCF 初始化加速 DFT 计算达 54%。

Highlighting What Matters: Promptable Embeddings for Attribute-Focused Image Retrieval

提出可提示图像嵌入(Promptable Embeddings)方法,通过在检索时高亮目标视觉属性来提升属性聚焦的文本到图像检索性能,同时构建了COCO-Facet基准数据集。

HollowFlow: Efficient Sample Likelihood Evaluation using Hollow Message Passing

提出HollowFlow框架,通过非回溯图神经网络(NoBGNN)和Hollow消息传递机制强制速度场雅可比矩阵具有块对角结构,将连续归一化流的似然计算反向传播次数从\(\mathcal{O}(n)\)降至常数\(\mathcal{O}(d)\),实现高达\(10^2\)倍的采样加速。

How to Build a Consistency Model: Learning Flow Maps via Self-Distillation

提出统一的自蒸馏(Self-Distillation)框架来直接学习 flow map(即 consistency model 的一般化形式),通过 tangent condition 将任意蒸馏方案转化为无需预训练教师的直接训练算法,并导出三大算法族(Eulerian / Lagrangian / Progressive),其中 Lagrangian 方法避免了空间梯度和自举引导,训练最稳定、性能最优。

Image Super-Resolution with Guarantees via Conformalized Generative Models

基于共形预测(Conformal Prediction)技术,为生成式图像超分辨率模型构建二值"置信度掩码",能可靠地标识生成图像中可信赖的区域,并提供严格的统计保证。

ImageSentinel: Protecting Visual Datasets from Unauthorized Retrieval-Augmented Image Generation

提出 ImageSentinel 框架,通过合成与私有数据集视觉一致的哨兵图像(sentinel images)并绑定随机字符检索键,实现对检索增强图像生成(RAIG)系统未授权使用私有数据集的可靠检测——仅需 3–10 次查询即可达到接近 100% 的 AUC。

Improved Training Technique for Shortcut Models (iSM)

针对 Shortcut Models 的五大性能瓶颈(指导累积、固定引导、频率偏差、自一致性偏离、弯曲轨迹),提出 iSM 统一训练框架,通过内禀引导、多级小波损失、缩放最优传输和双 EMA 策略,在 ImageNet 256×256 上实现单步 FID 5.27、四步 FID 2.05 的大幅提升。

Improving Posterior Inference of Galaxy Properties with Image-Based Conditional Flow Matching

提出基于条件流匹配(CFM)的框架,将星系图像的形态学信息与测光数据联合建模,显著提升星系物理属性(恒星质量、恒星形成率、金属丰度、尘埃消光等)的后验推断精度。

ICEdit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

ICEdit 提出一种基于大规模 Diffusion Transformer (DiT) 的上下文编辑范式,通过 in-context prompt + 最小化 LoRA-MoE 微调 + VLM 早期筛选推理时缩放,仅用 0.1% 训练数据即达到 SOTA 编辑性能。

Increasing the Utility of Synthetic Images through Chamfer Guidance

提出 Chamfer Guidance——一种免训练的推理时引导方法,利用少量真实样本作为参照,通过 Chamfer 距离同时优化合成图像的质量(fidelity)和多样性(diversity),在 ImageNet-1k 上仅用 32 张真实图片即可达到 97.5% Precision 和 92.7% Coverage,并在下游分类器训练中带来最高 16% 的准确率提升。

Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

提出针对 Flow 模型的推理时扩展方法:通过 ODE→SDE 转换引入随机性以启用粒子采样,利用线性→VP 插值变换扩大搜索空间,并设计 Rollover Budget Forcing (RBF) 策略自适应分配计算预算,在组合文本生成图像和数量感知生成任务上显著超越所有现有方法。

InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation

提出 InfinityStar,首个能生成工业级 720p 视频的纯离散自回归模型,通过时空金字塔建模统一 T2I/T2V/I2V/交互式长视频生成,VBench 83.74 超越 HunyuanVideo,推理速度比扩散模型快 10-32×。

Information-Theoretic Discrete Diffusion

将连续扩散中经典的 I-MMSE 恒等式推广到离散域,建立 I-MDSE 和 I-MDCE 关系——证明 DSE/DCE 损失不仅是变分上界而是对数似然的精确分解,并由此推导出 time-free 公式、条件似然估计和耦合似然比估计器,在 LLaDA 等大模型上验证了低方差和 OOD 检测能力。

Information Theoretic Learning for Diffusion Models with Warm Start

提出将经典 KL 散度-Fisher 信息关系推广到任意各向同性噪声扰动的似然估计框架,结合 warm-start 噪声注入和重要性采样,消除训练-测试差距并实现更紧的似然上界,在 ImageNet 多分辨率上达到 SOTA NLL。

Instance-Level Composed Image Retrieval

提出实例级组合图像检索(i-CIR)基准和训练免费方法BASIC,通过独立估计图像和文本查询的相似度并进行乘法融合,在无需训练的情况下在i-CIR和现有CIR数据集上均达到SOTA。

Is Artificial Intelligence Generated Image Detection a Solved Problem?

提出 AIGIBench 综合基准,通过四大任务(多源泛化、多退化鲁棒性、数据增强敏感性、测试预处理影响)系统评估 11 个 SOTA 检测器,揭示现有 AIGI 检测方法在真实场景下性能严重下降,表明该问题远未解决。

ItDPDM: Information-Theoretic Discrete Poisson Diffusion Model

提出 ItDPDM(信息论离散泊松扩散模型),通过泊松噪声信道和泊松重建损失(PRL)实现非负离散数据的精确似然估计,避免了 ELBO 近似和 dequantization,在合成数据及 CIFAR-10 和 MIDI 音乐上取得优于现有离散扩散模型的似然估计。

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

提出 Janus-Pro-R1,通过两阶段训练(SFT + RL)实现视觉理解与生成的协同共进,让 MLLM 在文本到图像生成中形成真正的 Chain-of-Thought 并触发 Aha 时刻,在 GenEval 上超越 GPT-4o,同时拓展到图像编辑任务。

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

提出 KLASS(KL-Adaptive Stability Sampling),一种无需训练的采样方法,利用 token 级别的 KL 散度和置信度来识别稳定 token 并行解码,在掩码扩散模型上实现最高 2.78× 加速且不损失甚至提升生成质量。

Knowledge Distillation Detection for Open-weights Models

提出知识蒸馏检测任务,通过无数据输入合成和统计评分框架,判断一个开放权重的学生模型是否由特定教师模型蒸馏而来。

Kuramoto Orientation Diffusion Models

将生物系统中的Kuramoto同步动力学引入score-based生成模型,在周期域上构建前向同步/反向去同步的扩散框架,对指纹、纹理等方向密集数据实现显著优于标准扩散模型的生成质量,同时在CIFAR-10上保持竞争力。

Large-Scale Training Data Attribution for Music Generative Models via Unlearning

将基于机器遗忘(machine unlearning)的训练数据归因方法应用于大规模文本到音乐扩散模型(115K 音轨),通过网格搜索找到最优超参数配置,并与非反事实方法对比,验证了 unlearning-based TDA 在音乐生成领域的可行性。

Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

提出 Latent Zoning Network (LZN)——一种通过共享高斯潜在空间将生成建模、表征学习和分类统一在同一框架下的方法,每种数据类型配备编码器-解码器对将样本映射到不相交的潜在区域,仅依赖"潜在计算"和"潜在对齐"两个原子操作即可支持多种 ML 任务,并在 CIFAR10 上将无条件生成 FID 从 2.76 降至 2.59,在 ImageNet 线性分类上超越 SimCLR。

LeapFactual: Reliable Visual Counterfactual Explanation Using Conditional Flow Matching

提出LeapFactual,一种基于条件流匹配(CFM)的反事实解释算法,通过"起飞-降落"(Leap)机制在扁平化和结构化潜在空间之间建立桥梁,生成可靠且分布内的反事实样本,即使在学习决策边界与真实边界不一致时也能有效工作。

Learnable Sampler Distillation for Discrete Diffusion Models

提出LSD和LSD+方法,通过蒸馏将高保真教师采样器的中间分数轨迹知识迁移给少步数学生采样器,以可学习的采样系数和非均匀时间调度实现离散扩散模型的高效高质量采样。

Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders

提出一种通过稀疏自编码器(SAE)从音频生成模型的潜空间中提取可解释特征的框架,通过线性探针将 SAE 特征映射到人类可理解的声学概念(音高、振幅、音色),实现对音频生成过程的可控操作和可视化分析。

Learning to Integrate Diffusion ODEs by Averaging the Derivatives

提出"割线损失"(Secant Losses)家族,通过蒙特卡洛积分和Picard迭代学习扩散ODE的积分,将扩散模型的切线逐步延展为割线,在训练稳定性和少步推理之间取得优异平衡。

Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

提出 Visual-Contrast Attention (VCA),通过空间池化生成紧凑的正负视觉对比 token 并进行差分交互,将自注意力复杂度从 \(O(N^2C)\) 降至 \(O(NnC)\)\(n \ll N\)),同时在图像分类和生成任务上均获得显著提升。

LinEAS: End-to-end Learning of Activation Steering with a Distributional Loss

提出 LinEAS(Linear End-to-end Activation Steering),通过端到端优化跨层仿射变换映射,利用 1D Wasserstein 分布损失进行全局激活值对齐,仅需 32 个无配对样本即可高效控制 LLM 毒性和 T2I 模型概念生成。

LLM Meets Diffusion: A Hybrid Framework for Crystal Material Generation

提出CrysLLMGen混合框架,结合LLM擅长离散原子类型预测和扩散模型擅长连续坐标/晶格参数建模的互补优势,在晶体材料生成任务中同时实现高结构有效性和组成有效性。

MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction

提出 MGE-LDM,首个在统一的潜在扩散框架中同时实现音乐混合生成、部分生成(源补全)和文本驱动任意源提取的模型,通过联合建模混合-子混合-源三元组并利用扩散修复(inpainting)实现各任务。

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

提出从预训练扩散模型骨干网络中解耦语义特征和视觉特征的框架,实现视觉对应匹配,并基于此提出 Visual Semantic Matching (VSM) 度量,首次同时支持主体驱动图像生成中视觉不一致性的量化和空间定位

Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

提出Modality-Decoupled Experts (MoDE),通过将文本和图像的适配器解耦为独立的T-MoE和V-Adapter子空间,配合知识蒸馏,在统一多模态生成模型的持续指令微调中同时缓解模态内遗忘和模态间遗忘。

Mitigating Sexual Content Generation via Embedding Distortion in Text-conditioned Diffusion Models

提出Distorting Embedding Space (DES),一种基于文本编码器的防御框架,通过将不安全嵌入变换到安全区域、保持安全嵌入不变、中和"裸露"语义三管齐下,在FLUX.1和SD v1.5上实现SOTA的性内容缓解效果(ASR分别降至9.47%和0.52%),同时保持良好的良性图像质量。

MMaDA: Multimodal Large Diffusion Language Models

提出 MMaDA,首个在统一离散扩散架构下同时实现文本推理、多模态理解和文本到图像生成的多模态基础模型,通过混合长 CoT 微调和 UniGRPO 强化学习算法弥合了扩散模型预训练与后训练之间的鸿沟。

MMG: Mutual Information Estimation via the MMSE Gap in Diffusion

利用扩散模型的信息论公式,证明互信息等于条件与无条件去噪 MMSE 之间的差值在所有信噪比上的积分的一半,提出 MMG 估计器,结合自适应重要性采样和正交原理显著提升估计精度和稳定性。

MGAudio: Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation

提出MGAudio,首个采用模型引导(MG)训练替代无分类器引导(CFG)的视频到音频生成框架,结合双角色音视频编码器(同时用于条件注入和特征对齐),以131M参数在VGGSound上实现SOTA(FAD=0.40),且仅用10%数据即可超越多数方法。

Modeling Microenvironment Trajectories on Spatial Transcriptomics with NicheFlow

NicheFlow是一种基于Flow Matching的生成模型,将细胞微环境表示为点云,通过Variational Flow Matching和最优传输联合建模细胞状态与空间坐标的时间演化,在胚胎发育、脑发育和衰老数据集上显著优于单细胞级别的轨迹推断方法。

Moment- and Power-Spectrum-Based Gaussianity Regularization for Text-to-Image Models

提出统一的标准高斯性正则化框架,结合空间域的矩(moment)匹配和频谱域的功率谱(power spectrum)匹配,将KL散度、峰度、范数等现有正则化方法统一为特殊情况,并以\(\mathcal{O}(D\log D)\)复杂度实现了PRNO的\(\mathcal{O}(D^2)\)等价效果,在文本到图像模型的reward alignment任务中显著优于所有基线。

Multimodal Generative Flows for LHC Jets

提出基于 Transformer 的多模态流匹配框架(MMF),将连续流匹配与连续时间马尔可夫跳跃桥联合建模,实现对 LHC 喷注中粒子运动学(连续)和 flavor 量子数(离散)的统一生成。

Neural Entropy

本文通过扩散模型的范式探索深度学习与信息论的联系,引入"神经熵"度量来量化扩散过程中存储在神经网络里的信息量,揭示了图像扩散模型对结构化数据具有极高的压缩效率。

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

提出 HDLM(Hierarchical Diffusion Language Model),通过在 clean token 和 mask token 之间引入具有粗粒度语义的聚类 token 中间层级,实现"下一语义尺度预测"的离散扩散语言建模,推导闭式 ELBO,在 OpenWebText 上困惑度一致优于 MDLM/GIDD,随机扰动后生成困惑度降低 62%。

Non-Asymptotic Analysis of Data Augmentation for Precision Matrix Estimation

本文从非渐近角度分析了高维精度矩阵(逆协方差矩阵)估计中数据增强(DA)的效果,建立了线性收缩估计器和 DA 估计器的二次误差集中界,并引入了广义预解矩阵的新型确定性等价工具。

Non-Markovian Discrete Diffusion with Causal Language Models

提出CaDDi框架,通过非马尔可夫离散扩散过程让每步去噪都能访问完整生成轨迹,并将其统一到因果语言模型架构中,使预训练LLM可直接复用为离散扩散模型。

NPN: Non-Linear Projections of the Null-Space for Imaging Inverse Problems

提出非线性零空间投影 (NPN)——一种新型正则化策略,训练神经网络从观测中预测信号在感知矩阵零空间低维子空间上的投影系数,将此作为"看不见的特征"的先验约束,可灵活嵌入 PnP、展开网络、DIP 和扩散模型等多种重建框架,理论证明了 PnP 算法中的收敛加速。

ObCLIP: Oblivious Cloud-Device Hybrid Image Generation with Privacy Preservation

提出 ObCLIP,一种遗忘式云-端混合图像生成方案:将用户 prompt 扩展为一组仅在敏感属性(性别、种族等)上不同的候选 prompt,云端处理所有候选的早期去噪步骤而无法识别真实 prompt,客户端选择正确的中间潜变量完成剩余去噪,同时通过时间和批次冗余加速将额外开销降至 4.4~7.6 倍以下。

OmniCast: A Masked Latent Diffusion Model for Weather Forecasting Across Time Scales

提出 OmniCast,一种结合掩码生成框架和潜在扩散模型的天气预报方法,通过联合生成未来天气序列(而非自回归迭代)来缓解误差累积,在次季节至季节(S2S)尺度达到 SOTA 性能,同时在中期预报上保持竞争力且推理速度快 10-20 倍。

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers

OmniSync提出了一种基于Diffusion Transformer的通用唇形同步框架,通过无掩码训练范式、基于Flow Matching的渐进噪声初始化和动态时空CFG三大创新,在真实视频和AI生成视频上都大幅超越先前方法,尤其在风格化角色的唇形同步上达到87.78%成功率(之前最佳67.78%)。

OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions

OmniVCus 提出了一个前馈式 DiT 框架,通过数据构建流水线 VideoCus-Factory 和两种嵌入机制(Lottery Embedding 和 Temporally Aligned Embedding),实现了多主体、多模态控制条件下的视频定制生成,在身份保持和可控性上显著超越 SOTA。

On Optimal Steering to Achieve Exact Fairness

本文定义了"理想分布"——使任意代价敏感风险下的 Bayes 最优分类器都满足精确公平性的数据分布,并提出通过 KL 散度最小化寻找最近理想分布的优化框架,为公平预处理和 LLM 表示引导提供了可证明的公平性保证。

On the Emergence of Linear Analogies in Word Embeddings

提出一个基于二值语义属性的词共现生成模型,解析性地证明了词嵌入中线性类比结构(如 \(W_{\text{king}} - W_{\text{man}} + W_{\text{woman}} \approx W_{\text{queen}}\))的涌现机制,统一解释了已知的四个关键观测现象。

On the Relation between Rectified Flows and Optimal Transport

本文深入研究了 rectified flow(流匹配)与最优传输之间的理论关系,通过构造多个反例证明了此前文献中关于"梯度约束的 rectified flow 可以渐近收敛到最优传输"的等价性声明并不成立,需要比已知条件更强的假设才能保证两者的等价关系。

One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting

提出NTN-Diff频率感知扩散模型,通过将语义一致性问题分解为中频和低频频带各自的一致性任务,利用"空文本-文本-空文本"三阶段去噪策略,同时解决文本引导图像修复中的未遮盖区域保持和遮盖/未遮盖区域语义一致性两大挑战。

Orient Anything V2: Unifying Orientation and Rotation Understanding

Orient Anything V2 通过可扩展的合成数据引擎、对称感知的周期分布目标和多帧架构,统一了物体3D方向和旋转理解,在方向估计、6DoF位姿估计和对称性识别三个任务上均达到 zero-shot SOTA。

OSMGen: Highly Controllable Satellite Image Synthesis using OpenStreetMap Data

OSMGen 直接从 OSM JSON 数据(矢量几何、语义标签、位置和时间信息)合成高保真卫星图像,并通过 DDIM 反演生成一致的前后对比图像对,支持城市变化模拟和数据增强。

OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models

构建了首个大规模文生图模型过度拒绝评估基准 OVERT(4600条良性提示 + 1785条有害提示,覆盖9个安全类别),系统评估了5个主流 T2I 模型的过度拒绝行为,揭示了安全与效用之间的强相关权衡关系。

Pairwise Optimal Transports for Training All-to-All Flow-Based Condition Transfer Model

提出A2A-FM方法,通过一种新颖的代价函数在FlowMatching框架中同时学习所有条件分布对之间的最优传输映射,理论证明在无限样本极限下收敛至逐对最优传输,尤其适用于连续条件变量的非分组数据场景。

Panel-by-Panel Souls: A Performative Workflow for Expressive Faces in AI-Assisted Manga Creation

本文提出了一种面向漫画创作的"双混合"交互式工作流系统,在面部准备阶段融合关键点自动检测与手动框选、在表情映射阶段融合表演性视频捕捉与精细数值滑块调控,使漫画艺术家能够直觉化地将情感叙事意图注入AI生成的漫画面板中角色的面部表情,解决文本提示无法精确描述微妙情感这一根本性"语言-视觉鸿沟"问题。

Perturb a Model, Not an Image: Towards Robust Privacy Protection via Anti-Personalized Diffusion Models

提出Anti-Personalized Diffusion Model (APDM),首次将隐私保护从数据级(图像扰动)转移到模型级(参数更新),通过Direct Protective Optimization损失和Learning to Protect双路径优化策略,鲁棒地阻止扩散模型对特定主体的个性化,同时保持模型对其他主体的生成和个性化能力。

Physics-Constrained Flow Matching: Sampling Generative Models with Hard Constraints

提出 Physics-Constrained Flow Matching (PCFM),一种零样本推理框架,通过在预训练流匹配模型的采样过程中交替执行前向投射、OT 插值反向更新和松弛惩罚校正,实现任意非线性等式约束的精确满足(达到机器精度),在含激波和间断的 PDE 问题上相比基线方法提升高达 99.5%。

Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection

提出基于物理守恒定律的AI生成视频检测范式,定义归一化时空梯度(NSG)统计量来捕获空间概率梯度与时间密度变化的比率,利用预训练扩散模型估计NSG并通过MMD进行检测,在Recall上超越SOTA 16%、F1超越10.75%。

PID-controlled Langevin Dynamics for Faster Sampling of Generative Models

将 PID 控制理论引入 Langevin 动力学采样,利用梯度历史(积分项)提供动量穿越能量壁垒、利用梯度趋势(微分项)抑制振荡实现快速稳定收敛,无需额外训练即可在 SGM 和 EBM 上实现 10 倍以上采样加速。

PixPerfect: Seamless Latent Diffusion Local Editing with Discriminative Pixel-Space Refinement

提出 PixPerfect,一个通用的像素级精修框架,通过判别性像素空间损失和全面的伪影模拟管线,消除潜在扩散模型局部编辑中的色差、纹理不匹配和可见接缝,在修复、目标移除和插入任务上大幅提升视觉保真度。

Pragmatic Heterogeneous Collaborative Perception via Generative Communication Mechanism

提出GenComm——一种基于生成式通信机制的异构多智能体协作感知方法,通过空间消息提取和条件扩散模型在ego端生成对齐的协作者特征,无需修改原始网络即可以极低代价接纳新异构智能体。

Preconditioned Langevin Dynamics with Score-Based Generative Models for Infinite-Dimensional Linear Bayesian Inverse Problems

在无穷维 Hilbert 空间中严格分析了分数生成模型 (SGM) 驱动的 Langevin 后验采样器,首次推导出依赖分数近似误差的收敛界,并发现了同时依赖前向算子和分数误差的最优预条件器形式,保证所有后验模态的均匀收敛速率。

Predictive Feature Caching for Training-free Acceleration of Molecular Geometry Generation

将图像领域的预测式特征缓存(predictive feature caching)策略迁移到分子几何生成领域,利用采样轨迹中隐藏状态的时间平滑性,实现免训练的2-3倍推理加速,且与其他优化手段组合可达7倍加速。

Preventing Shortcuts in Adapter Training via Providing the Shortcuts

提出Shortcut-Rerouted Adapter Training,通过在adapter训练过程中主动提供confounding因素的专用通路(如LoRA吸收分布偏移、ControlNet吸收姿态/表情),使adapter只学习目标属性(如身份),推理时移除辅助模块即可获得去纠缠的适配器。

Progressive Inference-Time Annealing of Diffusion Models for Sampling from Boltzmann Densities

提出 PITA(Progressive Inference-Time Annealing),一种结合温度退火与扩散平滑两种互补插值策略的框架,通过在高温下训练初始扩散模型,然后利用新颖的 Feynman-Kac PDE 与 SMC 重采样在推理时降温生成低温样本,逐步训练一系列扩散模型直达目标温度,首次实现了对丙氨酸二肽和三肽的笛卡尔坐标下平衡态采样。

Prompt-Based Safety Guidance Is Ineffective for Unlearned Text-to-Image Diffusion Models

本文发现训练式概念遗忘(unlearning)与免训练安全引导(negative prompt guidance)两种安全方法组合后效果反而下降,提出用概念反演(Concept Inversion)获得的隐式负向嵌入替换显式负向提示,有效恢复了免训练方法在遗忘模型上的防御能力。

Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

提出Ψ-Sampler框架,在SMC(序贯蒙特卡洛)推理时奖励对齐中引入基于pCNL(预条件Crank-Nicolson Langevin)算法的初始粒子采样,从奖励感知的后验分布初始化粒子,显著提升布局生成、数量感知生成和美学偏好生成的对齐效果。

Rare Text Semantics Were Always There in Your Diffusion Transformer

发现通过在 MM-DiT 的联合注意力块前对文本 token 嵌入进行方差放大,即可在无需额外训练或外部模块的情况下让扩散模型呈现稀有文本语义。

Real-Time Execution of Action Chunking Flow Policies

提出 Real-Time Chunking (RTC),将异步动作分块执行建模为修复(inpainting)问题,通过冻结已执行动作并"修复"其余部分,实现扩散/流策略的实时平滑执行,无需重新训练。

Rectified-CFG++ for Flow Based Models

针对Rectified Flow模型中标准CFG导致的离流形漂移问题,提出Rectified-CFG++——一种自适应预测-校正引导策略,通过条件流预测+时间调度插值校正替代外推式引导,在Flux/SD3/SD3.5/Lumina等大规模模型上全面超越标准CFG。

Recurrent Memory for Online Interdomain Gaussian Processes

提出 OHSVGP(Online HiPPO Sparse Variational Gaussian Process),将深度学习中的 HiPPO(高阶多项式投影算子)框架引入稀疏变分高斯过程中作为跨域诱导变量,利用时变正交多项式基函数实现在线学习中的长期记忆保持,核矩阵可通过 ODE 递推高效更新。

Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models

提出扩散横向思维链(DCoLT),将扩散语言模型逆向过程中的每个中间步视为潜在"思考"动作,通过基于最终结果的强化学习优化整条推理轨迹,在SEDD和LLaDA两种扩散语言模型上实现了数学和代码生成的SOTA表现。

Remasking Discrete Diffusion Models with Inference-Time Scaling

提出 ReMDM 采样器,通过在生成过程中允许已解码 token 被重新掩码(remask),赋予离散掩码扩散模型迭代纠错能力,实现推理时计算缩放,在文本、图像和分子设计任务上显著提升采样质量。

RepLDM: Reprogramming Pretrained Latent Diffusion Models for High-Quality, High-Efficiency, High-Resolution Image Generation

提出 RepLDM 重编程框架,通过注意力引导阶段和渐进上采样两个阶段,让预训练的潜在扩散模型无需重训练即可生成高质量高分辨率图像,同时大幅提升效率。

RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation

提出RespoDiff框架,在扩散模型UNet的瓶颈层引入双模块可学习变换——负责任概念对齐模块(RAM)和语义对齐模块(SAM),通过分数匹配目标实现公平和安全的文本到图像生成,同时保持图像质量和语义忠实度。

Riemannian Consistency Model

首次将一致性模型(Consistency Model)扩展到黎曼流形上,利用指数映射参数化和协变导数推导出离散和连续时间 RCM 目标函数,实现在球面、平坦环面和 SO(3) 等非欧几何上的高质量少步生成。

Riemannian Flow Matching for Brain Connectivity Matrices via Pullback Geometry

提出DiffeoCFM,利用全局微分同胚诱导的拉回度量,将黎曼流形上的条件流匹配等价转化为欧几里得空间中的标准CFM,实现对脑连接矩阵(SPD/相关矩阵)的高效生成,同时严格保持流形约束,在3个fMRI和2个EEG数据集上达到SOTA。

RLVR-World: Training World Models with Reinforcement Learning

提出 RLVR-World 框架,将强化学习可验证奖励(RLVR)范式拓展到世界模型训练,通过将目标度量(如预测准确率、感知质量)作为可验证奖励直接优化,在语言和视频两类世界模型上取得显著提升。

RLZero: Direct Policy Inference from Language Without In-Domain Supervision

提出 RLZero 框架,通过"想象 → 投影 → 模仿"三步流程,将自然语言指令转化为目标环境中的行为策略——用视频生成模型从语言"想象"观测序列,将其投影到目标域,最终由无监督预训练的 RL 智能体通过闭合形式解即时模仿,整个过程无需任何域内监督或标注轨迹。

Robustness in Both Domains: CLIP Needs a Robust Text Encoder

提出 LEAF (Levenshtein Efficient Adversarial Finetuning),首个针对 CLIP 文本编码器的对抗微调方法,在字符级文本扰动下显著提升零样本分类、文本-图像检索和图像生成的鲁棒性,同时保持图像域性能。

Safe and Stable Control via Lyapunov-Guided Diffusion Models

提出 S²Diff,一个基于模型的扩散规划框架,利用控制 Lyapunov 屏障函数(CLBF)引导扩散采样生成轨迹级控制策略,无需控制仿射假设与二次规划,在多种非线性动力系统上同时保证安全性和稳定性,平均安全率达 98.75%。

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

提出SAO-Instruct,首个支持完全自由格式自然语言指令的音频编辑模型,通过Prompt-to-Prompt、DDPM反演和手动编辑三条流水线构建编辑三元组训练数据,微调Stable Audio Open实现保持上下文一致的定向音频修改。

Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching

提出 TCCM(Time-Conditioned Contraction Matching),一种受 flow matching 启发的表格数据半监督异常检测方法,通过学习将正常数据收缩到原点的时间条件速度场,仅需单步前向推理即可计算异常分数,在 ADBench 47 个数据集上取得 AUROC 和 AUPRC 双第一,推理速度比 DTE 快 1573 倍。

ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion

提出 ScaleDiff 框架,通过 Neighborhood Patch Attention (NPA) 消除传统 patch 方法中的重叠计算冗余,结合潜空间频率混合 (LFM) 和结构引导 (SG),在无需额外训练的前提下将预训练扩散模型扩展到高分辨率(如 4096²),在 U-Net 和 DiT 架构上均实现了 training-free 方法中的 SOTA 质量和显著的推理加速(相比 DemoFusion 快 8.9 倍)。

Scaling Can Lead to Compositional Generalization

通过理论证明和大规模实验表明,标准MLP仅需扩大数据量和模型规模即可实现组合泛化,无需显式模块化架构设计,且组合泛化成功时任务成分可从隐层激活线性解码——该指标与扩散模型的图像组合成功率正相关。

Scaling Diffusion Transformers Efficiently via μP

将 Maximal Update Parametrization (μP) 从标准 Transformer 推广到扩散 Transformer(DiT、PixArt-α、MMDiT 等),证明其超参数可从小模型稳定迁移到大模型,显著降低大规模扩散模型的调参成本。

Scaling Offline RL via Efficient and Expressive Shortcut Models

提出 SORL,利用 shortcut models 的自一致性实现离线 RL 中高效一阶段训练与可变推理步数的策略优化,同时支持推理时的顺序和并行扩展。

SceneDecorator: Towards Scene-Oriented Story Generation with Scene Planning and Scene Consistency

SceneDecorator 提出了一个无需训练的框架,通过 VLM 引导的场景规划(global-to-local)和长期场景共享注意力机制,首次系统性地解决了故事生成中的场景规划和场景一致性问题,在场景对齐和一致性指标上显著优于现有方法。

SceneDesigner: Controllable Multi-Object Image Generation with 9-DoF Pose Manipulation

SceneDesigner 提出了一种基于 CNOCS 地图表示和两阶段强化学习训练的方法,首次实现了多物体 9D 姿态(位置、大小、朝向)的精确控制,在图像生成的可控性和质量上显著超越现有方法。

Schrödinger Bridge Matching for Tree-Structured Costs and Entropic Wasserstein Barycentres

将Iterative Markovian Fitting (IMF)程序推广到树结构Schrödinger Bridge问题,提出TreeDSBM算法,在Wasserstein重心计算中将IMF迭代与不动点迭代优雅合并,仅需廉价的bridge-matching步骤即可高效求解。

Score-informed Neural Operator for Enhancing Ordering-based Causal Discovery

提出 SciNO(Score-informed Neural Operator),一种在光滑函数空间中设计的概率生成模型,稳定近似 log-密度 Hessian 对角以提升排序式因果发现,合成图上 order divergence 降低 42.7%,真实数据降低 31.5%。

Semantic Surgery: Zero-Shot Concept Erasure in Diffusion Models

提出Semantic Surgery,一种无需重训练的零样本推理时概念擦除框架,通过在扩散过程之前对文本嵌入进行校准向量减法,结合Co-Occurrence Encoding处理多概念擦除和视觉反馈环路解决潜在概念持久性问题,在物体/NSFW/风格/名人擦除任务上全面超越SOTA。

Shallow Diffuse: Robust and Invisible Watermarking through Low-Dimensional Subspaces in Diffusion Models

提出 Shallow Diffuse,一种利用扩散模型后验均值预测器(PMP)的局部线性性和 Jacobian 低秩性,在扩散过程中间时间步嵌入水印的方法,实现了水印与生成过程的解耦,首次在服务端和用户端两种场景下同时保证了高一致性和高鲁棒性。

Shortcutting Pre-trained Flow Matching Diffusion Models is Almost Free Lunch

提出SCFM(ShortCutting Flow Matching),一种超高效的后训练蒸馏方法,通过速度场自蒸馏将预训练flow matching模型(如12B参数的Flux)压缩为3步采样器,仅需不到1个A100-Day,无需步长嵌入或对抗蒸馏。

Show-o2: Improved Native Unified Multimodal Models

提出 Show-o2,一种基于自回归建模和 Flow Matching 的原生统一多模态模型,通过双路径空间(时间)融合在 3D 因果 VAE 空间中构建统一视觉表示,实现跨文本、图像、视频的多模态理解与生成,并设计两阶段训练策略有效保留语言知识。

SparseDiT: Token Sparsification for Efficient Diffusion Transformer

提出 SparseDiT,通过空间维度的三段式架构(底层 Poolingformer + 中层 Sparse-Dense Token Module + 顶层全密度处理)和时间维度的动态剪枝率策略,在 DiT-XL 512×512 上实现 55% FLOPs 减少和 175% 推理速度提升,FID 仅增加 0.09,并成功扩展到视频生成和文本到图像生成任务。

Split Gibbs Discrete Diffusion Posterior Sampling

提出 SGDD(Split Gibbs Discrete Diffusion),一种基于分裂 Gibbs 采样原理的即插即用离散扩散后验采样算法,通过引入辅助变量和基于 Hamming 距离的正则化势函数,将后验采样分解为似然采样步和先验采样步交替进行,在 DNA 序列设计、离散图像逆问题和音乐填充等任务上大幅超越基线。

SplitFlow: Flow Decomposition for Inversion-Free Text-to-Image Editing

提出 SplitFlow,将目标 prompt 语义分解为多个子 prompt,为每个子 prompt 计算独立的编辑流,再通过投影和自适应聚合机制组合成统一编辑轨迹,解决梯度纠缠问题,在无需反转的前提下实现更高保真度和可编辑性的文本引导图像编辑。

StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models

提出StableGuard,将全局二值水印嵌入LDM生成流程中(通过MPW-VAE),并利用水印扰动模式的变化实现篡改定位(通过MoE-GFN),首次实现端到端的版权保护与篡改检测统一框架。

State-Covering Trajectory Stitching for Diffusion Planners

提出 SCoTS(State-Covering Trajectory Stitching),一种无需奖励信号的轨迹增强框架,通过在时间距离保持的潜空间中迭代拼接短轨迹片段,系统性地扩展状态空间覆盖,显著提升扩散规划器在长时域、分布外任务上的泛化能力。

StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold

提出StelLA,通过将LoRA的适配矩阵分解为 \(USV^\top\) 三因子形式,并将 \(U\)\(V\) 约束在Stiefel流形上进行黎曼优化,实现训练过程中对低秩子空间的显式学习,在多个下游任务上一致超越现有LoRA变体。

System-Embedded Diffusion Bridge Models

提出System-embedded Diffusion Bridge Models(SDB),将已知的线性测量系统直接嵌入矩阵值SDE的系数中,实现了对值域空间去噪和零空间信息合成的分离控制,在多种逆问题上取得一致性提升并展现出强大的系统失配鲁棒性。

T2SMark: Balancing Robustness and Diversity in Noise-as-Watermark for Diffusion Models

提出 T2SMark,一种基于尾部截断采样(Tail-Truncated Sampling)的两阶段扩散模型水印方案,通过在高斯噪声的尾部区域嵌入水印比特、中心区域随机采样,首次在水印鲁棒性和生成多样性之间取得最优平衡。

Text-to-Image Models Leave Identifiable Signatures: Implications for Leaderboard Security

本文揭示文生图(T2I)模型因训练数据、架构和规模差异会在生成图像中留下可识别的"签名",攻击者即使不控制输入提示也能通过 CLIP 嵌入空间中的简单质心分类以 87% 的 Top-1 准确率去匿名化排行榜上的匿名模型,从而实施排名操纵攻击。

Text to Sketch Generation with Multi-Styles

提出M3S(Multi-Style Sketch Synthesis),一个无训练框架,通过线性平滑的K/V特征注入、联合AdaIN风格倾向控制和风格-内容分离引导,实现基于文本提示和参考风格草图的单/多风格草图生成。

ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

提出 ThermalGen,一种基于 Flow 的自适应生成模型,通过 RGB 图像条件化架构和风格解耦机制,首次实现了跨视角、跨传感器、跨环境条件的高保真 RGB-to-Thermal 图像翻译,并发布了三个新的大规模卫星-航拍 RGB-T 配对数据集。

TIDMAD: Time Series Dataset for Discovering Dark Matter with AI Denoising

发布 TIDMAD——首个面向暗物质搜索的超长时间序列去噪基准数据集,包含 ABRACADABRA 实验的训练/验证/科学数据、去噪评分指标和完整分析框架,使 AI 算法能直接产出物理学界标准的暗物质搜索结果。

Token Perturbation Guidance for Diffusion Models

提出 Token Perturbation Guidance(TPG),通过对扩散模型中间 token 表示进行保范数的 shuffling 扰动来构造负分数信号,实现无需训练的条件无关引导,在无条件生成中将 SDXL 的 FID 提升近 2 倍,在条件生成中接近 CFG 效果。

Tortoise and Hare Guidance: Accelerating Diffusion Model Inference with Multirate Integration

提出 Tortoise and Hare Guidance (THG),一种免训练的扩散采样加速策略,将 classifier-free guidance (CFG) ODE 重构为多速率 ODE 系统,噪声估计使用细粒度步长(乌龟方程),附加引导项使用粗粒度步长(兔子方程),减少最多 30% 的函数评估次数 (NFE) 而几乎不损失生成质量。

Toward a Unified Geometry Understanding: Riemannian Diffusion Framework for Graph Generation and Prediction

提出 GeoMancer 框架,通过黎曼 GyroKernel 自编码器替代数值不稳定的指数映射,将多层级图特征解耦到任务特定的积流形上,并引入流形约束扩散和自引导生成策略,在分子生成、节点分类和图回归等任务上统一建模并取得 SOTA 性能。

Towards a Golden Classifier-Free Guidance Path via Foresight Fixed Point Iterations

将条件引导统一为不动点迭代框架,发现CFG及其变体都是短区间单步迭代的特例,理论证明其次优性,进而提出前瞻引导(FSG)——在早期扩散阶段对更长区间执行多步迭代,以更少计算实现更好的对齐质量。

Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge

提出 LDDBM(Latent Denoising Diffusion Bridge Model),将去噪扩散桥模型扩展到共享潜空间中,结合对比对齐损失和预测损失,实现任意模态之间的通用翻译框架。

Towards Resilient Safety-Driven Unlearning for Diffusion Models Against Downstream Fine-tuning

提出ResAlign框架,通过Moreau包络近似和元学习策略,让扩散模型的安全卸载(unlearning)能抵抗下游微调带来的有害行为恢复,即使在纯良性数据上微调也能保持安全性。

Towards Robust Zero-Shot Reinforcement Learning

提出BREEZE框架,通过行为正则化、任务条件扩散策略和注意力增强表示建模,系统性解决FB-based零样本RL中的OOD外推误差和表达力不足问题,在ExORL和D4RL Kitchen上实现最优或接近最优的鲁棒零样本泛化性能。

Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling

提出TIRE(Track, Inpaint, REsplat)三阶段管线,通过视频跟踪定位未观测区域、主体驱动修复模型渐进式填充纹理、多视图一致性反投影回3D,实现身份保持的3D/4D生成。

Training-Free Constrained Generation with Stable Diffusion Models

提出一种无需重新训练的约束生成方法,通过在 Stable Diffusion 的反向去噪过程中嵌入近端 Langevin 动力学(Proximal Langevin Dynamics),将图像空间中的约束通过解码器反向传播到潜空间,实现对生成输出的严格约束满足。

Training-Free Safe Text Embedding Guidance for Text-to-Image Diffusion Models

提出 Safe Text embedding Guidance (STG),一种无需训练的安全文本到图像生成方法,通过在扩散采样过程中基于安全函数对预期去噪图像的评估来动态调整文本嵌入方向,在有效去除不安全内容的同时最大程度保留原始语义意图。

Transferable Black-Box One-Shot Forging of Watermarks via Image Preference Models

本文提出一种基于图像偏好模型的黑盒水印伪造方法,仅需单张水印图像即可通过反向传播从中提取水印并粘贴到任意新图像上,在不访问水印算法的条件下有效伪造多种后处理水印方案。

Tree-Guided Diffusion Planner

提出Tree-guided Diffusion Planner (TDP),将测试时扩散规划形式化为树搜索问题,通过双层采样(粒子引导生成多样父轨迹 + 快速条件去噪生成子轨迹)在探索与利用之间取得平衡,在非凸目标和不可微约束下显著超越现有方法。

Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising

通过揭示扩散策略中裁剪操作导致的分布失配本质,提出结合去噪调度优化与遗传算法群体选择的GDP方法,使现成DDPM扩散策略无需重训练即可在仅2步推理下达到甚至超越100步基线的操控性能。

UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

构建了包含 10 万张超高分辨率图像及丰富标注的 UltraHR-100K 数据集,并提出频率感知后训练方法(DOTS + SWFR),通过面向细节的时间步采样和基于 DFT 的软加权频率正则化来增强预训练 T2I 模型的超高分辨率细节生成能力。

Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

通过系统分析自回归图像生成中阻碍视觉语义学习的三个关键属性(局部条件依赖、步间语义不一致、空间不变性缺失),提出 ST-AR 训练框架,将掩码图像建模和对比学习融入 next-token prediction 训练,在不依赖预训练表示模型的情况下,使 LlamaGen-XL 的 FID 提升约 49%(从 19.42 降到 9.81),50 epoch 即接近 3B 参数模型 300 epoch 的效果。

Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Models

在低秩高斯混合(MoLRG)数据模型下,理论证明了扩散模型表示质量随噪声水平呈单峰动态的现象源于去噪强度与类别区分度的权衡,并实证发现单峰动态的出现可作为模型泛化能力的可靠指标。

UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback

提出UniLumos,一个统一的图像和视频重光照框架,通过在flow matching骨干中引入RGB空间的深度和法线几何反馈来增强物理合理性,同时借助路径一致性学习实现20倍加速。

Unleashing Diffusion Transformers for Visual Correspondence by Modulating Massive Activations

发现 Diffusion Transformers (DiTs) 中存在 massive activations 现象导致特征不可区分,揭示其与 AdaLN 的内在联系,提出无需训练的 DiTF 框架来提取语义判别性特征,在视觉对应任务上超越 DINO 和 SD 模型。

UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation

提出以任务效用为中心的生成式数据增强框架 UtilGen,通过元学习权重网络评估合成数据的下游任务效用,并利用模型级 DPO 和实例级(prompt+noise)双层优化策略,自适应生成高效用的合成训练数据,在8个基准上平均提升3.87%。

V-CECE: Visual Counterfactual Explanations via Conceptual Edits

V-CECE提出首个系统性揭示人类与神经网络分类器语义理解差异(explanatory gap)的黑盒视觉反事实解释框架,通过WordNet知识图谱+匈牙利算法保证编辑集最优性,用Stable Diffusion执行概念级编辑,核心发现是CNN分类器的语义推理与人类严重不对齐(需5+步编辑),而LVLM(Claude 3.5 Sonnet)与人类高度一致(仅需2-3步)。

Value Gradient Guidance for Flow Matching Alignment

提出VGG-Flow方法,利用最优控制理论中的Hamilton-Jacobi-Bellman方程,将流匹配模型对齐问题转化为"残差速度场匹配值函数梯度"的梯度匹配任务,实现高效且保持先验分布的奖励对齐。

Vicinity-Guided Discriminative Latent Diffusion for Privacy-Preserving Domain Adaptation

提出 Discriminative Vicinity Diffusion (DVD),首次将潜扩散模型用于判别式知识迁移,通过在源域特征的近邻潜空间中训练扩散模型生成源样式线索,实现无需源数据访问的域适应,在标准 SFDA 基准上超越 SOTA。

Watermarking Autoregressive Image Generation

首次将 LLM 水印技术(KGW green/red scheme)适配到自回归图像生成模型的 token 层,识别并解决了关键挑战——反向循环一致性(RCC)不足,通过 tokenizer-detokenizer 微调和水印同步层实现了鲁棒的、具有理论保证的图像水印检测。

What We Don't C: Manifold Disentanglement for Structured Discovery

提出 WWDC(What We Don't C)方法,利用条件引导的潜在流匹配从已有 VAE 表征中去除已知信息,使未知特征在残余流形中更易被发现和访问,实现迭代式科学发现。

When Are Concepts Erased From Diffusion Models?

本文提出了两种概念擦除的机制模型(引导式回避 vs. 破坏式移除),并设计了涵盖优化搜索、上下文探测、噪声轨迹探测、分类器引导和动态追踪的五种独立探测方法,系统性地揭示了现有擦除方法大多只是"绕开"概念而非真正"消除"知识。

Where and How to Perturb: On the Design of Perturbation Guidance in Diffusion and Flow Models

提出 HeadHunter 框架和 SoftPAG 方法,将扩散模型中的注意力扰动粒度从层级细化到单个注意力头级别,首次发现不同注意力头控制不同视觉概念(结构、风格、纹理等),实现了更精准且可组合的生成引导。

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training

通过数值实验和理论分析揭示扩散模型训练中存在两个关键时间尺度——泛化时间 \(\tau_{\text{gen}}\) 和记忆化时间 \(\tau_{\text{mem}}\),后者随训练集大小 \(n\) 线性增长而前者保持恒定,由此产生的隐式动力学正则化使模型即使在高度过参数化情况下也能通过早停避免记忆化。

Why Diffusion Models Don't Memorize: The Role of Implicit Regularization

本文从数值实验和理论分析两个层面揭示扩散模型训练中存在隐式动态正则化机制:生成高质量样本的时间尺度 τ_gen 与出现记忆化的时间尺度 τ_mem 之间的间隔随训练集大小 n 线性增长,为"早停"提供了理论支撑。

Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation

通过高斯混合模型的理论分析和大规模语言模型实验(SmolLM2 系列多级蒸馏),揭示知识蒸馏在生成模型中的核心机制——蒸馏诱导学生模型在精度(precision,生成质量)和召回(recall,分布覆盖度)之间进行权衡,由教师分布的熵控制。

WMCopier: Forging Invisible Image Watermarks on Arbitrary Images

提出 WMCopier,首个基于扩散模型的 no-box 水印伪造攻击方法,无需任何目标水印算法的先验知识,通过训练无条件扩散模型学习水印分布、浅层反演注入水印信号、迭代精炼优化质量,在开源和商业水印系统(包括 Amazon)上实现高成功率伪造。