跳转至

🎨 图像生成

🔬 ICLR2026 · 154 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (11) · 📷 CVPR2026 (240) · 🤖 AAAI2026 (78) · 🧠 NeurIPS2025 (250) · 📹 ICCV2025 (219) · 🧪 ICML2025 (115)

🔥 高频主题: 扩散模型 ×48 · 文生图 ×11 · 对抗鲁棒 ×7 · 对齐/RLHF ×7 · 布局/合成 ×6

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

对扩散 Transformer 的条件嵌入进行首次系统分析,发现极端的角度相似性(类间余弦相似度>99%)和维度稀疏性(仅 1-2% 的维度携带语义信息),裁剪掉 2/3 的低幅维度后生成质量基本不变,揭示了条件嵌入中隐藏的语义瓶颈。

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

提出 AlignTok,将预训练视觉基础编码器(如 DINOv2)对齐为扩散模型的连续 tokenizer,通过三阶段对齐策略(语义潜空间建立→感知细节补充→解码器精炼)构建语义丰富的潜空间,在 ImageNet 256×256 上 64 epochs 即达 gFID 1.90,比从头训练 VAE 收敛更快、生成质量更好。

Amortising Inference and Meta-Learning Priors in Neural Networks (BNNP)

提出 BNNP(Bayesian Neural Network Process),一种将 BNN 权重作为隐变量、BNN 本身作为解码器的 neural process,通过逐层 amortised variational inference 在多数据集上联合学习 BNN 先验和推断网络,首次回答了"在良好先验下,近似推断方法还重要吗?"——答案是肯定的,没有免费午餐。

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

AsynDM 通过为不同像素分配不同的时间步调度(prompt 相关区域去噪更慢),使其能利用更清晰的上下文参考,从而在不需要微调的情况下显著提升文图生成的语义对齐。

Autoregressive Image Generation with Randomized Parallel Decoding

本文提出 ARPG,一种基于"引导解码"框架的视觉自回归模型,通过将位置引导(query)与内容表示(key-value)解耦,实现了完全随机顺序的训练与生成,并支持高效并行解码——在ImageNet-1K 256×256上以64步达到1.94 FID,吞吐量提升20倍以上,内存消耗降低75%以上。

Beyond Confidence: The Rhythms of Reasoning in Generative Models

提出 Token Constraint Bound (\(\delta_{\text{TCB}}\)) 指标,通过量化 LLM 隐状态在多大扰动范围内能保持 next-token 预测不变,来度量预测的局部鲁棒性,揭示了传统 perplexity 无法捕捉的预测不稳定性。

Blueprint-Bench: Comparing Spatial Intelligence of LLMs, Agents and Image Models

Blueprint-Bench 通过"从公寓室内照片生成 2D 平面图"的任务评测 AI 的空间推理能力:输入(照片)完全在训练分布内但任务(空间重建)在分布外。评测 GPT-5、Claude 4 Opus、Gemini 2.5 Pro、Grok-4 等 LLM,GPT-Image、NanoBanana 等图像生成模型,以及 Codex CLI、Claude Code 等 Agent 系统,结果显示绝大多数模型表现接近或低于随机基线,揭示当前 AI 在空间智能上的系统性盲区。

Branched Schrödinger Bridge Matching

提出 BranchSBM 框架,通过参数化多个时间依赖的速度场和增长过程,将 Schrödinger Bridge Matching 扩展到分支场景,能够建模从单一初始分布到多个目标分布的分叉动态轨迹,在 LiDAR 表面导航和单细胞扰动建模等任务上显著优于单分支方法。

Bridging Degradation Discrimination and Generation for Universal Image Restoration

BDG 通过多角度多尺度灰度共生矩阵(MAS-GLCM)进行细粒度退化判别,并设计三阶段扩散训练(生成→桥接→修复)将退化判别能力与生成先验无缝融合,在 all-in-one 修复和真实世界超分辨率任务上取得显著的保真度提升。

Bridging Generalization Gap of Heterogeneous Federated Clients Using Generative Models

FedVTC 提出在模型异构联邦学习中,各客户端通过变分转置卷积网络(VTC)从聚合的特征分布统计量中生成合成数据来微调本地模型,无需公共数据集即可显著提升泛化能力,同时降低通信和内存开销。

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

提出 Consistency Mid-Training (CMT),在预训练扩散模型和 flow map 后训练之间插入一个轻量级中间训练阶段,通过让模型学习将 ODE 轨迹上的任意点映射回干净样本来获得轨迹对齐的初始化,从而大幅降低训练成本(最多 98%)并达到 SOTA 两步生成质量。

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

提出 General Policy Composition (GPC),在测试时通过凸组合多个预训练扩散/Flow 策略的分布分数(score),无需额外训练即可产生超越任何单一父策略的更强策略,理论证明凸组合可改善单步分数误差且通过 Grönwall 界传播到全程轨迹。

Compositional amortized inference for large-scale hierarchical Bayesian models

将组合分数匹配(CSM)扩展到层次贝叶斯模型,通过新的误差衰减估计器和 mini-batch 策略解决大量数据组下的数值不稳定问题,首次实现超过 75 万参数(25 万+ 数据组)的大规模层次模型的摊销推断,并在荧光寿命成像的真实科学应用中验证有效性。

Concept-TRAK: Understanding how diffusion models learn concepts through concept-level attribution

提出 Concept-TRAK,通过设计概念特异的训练损失(DPS reward)和效用损失(CFG guidance),将影响函数从全图归因扩展到概念级归因,在合成、CelebA-HQ 和 AbC benchmark 上大幅超越 TRAK/D-TRAK/DAS 等方法,特别是在 OOD 组合新概念场景下优势显著。

Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss

理论分析了自回归扩散损失模型相比条件扩散模型在条件误差修正上的优势(梯度范数指数衰减),并提出基于最优传输(Wasserstein Gradient Flow)的条件精炼方法来解决自回归过程中的"条件不一致性"问题,在 ImageNet 上达到 FID 1.31(基于 MAR)。

Conditionally Whitened Generative Models for Probabilistic Time Series Forecasting

提出 CW-Gen(条件白化生成模型),通过联合估计条件均值和滑动窗口协方差矩阵来替代扩散模型/流匹配中的标准高斯终端分布,理论证明了当估计器满足充分条件时采样质量必然提升,在 5 个数据集 × 6 个生成模型上一致改善多变量时间序列概率预测性能。

Conjuring Semantic Similarity

提出一种基于视觉想象的文本语义相似度度量——通过计算文本条件扩散模型在两个文本提示下诱导的反向 SDE 之间的 Jeffreys 散度来衡量语义距离,可用 Monte-Carlo 采样直接计算,首次量化了扩散模型学到的语义空间与人类标注的对齐程度。

Consistent Text-to-Image Generation via Scene De-Contextualization

揭示 T2I 模型中 ID 偏移的根本原因是"场景上下文化"(scene contextualization,场景 token 对 ID token 注入上下文信息),并提出 training-free 的 Scene De-Contextualization (SDeC) 方法,通过 SVD 特征值的方向稳定性分析识别并抑制 prompt embedding 中潜在的场景-ID 关联,实现逐场景的身份一致性生成。

Contact-Guided 3D Genome Structure Generation of E. coli via Diffusion Transformers

提出 DiffBacChrom——基于条件扩散 Transformer (CrossDiT) 从 Hi-C 接触图谱生成大肠杆菌三维基因组构象集合,通过 ResNet VAE 保持逐 bin 对齐的潜空间编码、Transformer 编码器 + 交叉注意力注入 Hi-C 条件、flow-matching 训练,生成的集合在距离衰减 P(s) 和 SCC 指标上与输入 Hi-C 高度一致,同时保持构象多样性。

Contact Wasserstein Geodesics for Non-Conservative Schrödinger Bridges

提出非守恒广义 Schrödinger 桥 (NCGSB)——基于接触哈密顿力学允许能量随时间变化,通过 Contact Wasserstein Geodesic (CWG) 将桥问题转化为有限维 Jacobi 度量上的测地线计算,用 ResNet 参数化实现近线性复杂度且支持引导生成,在流形导航、分子动力学、图像生成等任务上大幅超越迭代式 SB 求解器。

ContextBench: Modifying Contexts for Targeted Latent Activation

提出 ContextBench 基准(715 个任务)评估自动生成流畅且能激活特定潜在特征的输入文本的方法,并开发两种 EPO 增强变体(LLM辅助和扩散模型修补),在激活强度和语言流畅度的权衡上 Pareto 优于标准 EPO。

Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

首次系统研究 T2I 扩散模型的持续遗忘(continual unlearning)问题,发现现有遗忘方法在序列请求下因累积参数漂移导致"效用崩溃",提出一组附加正则化策略(L1/L2 范数、选择性微调、模型合并)和语义感知的梯度投影方法来缓解该问题。

Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations

提出 Contractive Diffusion Policies (CDPs),通过在扩散采样 ODE 中引入收缩正则化来抑制 score 匹配误差和求解器误差的累积,以最小修改和单一超参数 \(\gamma\) 提升离线学习中扩散策略的鲁棒性。

COSMO-INR: Complex Sinusoidal Modulation for Implicit Neural Representations

通过谐波失真分析与 Chebyshev 多项式逼近,严格证明了奇/偶对称激活函数在后激活频谱中存在系统性衰减,提出用复正弦项 \(e^{j\zeta x}\) 调制激活函数来保留完整频谱支持,并设计 COSMO-RC 激活函数与正则化先验嵌入器架构,在 Kodak 图像重建上 PSNR 平均领先最强基线 +5.67 dB,NeRF 上领先 +3.45 dB。

CREPE: Controlling Diffusion with Replica Exchange

提出 CREPE,一种基于 Replica Exchange(并行回火/Parallel Tempering)的扩散模型推理时控制方法,作为 SMC 的计算对偶——在去噪步维度上并行、在样本维度上串行生成,具有高样本多样性、可在线精炼、支持温度退火/奖励倾斜/模型组合/CFG 去偏等多种任务。

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

解决 Flow Matching + GRPO 对齐中的稀疏奖励问题:通过 ODE 去噪预测中间潜变量的 step-wise 奖励增益作为密集奖励,并根据密集奖励自适应调整 SDE 采样器的逐时间步噪声注入来校准探索空间,在人类偏好对齐/组合生成/文字渲染三个任务上超越 Flow-GRPO。

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

本文证明基于范数的记忆检测指标仅在各向同性(isotropic)对数概率分布下有效,在低噪声各向异性(anisotropic)区域失效;提出结合高噪声范数和低噪声角度对齐(cosine similarity)的无去噪检测指标,在 SD v1.4/v2.0 上超越现有无去噪方法且快 5× 以上。

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

提出 DiffInk,首个面向全行手写生成的潜在扩散 Transformer 框架,包含 InkVAE(通过 OCR + 风格分类双正则化学习结构化潜空间)和 InkDiT(在潜空间中做条件去噪生成),在中文手写生成上大幅超越 SOTA(AR 94.38% vs 91.48%),速度提升 800×。

Diffusion Alignment as Variational Expectation-Maximization

将扩散模型对齐形式化为变分 EM 算法:E-step 用 test-time search(soft Q 引导 + 重要性采样)探索高奖励多模态轨迹,M-step 通过 forward-KL 蒸馏将搜索结果写入模型参数,在图像生成和 DNA 序列设计上同时实现高奖励和高多样性。

Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models

提出 Diffusion Blend,通过在推理时混合多个奖励微调模型的反向扩散过程来实现多偏好对齐:DB-MPA 支持任意奖励线性组合、DB-KLA 支持动态 KL 正则化控制、DB-MPA-LS 通过随机 LoRA 采样消除推理开销,理论上证明了混合近似的误差界并在实验中接近 MORL oracle 上界。

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

提出 SQDF(Soft Q-based Diffusion Finetuning),通过无需训练的可微软 Q 函数估计和重参数化策略梯度,在 KL 正则化 RL 框架下微调扩散模型,配合折扣因子、一致性模型和离策略回放缓冲三个创新组件,在优化目标奖励的同时有效缓解奖励过优化问题,保持样本的自然性和多样性。

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

提出 DiffusionNFT,一种全新的扩散模型在线 RL 范式:不在反向采样过程上做策略优化(如 GRPO),而是在前向过程上通过 flow matching 目标对正样本和负样本做对比式训练,定义隐式的策略改进方向,比 FlowGRPO 快 3-25×,且无需 CFG。

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

提出 DrPose,通过直接奖励微调最大化 PoseScore(多视角潜变量图像与 GT 3D 姿态的骨骼一致性)+ KL 正则化防止 reward hacking,结合 DrPose15K 数据集(从 Motion-X 运动数据集采样 15K 多样姿态 + MIMO 视频生成器合成单视角图像),使多视角扩散模型在动态/杂技等困难姿态场景下的 3D 人体重建质量显著提升。

Directional Textual Inversion for Personalized Text-to-Image Generation

本文发现 Textual Inversion (TI) 学到的 token embedding 存在范数膨胀(norm inflation)问题,导致复杂 prompt 的文本对齐下降;提出 Directional Textual Inversion (DTI),将 embedding 范数固定在分布内尺度、仅在单位超球面上用 Riemannian SGD 优化方向,结合 von Mises-Fisher 先验,显著提升 prompt 忠实度。

Discrete Adjoint Matching

提出 Discrete Adjoint Matching(DAM),从纯统计学视角(而非控制论)推导出离散状态空间上的伴随变量,将连续域的 Adjoint Matching 推广到基于连续时间马尔可夫链(CTMC)的离散生成模型,实现了对扩散式 LLM(LLaDA-8B)的有效微调,在 Sudoku 上将准确率从 11.5% 提升至 89.2%。

DistillKac: Few-Step Image Generation via Damped Wave Equations

用阻尼波方程(telegrapher equation)及其随机 Kac 表示替代 Fokker-Planck 方程作为生成模型的概率流基础,实现有限速度传播的概率流,并提出端点蒸馏(endpoint distillation)方法实现少步生成,在 CIFAR-10 上 4 步 FID=4.14、1 步 FID=5.66。

Diverse Text-to-Image Generation via Contrastive Noise Optimization

提出 Contrastive Noise Optimization (CNO),通过在 Tweedie 去噪预测空间上对初始噪声施加 InfoNCE 对比损失,以预处理方式提升扩散模型生成多样性,同时保持保真度,无需修改采样过程或模型本身。

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

提出 SHINE,一个无需训练的图像合成框架,通过 Manifold-Steered Anchor Loss、Degradation-Suppression Guidance 和 Adaptive Background Blending 三个组件,利用预训练 T2I 模型(如 FLUX)内在的物理先验,实现在复杂光照条件下(阴影、水面反射等)的高质量物体插入。

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

通过严格的 prompt 级别配对统计检验,发现将图像领域的 semantic noise initialization(golden noise)迁移到视频扩散模型后,temporal 指标呈微弱正向趋势但统计不显著(p≈0.17),噪声空间诊断揭示了方向稳定性不足和时空频率结构差异是根因。

DoFlow: Flow-based Generative Models for Interventional and Counterfactual Forecasting

提出DoFlow,一种基于连续正则化流(CNF)的因果生成模型,在因果DAG上统一实现观测、干预和反事实时间序列预测,并可通过显式似然进行异常检测,在合成和真实医疗数据上验证了有效性。

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

首个将 FLUX (DiT) 的强生成先验引入拖拽编辑的框架,通过区域级仿射监督替代传统点级监督,配合梯度掩码硬约束和 adapter 增强反演,大幅提升拖拽编辑质量。

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

指出当前统一多模态模型中理解模块仅作翻译器而生成模块被迫同时充当"设计师"和"画家"的职责失衡问题,通过构建 DIM 数据集(14M 长上下文文图对 + 233K CoT 编辑蓝图)将设计责任转移给理解模块,4.6B 参数即超越 5 倍大的模型。

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

提出 Dual-Solver,通过三组可学习参数(预测类型插值 \(\gamma\)、积分域选择 \(\tau\)、残差调整 \(\kappa\))泛化扩散模型多步采样器,用冻结预训练分类器(MobileNet/CLIP)的分类损失学习参数(无需教师轨迹),在 3-9 NFE 低步区间全面优于 DPM-Solver++ 等方法。

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

提出 T2I-CoReBench,首个同时系统评估 T2I 模型组合能力(Composition)和推理能力(Reasoning)的综合性基准,涵盖 12 个评估维度、1080 条高难度 prompt 和约 13500 个 checklist 问题,通过对 38 个模型的大规模评测揭示:推理能力远远落后于组合能力,是当前 T2I 生成的核心瓶颈。

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

构建了一个包含 200K 人工标注偏好对的高质量数据集 EditReward-Data,训练出 EditReward 奖励模型,在多个图像编辑评估基准上达到 SOTA 的人类对齐度,并验证其作为数据筛选器可显著提升下游编辑模型性能。

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

提出首个系统性的"基准评测→奖励模型→强化学习训练"图像编辑 RL 管线:构建 EditReward-Bench 基准,训练 EditScore 系列奖励模型(7B-72B,超过 GPT-5),并成功将其用于 Online RL 训练显著提升编辑模型性能。

Efficient Adversarial Attacks on High-dimensional Offline Bandits

揭示了离线多臂老虎机(MAB)评估框架的安全漏洞:攻击者只需对公开的奖励模型权重进行极小的不可感知扰动,就能完全劫持 bandit 的决策行为,且所需扰动范数随输入维度增加而降低(\(\widetilde{\mathcal{O}}(d^{-1/2})\)),使基于图像的生成模型评估特别脆弱。

Eliminating VAE for Fast and High-Resolution Generative Detail Restoration

通过用 ×8 pixel-(un)shuffle 替代 VAE 的编码器和解码器,将潜空间扩散超分(GenDR)逆转为像素空间超分(GenDR-Pix),结合多阶段对抗蒸馏和 PadCFG 推理策略,实现 2.8× 加速和 60% 显存节省,同时保持可忽略的视觉退化,首次实现 1 秒内 4K 图像恢复仅需 6GB 显存。

Embracing Discrete Search: A Reasonable Approach to Causal Structure Learning

提出 FLOP(Fast Learning of Order and Parents),一个面向线性模型的基于得分的因果发现算法,通过快速父节点选择与迭代 Cholesky 得分更新大幅降低运行时间,使得迭代局部搜索(ILS)变得可行,在标准因果发现基准上实现近乎完美的图恢复,重新确立离散搜索在因果发现中的合理地位。

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

提出 ERK-Guid,利用嵌入式 Runge-Kutta 求解器的阶差误差作为 guidance 信号,在刚性区域自适应纠正局部截断误差(LTE),无需额外网络评估即可提升扩散模型采样质量。

Event-T2M: Event-level Conditioning for Complex Text-to-Motion Synthesis

提出 Event-T2M 框架,将文本提示分解为事件级别的原子动作,结合 TMR 编码器和事件级交叉注意力(ECA)模块注入 Conformer 扩散模型,显著提升多事件复杂动作生成的质量和语义对齐。

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

提出 SpatialGenEval 基准,通过 1,230 条长且信息密集的提示覆盖 10 个空间子领域,系统评估 23 个 SOTA T2I 模型的空间智能,揭示空间推理是主要瓶颈;同时构建 SpatialT2I 数据集实现数据中心的空间智能提升。

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

提出 ECAD(Evolutionary Caching to Accelerate Diffusion models),利用遗传算法在速度-质量 Pareto 前沿上自动搜索最优缓存调度策略,无需修改模型参数,仅用 100 条校准提示即可实现扩散模型 2-3 倍推理加速并保持甚至提升生成质量。

Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search

提出 Bias-Guided Prompt Search (BGPS),通过结合 LLM 解码引导和扩散模型中间层属性分类器,自动发现可解释的、能最大化暴露 T2I 模型隐藏社会偏见的文本提示,即使对已去偏的模型也能揭示残留偏见。

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

首个系统性研究结构化图像(图表、数学公式、示意图等)生成与编辑的工作,构建了130万对代码对齐的训练数据集(含 CoT 推理标注)、统一的 VLM+扩散模型架构以及包含1700+样本的 StructBench 基准评测,揭示了推理能力是当前模型处理结构化视觉内容的关键瓶颈。

SSCP: Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning

提出 Single-Step Completion Policy (SSCP),通过在流匹配框架中预测"完成向量"(从任意中间状态到目标动作的归一化方向),将多步生成策略压缩为单步推理,在 D4RL 上与多步扩散/流策略持平但训练快 64×、推理快 4.7×,并扩展到 GCRL 中将层级策略扁平化。

Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation

提出两阶段训练框架Flow2GAN,先用改进的Flow Matching学习生成能力,再用GAN微调实现少步(1/2/4步)高保真音频生成,结合多分辨率网络架构处理不同时频分辨率的傅里叶系数。

Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

通过在流匹配训练中注入可控噪声扩大策略覆盖范围,并结合熵引导的采样机制在在线微调时动态平衡探索与利用,在有限交互预算下显著提升离线到在线RL的样本效率。

FlowCast: Advancing Precipitation Nowcasting with Conditional Flow Matching

首次将条件流匹配(CFM)作为端到端概率生成模型应用于降水临近预报,在压缩潜空间中学习噪声到数据的直接映射,以更少的采样步数超越扩散模型的预测精度和概率性能。

FlowCast: Trajectory Forecasting for Scalable Zero-Cost Speculative Flow Matching

提出FlowCast框架,将投机解码思想引入Flow Matching模型,利用速度场的局部平滑性将当前速度预测作为零成本draft外推未来状态,通过MSE验证选择性跳过冗余步骤,实现>2.5×加速且无质量损失。

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

提出 Follow-Your-Shape,一个无需训练和掩码的形状感知编辑框架,通过计算反演与编辑轨迹间的 token 级速度差异构建 Trajectory Divergence Map (TDM) 来精确定位编辑区域,配合分阶段 KV 注入实现大幅形状变换且严格保持背景。

Free Lunch for Stabilizing Rectified Flow Inversion

提出PMI(Proximal-Mean Inversion)和mimic-CFG两个无训练方法,通过将速度场向其历史均值做近端梯度校正来稳定Rectified Flow反演,在PIE-Bench上以更少的NFE达到SOTA的重建和编辑质量。

From Parameters to Behaviors: Unsupervised Compression of the Policy Space

基于流形假设提出策略空间的无监督压缩——用行为重建损失(而非参数重建损失)训练自编码器将高维策略参数空间 \(\Theta \subseteq \mathbb{R}^P\) 压缩到低维潜在行为空间 \(\mathcal{Z} \subseteq \mathbb{R}^k\)(最高 121801:1 压缩比),在 Mountain Car、Reacher、Hopper、HalfCheetah 等环境上验证了行为流形的内在维度取决于环境复杂度而非网络大小,且在潜在空间中做 PGPE 优化可在 7/8 个任务上比 PPO、SAC 等 SOTA 收敛更快。

From Prediction to Perfection: Introducing Refinement to Autoregressive Image Generation

提出 TensorAR,将标准 AR 图像生成从 next-token prediction 升级为 next-tensor prediction:每步预测重叠 tensor(一组连续 token),后续 tensor 与前序重叠实现迭代精修;引入离散扩散噪声机制解决训练信息泄漏问题,作为即插即用模块兼容 LlamaGen / Open-MAGVIT2 / Janus-Pro 等 AR 模型,在 class-to-image 和 text-to-image 任务上持续提升生成质量。

GenCP: Towards Generative Modeling Paradigm of Coupled Physics

提出 GenCP,将耦合多物理场仿真建模为概率密度演化问题,利用 flow matching 从解耦数据学习条件速度场,推理时通过 Lie-Trotter 算子分裂合成耦合解,实现"解耦训练、耦合推理",并提供理论误差可控保证。

GenDR: Lighten Generative Detail Restoration

提出GenDR——面向生成式细节复原的轻量单步扩散超分模型:识别T2I和SR任务目标的根本分歧(T2I需多步+4通道 vs SR需少步+16通道)→构建定制SD2.1-VAE16基础模型(0.9B,通过REPA表示对齐扩展潜在空间而不增加模型规模)→提出CiD/CiDA一致性分数恒等蒸馏(将SR特定先验融入score distillation + 对抗学习 + 表示对齐)→极简pipeline仅含UNet+VAE→77ms推理在所有质量和效率指标上超越现有SOTA。

Generalization of Diffusion Models Arises with a Balanced Representation Space

本文是扩散模型泛化理论领域的重要突破。通过分析两层非线性 ReLU DAE 的最优解,统一刻画了记忆化和泛化两种行为模式,并创造性地从表征空间的角度提供了一个以表征为中心的泛化理解。理论结论在 EDM、DiT 和 Stable Diffusion v1.4 上获得了一致的实验验证,且催生了两个实用应用:记忆化检测和可控编辑。理论的深度与实用性兼备。

Generate Any Scene: Scene Graph Driven Data Synthesis for Visual Generation Training

提出 Generate Any Scene 数据引擎,基于 28K 物体×1.5K 属性×10K 关系的视觉元素分类法系统枚举场景图并转化为标题+VQA 对,支持四种应用:自我改进(SD1.5 +4%)、定向蒸馏(<800 条数据 TIFA +10%)、场景图奖励模型(DPG-Bench +5% vs CLIP)和内容审核增强。

Generating Directed Graphs with Dual Attention and Asymmetric Encoding

提出 Directo,首个基于离散流匹配(Discrete Flow Matching)的有向图生成模型,通过方向感知的双注意力机制和非对称位置编码捕获有向边的方向依赖,同时建立了有向图生成的标准化评测体系。

GeoDiv: Framework for Measuring Geographical Diversity in Text-to-Image Models

提出 GeoDiv 框架,利用 LLM 和 VLM 的世界知识,从社会经济视觉指数(SEVI)和视觉多样性指数(VDI)两个维度系统评估 T2I 模型的地理多样性,揭示了模型对印度、尼日利亚等国家存在系统性贫困化偏见。

GGBall: Graph Generative Model on Poincaré Ball

提出 GGBall,首个完全基于 Poincaré 球模型的图生成框架,通过双曲向量量化自编码器(HVQVAE)和黎曼流匹配先验,在层次图和分子图生成上达到 SOTA,在层次图数据集上平均生成误差降低 18%。

GLASS Flows: Efficient Inference for Reward Alignment of Flow and Diffusion Models

提出 GLASS (Gaussian Latent Sufficient Statistic) Flows——一种"流模型中的流模型"新采样范式,通过高斯充分统计量重参数化将随机马尔可夫转移 \(p_{t'|t}(x_{t'} | x_t)\) 重铸为内部 ODE 求解问题(复用预训练去噪器,无需重训),在无需权衡 ODE 效率和 SDE 随机性的条件下实现 Feynman-Kac Steering,在 FLUX 文生图模型上一致超越 Best-of-N ODE 基线,刷新推理时奖励对齐 SOTA。

Hierarchical Entity-centric Reinforcement Learning with Factored Subgoal Diffusion

提出HECRL,一个层次化实体中心离线目标条件RL框架,结合基于价值的GCRL智能体和因子化子目标扩散模型,在多实体长时域任务中实现150%+的成功率提升。

HierLoc: Hyperbolic Entity Embeddings for Hierarchical Visual Geolocation

提出HierLoc,将地理定位重新建模为双曲空间中的图像-实体对齐问题,用24万个地理实体嵌入替代500万+图像嵌入,在OSV5M上降低19.5%平均测地误差并将子区域准确率提升43%。

HOG-Diff: Higher-Order Guided Diffusion for Graph Generation

本文提出 HOG-Diff,一个利用高阶拓扑结构(如环、三角形、motif)作为生成引导的图扩散框架,通过胞复形过滤(CCF)提取高阶骨架并结合广义 OU 扩散桥实现"由粗到细"的渐进式图生成,在分子和通用图生成的 8 个基准上取得了 SOTA 性能。

Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

Recall 提出首个多模态引导的攻击框架,通过在隐空间中优化对抗图像 prompt(仅需一张参考图像),配合原始文本 prompt 利用扩散模型的 image-conditioning 通道,在 10 种 SOTA 遗忘方法上平均 ASR 达 65%~97%,显著超越纯文本攻击方法,揭示当前遗忘机制对图像模态攻击的脆弱性。

Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment (CODA)

提出 CODA 框架,通过引入 register slots 吸收残余注意力、微调交叉注意力投影以及对比对齐损失,解决基于扩散模型的物体中心学习中的 slot 纠缠和弱对齐问题,在合成和真实数据集上显著提升物体发现和组合式生成质量。

Improving Discrete Diffusion Unmasking Policies Beyond Explicit Reference Policies (UPO)

提出 Unmasking Policy Optimization(UPO),将 Masked Diffusion Model 的去噪过程建模为 KL 正则化 MDP,通过强化学习训练轻量级的 unmasking 策略模型来替代 max-confidence 等启发式调度器,在理论和实验上均证明学习到的策略能生成更接近真实数据分布的样本。

Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models

首次系统性地对比 Visual Autoregressive (VAR) 模型和扩散模型在组合文本-图像对齐上的表现,在 T2I-CompBench++ 和 GenEval 两个基准上评测 6 个 T2I 模型,发现 Infinity-8B 在几乎所有组合维度上取得最强表现,VAR 架构在组合生成方面展现出显著优势。

Intention-Conditioned Flow Occupancy Models

提出 InFOM,利用流匹配(flow matching)构建意图条件化的占据模型(occupancy model),通过变分推断推理数据中的潜在意图,实现无标注数据上的 RL 预训练,在 36 个状态任务和 4 个视觉任务上取得 1.8× 中位回报提升和 36% 成功率提升。

JointDiff: Bridging Continuous and Discrete in Multi-Agent Trajectory Generation

提出 JointDiff,一个联合连续-离散扩散框架,首次将高斯扩散(用于轨迹)和多项式扩散(用于控球事件)统一建模,同时引入 CrossGuid 模块支持弱控球引导和文本引导的语义可控生成,在体育多智能体轨迹生成上达到 SOTA。

Laplacian Multi-scale Flow Matching for Generative Modeling

提出 LapFlow,将图像分解为拉普拉斯金字塔残差,通过混合 Transformer(MoT)架构和因果注意力并行建模不同尺度,在减少计算量的同时提升生成质量。

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

提出 rCM(score-regularized continuous-time consistency model),首次将连续时间一致性蒸馏扩展到 14B 参数的文生图/视频模型,通过结合前向散度(一致性)和反向散度(score蒸馏),在保持多样性的同时匹配 DMD2 的质量,实现 15-50× 加速。

Latent Diffusion Model without Variational Autoencoder

提出 SVG,用冻结的 DINOv3 自监督特征替代 VAE 潜在空间构建扩散模型,通过轻量残差编码器补充细粒度细节,实现更快训练、更高效推理和跨任务通用的视觉表征。

Learning a Distance Measure from the Information-Estimation Geometry of Data

提出 Information-Estimation Metric (IEM),一种由数据概率密度几何诱导的新型距离函数,通过比较不同噪声水平下的 score 向量场来度量信号间距离,无监督训练的 IEM 在预测人类感知判断上可媲美有监督方法。

LLM2Fx-Tools: Tool Calling for Music Post-Production

提出 LLM2Fx-Tools,首个将 LLM 工具调用应用于音效模块的框架,通过多模态 LLM 理解音频输入,利用 CoT 推理选择音效类型、确定顺序并估计参数,实现可解释和可控的音乐后期制作。

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

提出 Locality-aware Parallel Decoding (LPD),通过灵活并行化自回归建模架构和局部性感知的生成顺序调度,将 256×256 图像的生成步数从 256 降至 20,实现至少 3.4× 的延迟降低。

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

HiRM 提出"更新位置与擦除目标解耦"的概念擦除策略——仅更新 CLIP 文本编码器第一层的权重,但将擦除监督施加在最后一层的高层语义表征上,通过引导目标概念表征偏向随机方向(HiRM-R)或语义方向(HiRM-S),在 UnlearnCanvas 和 NSFW 基准上实现风格/物体/裸体的高效擦除,且可零样本迁移到 Flux 架构。

Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall

识别离散扩散模型中的"采样壁"问题(分类分布信息在采样后坍塌为 one-hot 向量),提出 Loopholing 机制引入确定性潜在路径传播丰富的分布信息,将生成困惑度降低最多 61%,大幅缩小与自回归模型的差距。

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

提出 LVTINO,首个基于视频一致性模型(VCM)先验的零样本视频逆问题求解器,通过在 VCM 采样过程中注入无需自动微分的测量一致性约束,在超分辨率、去模糊、修复等多种视频逆问题上以极少的神经网络函数评估(NFE)实现了超越逐帧图像方法的感知质量和时间一致性。

MAC-AMP: A Closed-Loop Multi-Agent Collaboration System for Multi-Objective Antimicrobial Peptide Design

提出 MAC-AMP,首个闭环多智能体协作系统,将抗菌肽(AMP)设计重构为协调多智能体优化问题,通过 AI 模拟同行评审和自适应奖励设计实现多目标优化。

Market Games for Generative Models: Equilibria, Welfare, and Strategic Entry

形式化三层模型-平台-用户市场博弈,分析生成模型竞争下纯策略 Nash 均衡的存在条件、市场结构、社会福利影响,并设计模型提供者的最优进入策略。

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

提出 Mod-Adapter,一种无需测试时微调的多概念个性化方法,通过在 DiT 的调制(modulation)空间中预测概念特定的调制方向,实现对物体和抽象概念(姿态、光照、材质等)的解耦化定制生成,在多概念个性化上大幅超越现有方法。

Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs

将通常被视为负面现象的"模型坍缩"(model collapse)重新定位为机器遗忘的工具,提出PMC方法——通过在保留数据和模型自身生成数据上迭代微调来实现针对性信息删除,无需在遗忘目标上直接优化,从理论和实验两方面证明了其有效性。

MOLM: Mixture of LoRA Markers

提出 MOLM 水印框架,将 LoRA 适配器重新解释为水印载体,通过二进制密钥驱动的路由机制在冻结生成模型中嵌入可验证、鲁棒的水印,无需逐密钥重训练。

Monocular Normal Estimation via Shading Sequence Estimation

本文提出了RoSE方法,将单目法线估计问题重新定义为着色序列(Shading Sequence)估计问题,利用图像到视频(Image-to-Video)生成模型预测多光照下的着色序列,再通过简单的最小二乘法将着色序列转换为法线图,在真实世界基准数据集上达到SOTA性能。

Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening

提出 Motion Prior Distillation (MPD),一种推理时蒸馏方法,将前向路径的运动残差蒸馏到后向路径中,从根本上解决了时间反转采样中双向运动先验冲突的问题,无需额外训练即可实现更连贯的生成式帧插值。

Multi-agent Coordination via Flow Matching

提出 MAC-Flow,先用 Flow Matching 学习中心化联合行为分布,再通过 IGM(Individual-Global-Max)分解将其蒸馏为去中心化的单步策略,结合 Q 值最大化进行行为正则化训练,在 4 个基准 12 个环境 34 个数据集上实现了约 14.5 倍于扩散方法的推理加速,同时保持了与扩散策略可比的协调性能。

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

提出多视角定制(multi-view customization)新任务并设计 MVCustom 框架,通过视频扩散骨干网络结合密集时空注意力实现整体帧一致性,在推理阶段引入深度感知特征渲染和一致性感知潜码补全两项技术,首次同时实现相机位姿控制、主体身份保持和跨视角几何一致性。

Neon: Negative Extrapolation From Self-Training Improves Image Generation

提出 Neon,一种仅需 <1% 额外训练计算的后处理方法:先用模型自身生成的合成数据微调导致退化,再反向外推远离退化权重,证明 mode-seeking 采样器导致合成/真实数据梯度反对齐,因此负外推等价于向真实数据分布优化,在 ImageNet 256×256 上将 xAR-L 提升至 SOTA FID 1.02。

NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

提出 NeuralOS,使用 RNN 状态追踪 + 扩散渲染器的双组件架构,直接从用户输入事件(鼠标移动/点击/键盘)预测操作系统图形界面帧序列,首次实现用神经生成模型模拟操作系统。

Next Visual Granularity Generation

提出 Next Visual Granularity (NVG) 生成框架,将图像分解为不同粒度级别的结构化序列,从全局布局到精细细节逐级生成,相比 VAR 系列在 FID 上一致提升。

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

提出 MoFit,首个面向无标题场景的扩散模型成员推断攻击框架,通过构建过拟合于目标模型的代理图像和条件嵌入,利用成员样本对条件错配的不对称敏感性实现有效推断。

Offline Reinforcement Learning with Generative Trajectory Policies

提出生成轨迹策略(GTP),通过统一视角将扩散模型、流匹配、一致性模型视为ODE解映射的特例,学习完整的连续时间轨迹解映射,并引入分数近似和优势权重两个适配技术,在D4RL基准上实现SOTA。

Pareto-Conditioned Diffusion Models for Offline Multi-Objective Optimization

提出 Pareto-Conditioned Diffusion (PCD),将离线多目标优化重构为条件采样问题,直接以目标权衡为条件生成高质量解,无需显式代理模型,在多种基准上实现最佳一致性。

PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models

提出 PCPO,通过稳定目标重构和原则性时间步重加权,修正扩散/流模型策略梯度中固有的不成比例信用分配问题,显著加速收敛并缓解模型崩溃。

PI-Light: Physics-Inspired Diffusion for Full-Image Relighting

提出 π-Light(PI-Light),一个两阶段的全图像重光照框架:第一阶段通过物理引导的扩散模型进行内蕴属性(albedo、法线、roughness 等)分解,第二阶段通过物理引导的神经渲染模块实现光照条件下的重新渲染,引入批量感知注意力机制和物理启发损失以实现对真实场景的优秀泛化能力。

PolyGraph Discrepancy: a classifier-based metric for graph generation

提出 PolyGraph Discrepancy (PGD),通过训练分类器区分真实图和生成图来逼近 Jensen-Shannon 距离的变分下界,解决了 MMD 指标缺乏绝对尺度、不同描述符间不可比、小样本高偏差高方差的三大核心问题。

Pseudo-Nonlinear Data Augmentation: A Constrained Energy Minimization Viewpoint

基于能量模型和信息几何的对偶平坦结构,提出无需训练、高效可控的数据增强方法,通过正向投影(编码)和反向投影(解码)在统计流形上实现跨模态增强。

Purrception: Variational Flow Matching for Vector-Quantized Image Generation

提出 Purrception,一种将变分流匹配(Variational Flow Matching)适配到向量量化(VQ)隐空间的图像生成方法,通过在连续嵌入空间中计算速度场的同时学习编码本索引上的分类后验分布,桥接了连续传输动力学和离散监督,在 ImageNet-1k 256×256 上实现了更快的训练收敛和与 SOTA 可比的 FID 分数。

Pyramidal Patchification Flow for Visual Generation

提出 Pyramidal Patchification Flow (PPFlow),通过在高噪声时间步使用大 patch、低噪声时使用小 patch,在保持生成质量的同时实现 1.6-2.0× 去噪加速,且无需重噪声技巧。

QVGen: Pushing the Limit of Quantized Video Generative Models

提出 QVGen,一种面向视频扩散模型的量化感知训练(QAT)框架,通过引入辅助模块降低梯度范数以改善收敛性,并设计秩衰减策略在训练中逐步消除辅助模块的推理开销,首次在 4-bit 量化下实现接近全精度的视频生成质量。

RefAny3D: 3D Asset-Referenced Diffusion Models for Image Generation

提出 RefAny3D,一个 3D 资产参考的图像生成框架,通过联合建模 RGB 图像和点图(point map)的双分支生成策略,实现生成图像与 3D 参考资产在几何和纹理上的精确一致性。

Referring Layer Decomposition

提出 Referring Layer Decomposition (RLD) 任务,根据用户提供的灵活提示(空间/文本/混合)从单张 RGB 图像中预测完整的 RGBA 图层,并构建了包含 111 万样本的 RefLade 数据集和自动评估协议。

RIDER: 3D RNA Inverse Design with Reinforcement Learning-Guided Diffusion

提出 RIDER 框架,首次将强化学习引入 RNA 3D 逆向设计,先预训练条件扩散模型 RIDE 学习序列-结构关系,再用 RL 微调以直接优化 3D 结构相似性而非序列恢复率,在所有 3D 自一致性指标上实现超过 100% 的提升。

RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation

提出 RMFlow,在 1-NFE MeanFlow 传输后加入一步噪声注入精炼来弥补单步传输的误差,同时在训练中加入最大似然目标来最小化学习分布与目标分布间的 KL 散度,在 T2I、分子生成、时间序列生成上实现接近 SOTA 的 1-NFE 结果。

RNE: plug-and-play diffusion inference-time control and energy-based training

提出 Radon-Nikodym 估计器 (RNE),基于路径分布间的密度比揭示边际密度与转移核的基本联系,提供统一的即插即用框架,同时实现扩散密度估计、推理时控制和能量扩散训练。

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

提出 ProMoE,一种针对扩散 Transformer 的 MoE 框架,通过两步路由器(条件路由 + 原型路由)和路由对比损失提供显式语义引导,促进专家特化,在 ImageNet 上显著超越现有 MoE 和稠密模型。

SafeFlowMatcher: Safe and Fast Planning using Flow Matching with Control Barrier Functions

提出 SafeFlowMatcher,一种将流匹配与控制障碍函数 (CBF) 结合的安全规划框架,通过预测-修正 (PC) 积分器将路径生成与安全认证解耦,在保持流匹配高效性的同时提供形式化安全保证。

Sample-Efficient Evidence Estimation of Score-Based Priors for Model Selection

提出 DiME,一种沿扩散后验时间边缘积分的模型证据估计器,无需先验评分或密度评估,仅用少量后验样本(如 20 个)即可准确估计扩散模型先验下的模型证据,用于先验选择和模型验证。

scDFM: Distributional Flow Matching for Robust Single-Cell Perturbation Prediction

提出 scDFM,基于条件流匹配(CFM)的生成式框架,通过 MMD 正则化保证分布级保真度,并设计 PAD-Transformer 骨干处理噪声稀疏的单细胞数据,在组合扰动预测上比最强基线 CellFlow 的 MSE 降低 19.6%。

Seek-CAD: A Self-Refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

提出 Seek-CAD,首个基于本地部署的推理 LLM(DeepSeek-R1)的无训练 CAD 参数化模型生成框架,通过分步视觉反馈与思维链 (CoT) 协同实现自我精炼,并设计新的 SSR 三元组设计范式支持复杂 CAD 模型生成。

Self-Improving Loops for Visual Robotic Planning

提出 SILVR 框架,通过迭代更新域内视频生成模型在自收集的在线轨迹上进行微调,实现视觉机器人规划器在未见任务上的持续自我改进,在 MetaWorld 和真实机器人上实现高达 285% 的性能提升。

SeMoBridge: Semantic Modality Bridge for Efficient Few-Shot Adaptation of CLIP

提出 SeMoBridge,一种轻量级语义模态桥,通过将图像嵌入映射到文本模态,将不可靠的模态内(图像-图像)比较转换为可靠的模态间(文本-图像)比较,以极低训练开销在少样本分类中超越现有方法。

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

提出 SenseFlow,通过隐式分布对齐(IDA)和段内引导(ISG)将分布匹配蒸馏(DMD)扩展到大规模 flow-based 文生图模型(SD 3.5 Large 8B / FLUX.1 dev 12B),实现 4 步高质量图像生成。

SERUM: Simple, Efficient, Robust, and Unifying Marking for Diffusion-based Image Generation

提出SERUM水印方法,将唯一水印噪声添加到扩散模型初始噪声中,训练轻量检测器直接从生成图像识别水印(无需昂贵的DDIM反演),在多种攻击下达到最高检测率,且注入/检测极快,支持多用户场景。

SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling

首次系统研究 SMOTE 的隐私泄露问题,提出 DistinSMOTE 和 ReconSMOTE 两种攻击,证明 SMOTE 本质上是非隐私保护的,且过度暴露少数类记录。

SoFlow: Solution Flow Models for One-Step Generative Modeling

提出 Solution Flow Models (SoFlow),直接学习速度 ODE 的解函数 \(f(x_t, t, s)\)(将 \(t\) 时刻的 \(x_t\) 映射到 \(s\) 时刻的解),通过 Flow Matching 损失 + 无需 JVP 的解一致性损失从头训练,在 ImageNet 256 上 1-NFE FID 优于 MeanFlow(XL/2: 2.96 vs 3.43)。

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

提出 SongEcho 框架,通过实例自适应元素级线性调制(IA-EiLM)实现翻唱歌曲生成,在保持原始歌曲旋律轮廓的同时生成新的歌声和伴奏。

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

SPEED 提出基于零空间(null space)约束的闭式模型编辑方法,通过影响力先验过滤(IPF)、定向先验增强(DPA)和不变等式约束(IEC)三种互补技术精化保留集,实现可扩展(5 秒内擦除 100 个概念)、精确(非目标概念语义零损失)且高效的概念擦除。

SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation

提出 Scaled Spatial Guidance (SSG),一种无需训练的推理时引导方法,通过频域先验构建和语义残差放大,增强视觉自回归模型的粗到细层级生成质量。

Steer Away From Mode Collisions: Improving Composition In Diffusion Models

针对扩散模型多概念 prompt 中的概念缺失/碰撞问题,提出"模式碰撞"假说(联合分布与单概念分布的模式重叠),设计 CO3(Concept Contrasting Corrector)通过在 Tweedie 均值空间中组合校正分布 \(\tilde{p}(x|C) \propto p(x|C) / \prod_i p(x|c_i)\) 来远离退化模式,实现即插即用、无梯度、模型无关的组合生成改进。

Step-Aware Residual-Guided Diffusion for EEG Spatial Super-Resolution

提出 SRGDiff,一种步感知残差引导的扩散模型,将 EEG 空间超分辨率重新定义为动态条件生成任务,通过每步残差方向校正和步依赖仿射调制实现高保真重建。

Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

本文提出S²-Guidance,通过在去噪过程中随机丢弃transformer block激活子网络作为弱模型进行自引导,无需额外训练即可修正CFG的次优预测,在文生图和文生视频任务上一致超越CFG及其他高级引导策略。

TAVAE: A VAE with Adaptable Priors Explains Contextual Modulation in the Visual Cortex

扩展 VAE 形式主义提出 Task-Amortized VAE (TAVAE),通过在已学表示上灵活学习任务特异性先验来解释视觉皮层 V1 中的上下文调制现象,包括方向辨别任务中训练刺激与测试刺激不匹配时出现的双模态群体响应。

Temporal Concept Dynamics in Diffusion Models via Prompt-Conditioned Interventions

提出 PCI(Prompt-Conditioned Intervention)框架,通过在去噪轨迹不同时间步切换文本提示,量化概念何时在扩散模型中锁定,并将此发现应用于时间感知的图像编辑。

Test-Time Iterative Error Correction for Efficient Diffusion Models

提出 IEC(Iterative Error Correction),一种测试时的即插即用方法,通过迭代修正高效扩散模型的推理误差,将误差累积从指数增长降低为线性增长。

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

本文系统研究了文本提示(prompt)复杂度对T2I模型合成数据的质量、多样性和一致性三个关键维度的影响,提出了新的评估框架,并发现提示扩展(prompt expansion)作为一种推理时干预手段能最优地平衡多样性与美学质量。

The Spacetime of Diffusion Models: An Information Geometry Perspective

从信息几何视角提出扩散模型的"时空"概念,证明标准拉回几何在扩散模型中退化为直线,转而引入 Fisher-Rao 度量的时空几何,并导出可实际计算的散度编辑距离(DiffED)和转移路径采样方法。

There and Back Again: On the Relation between Noise and Image Inversions in Diffusion Models

深入分析 DDIM 反转的误差机制,发现潜在编码在平滑图像区域(如天空)呈现低多样性和高相关性,并追溯到反转初始步骤的噪声预测不准确,提出用正向扩散替代前几步反转的简单修复方案。

Towards Interpretable Visual Decoding with Attention to Brain Representations

提出 NeuroAdapter,将 fMRI 信号按脑区分割为独立 token 并通过交叉注意力直接条件化 Stable Diffusion,跳过传统的 CLIP/DINO 中间嵌入空间,在 NSD 等数据集上高层语义指标超越或持平现有方法,同时引入 IBBI 双向可解释性框架,首次动态揭示不同皮层区域在去噪轨迹中如何驱动图像生成。

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

将 reward-guided 图像编辑重新建模为轨迹最优控制问题,将扩散/Flow模型的反向过程视为可控轨迹,通过基于 Pontryagin 最大值原理(PMP)的伴随状态迭代优化整条轨迹,在无需训练的情况下实现有效的奖励引导编辑且不发生 reward hacking。

Translate Policy to Language: Flow Matching Generated Rewards for LLM Explanations

提出一个通用框架,利用Rectified Flow生成分布式奖励来训练解释生成LLM,通过连续归一化流(CNF)捕捉人类对解释评判的多元概率特性,并在理论上证明CNF能有效恢复真实人类奖励分布,在SMAC、MMLU、MathQA等任务上显著超越RLHF/RLAIF基线。

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

提出 TwinFlow:通过将 flow matching 时间区间从 \([0,1]\) 扩展到 \([-1,1]\),构造"孪生轨迹"形成自对抗信号,使模型无需判别器或冻结教师即可实现单步生成。首次将 1-NFE 生成能力扩展到 20B 参数的 Qwen-Image 模型,1-NFE GenEval 0.86 逼近原始 100-NFE 的 0.87,推理成本降低 100×。

Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models

Uni-X提出一种两端分离、中间共享的X型架构来缓解统一多模态模型(UMM)中视觉与文本模态的梯度冲突,通过将浅层和深层设为模态专属、中间层共享参数,3B参数即可匹配或超越7B AR-UMM在图像生成和多模态理解上的性能。

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

DualFlow提出首个统一框架,通过Rectified Flow和检索增强生成(RAG)实现文本+音乐多模态条件下的双人交互/反应式3D运动生成,引入对比流匹配和同步损失,在MDD数据集上FID提升2.5%、R-precision提升76%,推理速度提升2.5倍。

Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty

提出无监督共形推断框架(BB-UCP),通过Gram矩阵交互能量评分、批次自举校准和共形对齐,在无标签、API兼容条件下实现LLM生成的分布无关有限样本覆盖率保证,有效检测和过滤幻觉输出。

Verification of the Implicit World Model in a Generative Model via Adversarial Sequences

提出对抗序列生成方法验证生成式序列模型的隐式世界模型健全性,在国际象棋领域通过多种对抗策略(IMO/BSO/AD)系统评估,发现所有模型均不健全,但训练方法和数据集选择对健全性有显著影响,且线性棋盘状态探针在大多数模型中无因果作用。

Verifier-Constrained Flow Expansion for Discovery Beyond the Data

提出Flow Expander (FE),通过验证器约束的熵最大化在概率空间中扩展预训练流模型的覆盖范围,使其生成超越训练数据分布但保持有效性的设计样本,在分子构象设计中增加多样性同时保持化学有效性。

VFScale: Intrinsic Reasoning through Verifier-Free Test-time Scalable Diffusion Model

VFScale提出无需外部验证器的测试时可缩放扩散模型,通过MRNCL损失和KL正则化改善能量景观使其内在能量函数可作为验证器,结合混合MCTS去噪实现高效搜索,在6×6训练的迷宫模型能解决88%的15×15迷宫,而标准扩散模型完全失败。

Visual Autoregressive Modeling for Instruction-Guided Image Editing

提出VAREdit,将指令引导的图像编辑重新定义为多尺度预测问题,通过Scale-Aligned Reference模块解决最细尺度条件化的尺度失配问题,在编辑遵循度和效率上大幅超越扩散模型方法。

When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models

首次揭示并系统研究多模态扩散模型中的"后门模态坍缩"现象——多模态后门攻击中后门效果退化为仅依赖单一模态(通常是文本),提出TMA和CTI两个基于Shapley值的新指标量化模态贡献和跨模态交互,发现"赢者通吃"动态和负交互。

When Scores Learn Geometry: Rate Separations under the Manifold Hypothesis

在流形假设下揭示score学习中几何信息与分布信息的尺度分离现象——流形几何信息强度为 \(\Theta(\sigma^{-2})\),比分布信息强 \(O(\sigma^{-2})\) 倍,由此证明扩散模型的成功主要来自学习数据流形而非完整分布,并提出一行代码修改即可生成流形上的均匀分布。

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

Zatom-1是首个端到端全开源的基础模型,通过多模态流匹配(multimodal flow matching)统一了3D分子和材料的生成建模与属性预测,使用标准Transformer架构在欧几里得空间直接建模离散原子类型和连续3D几何,实现了跨化学域的正迁移学习。