跳转至

🎨 图像生成

📹 ICCV2025 · 219 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (11) · 📷 CVPR2026 (240) · 🔬 ICLR2026 (154) · 🤖 AAAI2026 (78) · 🧠 NeurIPS2025 (250) · 🧪 ICML2025 (115)

🔥 高频主题: 扩散模型 ×90 · 文生图 ×17 · 图像编辑 ×15 · 对抗鲁棒 ×12 · 少样本学习 ×9

A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation

提出 A₀,一个可供性感知的分层扩散模型,通过将操作任务分解为高层空间可供性理解(预测接触点和轨迹)和低层动作执行,在100万接触点数据上预训练后仅需少量任务数据微调即可跨平台(Franka/Kinova/Realman/Dobot)部署,在擦白板等复杂轨迹任务中成功率达45%。

A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation

提出 A0,一个层次化可供性感知扩散模型,通过预测以物体为中心的接触点和后接触轨迹(Embodiment-Agnostic Affordance Representation),将操控任务分解为高层空间理解和低层动作执行,在 100 万接触点数据上预训练后可跨 Franka/Kinova/Realman/Dobot 四种平台泛化。

A Unified Framework for Motion Reasoning and Generation in Human Interaction

提出 MoLaM,一个统一的交互式动作-语言模型,通过三阶段训练和新构建的 Inter-MT² 数据集(82.7K 多轮指令),首次在单一框架内同时实现双人交互动作的理解、生成、编辑和推理。

Accelerating Diffusion Sampling via Exploiting Local Transition Coherence

提出 LTC-Accel,一种基于"局部转移一致性"(Local Transition Coherence) 现象的免训练扩散采样加速方法,通过利用相邻去噪步之间转移算子的强相关性来近似替代当前步的计算,在 Stable Diffusion v2 上实现 1.67× 加速,与蒸馏模型结合可在视频生成中达到 10× 加速。

Adaptive Routing of Text-to-Image Generation Requests Between Large Cloud Models and Small Edge Models

提出 RouteT2I,首个面向文本到图像生成的边缘-云模型路由框架,通过多维质量度量、Pareto 相对优越性和双门控 token 选择 MoE 架构,在控制成本的同时最大化图像生成质量。

Adaptive Routing of Text-to-Image Generation Requests Between Large Cloud Model and Light-Weight Edge Model

提出RouteT2I框架,通过多维质量评估指标和双门控token选择MoE路由模型,动态将文本到图像生成请求分配到边缘轻量模型或云端大模型,在50%路由率下实现云端全用83.97%的质量提升。

Addressing Text Embedding Leakage in Diffusion-Based Image Editing

揭示了基于扩散模型的文本图像编辑中属性泄露的根本原因——自回归文本编码器中 EOS 嵌入的语义纠缠,并提出 ALE 框架(ORE + RGB-CAM + BB),从嵌入解耦、注意力遮罩和背景混合三个层面彻底消除属性泄露。

Addressing Text Embedding Leakage in Diffusion-based Image Editing

提出ALE框架,通过对象限制嵌入(ORE)解耦EOS token的语义纠缠、区域引导混合交叉注意力掩码(RGB-CAM)约束空间注意力、背景混合(BB)保留未编辑区域,系统性解决扩散模型文本图像编辑中的属性泄漏问题,并建立了ALE-Bench评估基准。

ADIEE: Automatic Dataset Creation and Scorer for Instruction-Guided Image Editing Evaluation

本文提出 ADIEE,一种自动化构建指令引导图像编辑评估数据集的方法,并基于超过 10 万样本微调 LLaVA-NeXT-8B 模型作为评分器,在多个基准上超越所有开源 VLM 和 Gemini-Pro 1.5,同时可作为奖励模型提升图像编辑模型性能。

ADIEE: Automatic Dataset Creation and Scorer for Instruction-Guided Image Editing Evaluation

提出ADIEE,通过自动化方法构建超过10万样本的图像编辑评估训练数据集,微调LLaVA-NeXT-8B作为编辑质量评分模型,在多个基准上超越开源VLM和Gemini-Pro 1.5,并可作为奖励模型提升编辑模型性能。

Aether: Geometric-Aware Unified World Modeling

Aether 提出一个几何感知的统一世界模型框架,通过在合成 4D 数据上联合训练重建、预测和规划三大能力,基于 CogVideoX 后训练实现零样本泛化到真实场景。

Aether: Geometric-Aware Unified World Modeling

提出Aether统一世界模型,在合成RGB-D数据上后训练CogVideoX视频扩散模型,通过随机组合输入/输出模态的多任务训练策略,同时实现4D重建、动作条件视频预测和目标条件视觉规划,且零样本迁移到真实世界数据达到与领域专用模型可比的性能。

AIComposer: Any Style and Content Image Composition via Feature Integration

AIComposer 提出了首个不依赖文本提示的跨域图像合成方法,通过 MLP 网络融合前景和背景的 CLIP 特征,并结合 backward inversion + forward denoising 和局部交叉注意力策略,在无需训练扩散模型的前提下实现了自然风格化和无缝合成,LPIPS 和 CSD 指标分别提升 30.5% 和 18.1%。

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

提出AID框架,将预训练的Image2Video扩散模型(SVD)迁移至文本引导视频预测任务,通过MLLM辅助的视频状态预测、双查询Transformer条件注入和时空适配器,在多个数据集上FVD指标超越前SOTA 50%以上。

ALE: Attribute-Leakage-free Editing for Text-based Image Editing

揭示文本引导图像编辑中属性泄漏的根本原因是自回归文本编码器中 EOS 嵌入的语义纠缠,提出 ALE 框架通过目标受限嵌入(ORE)、区域引导交叉注意力遮蔽(RGB-CAM)和背景融合(BB)三个组件消除属性泄漏,并构建了专门的 ALE-Bench 评测基准。

Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing

提出 ISLock,首个面向自回归(AR)视觉生成模型的无训练图像编辑方法,通过锚点 Token 匹配(ATM)在隐空间中隐式对齐自注意力模式,实现结构一致的文本引导图像编辑。

AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

提出 AnimeGamer,基于多模态大语言模型(MLLM)的无限动漫生活模拟系统,通过动作感知的多模态表征预测下一轮游戏状态(动态动画镜头 + 角色状态更新),实现持续一致的交互式动漫游戏体验。

Anti-Tamper Protection for Unauthorized Individual Image Generation

提出Anti-Tamper Perturbation (ATP),在频域中将保护扰动(阻止伪造生成)和授权扰动(检测净化篡改)分离嵌入,当攻击者尝试净化保护信息时触发防篡改机制拒绝服务,在各种净化攻击下实现100%保护成功率。

AnyPortal: Zero-Shot Consistent Video Background Replacement

AnyPortal 提出了一个零样本、免训练的视频背景替换框架,通过协同利用 IC-Light 的重光照能力和视频扩散模型(CogVideoX)的时序先验,配合新提出的 Refinement Projection Algorithm (RPA) 实现像素级前景保持,在单张 24GB GPU 上即可高效运行。

Attention to Neural Plagiarism: Diffusion Models Can Plagiarize Your Copyrighted Images!

揭示"神经抄袭"威胁——扩散模型可轻松复制受版权保护的图像(包括受水印保护的图像),提出基于"锚点与垫片"的通用攻击框架,通过在交叉注意力机制中搜索扰动实现从粗到细的语义修改,绕过从可见商标到隐形水印的各类版权保护。

AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts

本文提出APT(AutoPrompT),一种基于LLM的黑盒红队测试框架,通过"优化-微调"交替训练管线和双规避策略,自动生成可被人类阅读且不被内容过滤器拦截的对抗性后缀,有效突破T2I模型的安全机制,并具有零样本跨提示迁移能力。

Balanced Image Stylization with Style Matching Score

提出 Style Matching Score(SMS),将图像风格化重铸为风格分布匹配问题,通过渐进频谱正则化和语义感知梯度精炼,在风格对齐与内容保持之间取得卓越平衡,并可蒸馏到轻量前馈网络实现一步风格化。

Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video

提出BCD(Bitrate-Controlled Diffusion),一种通用的自监督视频解耦框架,通过低码率矢量量化作为信息瓶颈来分离视频中的逐帧运动特征和全局内容特征,并以条件扩散模型重建视频,在说话人头部视频和像素风格卡通数据集上展示了高质量的运动迁移和自回归视频生成能力。

3DSR: Bridging Diffusion Models and 3D Representations for 3D Consistent Super-Resolution

提出3DSR——将扩散超分模型与3DGS表示交替迭代实现3D一致超分:每步去噪后将SR图像训练到3DGS中获得3D一致渲染→重编码回潜在空间引导下一步去噪,无需微调任何模型即显式保证跨视角一致性,在LLFF上PSNR提升1.16dB+FID降低50%(vs StableSR)。

Bridging the Skeleton-Text Modality Gap: Diffusion-Powered Modality Alignment for Zero-shot Skeleton-based Action Recognition

提出TDSM(Triplet Diffusion for Skeleton-Text Matching),首次将扩散模型应用于零样本骨骼动作识别,通过反向扩散过程实现骨骼特征与文本prompt的隐式对齐,并引入triplet diffusion损失增强判别力,在NTU-60/120和PKU-MMD上大幅超越SOTA(2.36%到13.05%的提升幅度)。

Bridging the Skeleton-Text Modality Gap: Diffusion-Powered Modality Alignment for Zero-shot Skeleton-based Action Recognition

提出TDSM(Triplet Diffusion for Skeleton-Text Matching),首次将扩散模型应用于零样本骨骼动作识别,通过反向扩散过程实现骨骼特征与文本prompt的隐式对齐,并引入triplet diffusion损失增强判别力,在NTU-60/120和PKU-MMD上大幅超越SOTA(2.36%到13.05%的提升幅度)。

BVINet: Unlocking Blind Video Inpainting with Zero Annotations

首次定义并解决"盲视频修复"(blind video inpainting)任务——在无需任何损坏区域标注的情况下,端到端地同时完成"哪里需要修复"和"如何修复",通过 mask 预测网络与视频补全网络的一致性约束互相增强,在合成数据和真实应用(弹幕去除/划痕修复)中均取得优异效果。

CaO2: Rectifying Inconsistencies in Diffusion-Based Dataset Distillation

揭示了基于扩散模型的数据集蒸馏中存在的"目标不一致"和"条件不一致"两个关键问题,提出两阶段框架CaO2:第一阶段通过分类器引导的样本选择缓解目标不一致,第二阶段通过隐空间优化最大化条件似然缓解条件不一致,在ImageNet上平均提升2.3%。

CAP: Evaluation of Persuasive and Creative Image Generation

针对广告图像生成任务,提出三个新评估指标(创意性、对齐度、说服力),并用LLM扩展隐式消息为显式视觉描述来改善T2I模型的广告生成效果,在人类标注一致性上显著优于CLIPScore等基线指标。

CharaConsist: Fine-Grained Consistent Character Generation

提出一种免训练的细粒度一致性角色生成方法,通过点跟踪注意力(Point-Tracking Attention)、自适应 token 合并和前景-背景解耦控制,首次在 DiT 架构(FLUX.1)上实现了高质量的跨图像角色一致性生成。

CHORDS: Diffusion Sampling Accelerator with Multi-Core Hierarchical ODE Solvers

提出 Chords,一种基于多核层次 ODE 求解器的扩散采样加速框架,通过慢到快的核间纠正机制(inter-core rectification),在 4-8 个 GPU 上实现 2.1×~2.9× 加速,且不牺牲生成质量。

CHORDS: Diffusion Sampling Accelerator with Multi-Core Hierarchical ODE Solvers

提出 Chords,一种基于多核层级 ODE 求解器的无训练、模型无关扩散采样加速框架,通过慢到快的求解器层级和核间纠偏机制,在 4~8 个 GPU 核上实现最高 2.9× 加速而不损失生成质量。

CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts

提出 CNS-Bench,首个利用 LoRA 适配器对扩散模型施加连续逼真的干扰偏移(nuisance shift)来系统评估图像分类器 OOD 鲁棒性的基准,覆盖 14 种偏移类型、5 个严重度级别和 40+ 分类器。

CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models

CoMPaSS通过SCOP数据引擎筛选空间关系无歧义的训练数据,并提出无参数的TENOR模块将token顺序信息注入注意力机制,大幅提升T2I扩散模型的空间关系生成准确率(VISOR +98%、GenEval Position +131%)。

CompleteMe: Reference-based Human Image Completion

提出CompleteMe框架,通过双U-Net架构和Region-focused Attention(RFA)Block,利用参考图像中的细粒度人物细节(衣物纹理、纹身等),实现高保真的参考引导人体图像补全。

Compression-Aware One-Step Diffusion Model for JPEG Artifact Removal

提出 CODiff,一种压缩感知的单步扩散模型用于 JPEG 伪影去除,核心是设计了压缩感知视觉嵌入器(CaVE)通过显式+隐式双重学习策略提取 JPEG 压缩先验,引导扩散模型实现高质量复原,在 LIVE-1、Urban100、DIV2K-Val 上全面超越现有方法同时推理效率极高。

CompSlider: Compositional Slider for Disentangled Multiple-Attribute Image Generation

提出 CompSlider,一个组合式滑块模型,通过生成条件先验来实现对 T2I 基础模型中多个属性的同时、独立、细粒度控制,利用解耦损失和结构损失来解决多属性之间的纠缠问题。

Contrastive Flow Matching (ΔFM)

在 Flow Matching 的训练目标中引入对比正则项,强制不同条件的流场互相远离,从而在零额外推理开销下实现 9× 训练加速、5× 更少采样步数、FID 最多降低 8.9。

CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models

首次在视觉自回归模型(VAR)中探索内容-风格分解(CSD),通过尺度感知交替优化、SVD风格嵌入修正和增强型K-V记忆三项创新,实现优于扩散模型方法的内容保持与风格迁移效果。

CURE: Cultural Gaps in the Long Tail of Text-to-Image Systems

提出 CURE 基准与评分套件,利用属性规范的边际效用(Marginal Information Attribution)作为人类判断的代理指标,系统评估 T2I 系统在全球文化长尾分布上的代表性能力。

Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences

利用循环一致性(图→文→图或文→图→文的重建相似度)作为替代人类偏好的监督信号,构建866K偏好数据集CyclePrefDB,训练的CycleReward模型在详细描述生成评估上超越所有现有方法,并可通过DPO提升VLM和扩散模型。

Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences

提出CycleReward,利用cycle consistency作为自监督信号替代人工偏好标注——将caption用T2I模型重建为图像再比较相似度来排序,构建866K偏好对数据集CyclePrefDB,训练的奖励模型在detailed captioning上比HPSv2/PickScore/ImageReward高6%+,且DPO训练后提升VLM在多个VL任务上的性能,无需任何人工标注。

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

提出 DC-AR,一个基于深度压缩混合标记器(DC-HT,32× 空间压缩)的掩码自回归文本到图像生成框架,通过离散 token 生成结构 + 残差 token 精细化的混合流程,在 MJHQ-30K 上取得 SOTA gFID 5.49,同时吞吐量比扩散模型高 1.5-7.9×。

DCT-Shield: A Robust Frequency Domain Defense against Malicious Image Editing

提出 DCT-Shield,在离散余弦变换(DCT)域中引入对抗扰动而非像素空间,使免疫噪声高度不可感知,并天然具备JPEG压缩鲁棒性,有效抵御基于扩散模型的恶意图像编辑。

Deeply Supervised Flow-Based Generative Models

DeepFlow 通过在 flow-based 模型的 Transformer 层间引入深度监督和 VeRA(Velocity Refiner with Acceleration)模块,利用二阶 ODE 动力学对齐中间层速度特征,在不依赖外部预训练模型的情况下实现 8 倍训练加速和显著 FID 提升。

DeepShield: Fortifying Deepfake Video Detection with Local and Global Forgery Analysis

提出 DeepShield,一种结合局部 patch 级引导(LPG)和全局伪造多样化(GFD)的深度伪造视频检测框架,通过时空伪影建模提供 patch 级监督、分布级特征增强合成多样伪造表征,在跨数据集和跨操控类型评估中显著超越 SOTA。

Dense2MoE: Restructuring Diffusion Transformer to MoE for Efficient Text-to-Image Generation

首次提出将密集型扩散Transformer(DiT)转化为MoE稀疏结构的范式Dense2MoE,通过FFN替换为MoE层+Transformer块分组为MoB(Mixture of Blocks),配合多阶段蒸馏流水线,将FLUX.1的12B参数压缩至5.2B激活参数同时保持原始性能,全面超越剪枝方法。

Dense Policy: Bidirectional Autoregressive Learning of Actions

提出 Dense Policy,一种基于双向自回归扩展的机器人操作策略,通过对数时间的粗到细层次化动作生成,在仿真和真实世界任务中超越 Diffusion Policy 和 ACT 等主流生成式策略。

Describe, Don't Dictate: Semantic Image Editing with Natural Language Intent

提出 DescriptiveEdit,将"指令式图像编辑"重新定义为"参考图像条件下的文本到图像生成",通过 Cross-Attentive UNet 引入注意力桥接层将参考图像特征注入生成过程,仅需 75M 可训练参数即可实现高保真描述式编辑,并与 ControlNet、IP-Adapter 等社区工具无缝兼容。

DIA: The Adversarial Exposure of Deterministic Inversion in Diffusion Models

提出 DDIM Inversion Attack (DIA),通过直接攻击 DDIM 反演轨迹路径来干扰扩散模型的图像编辑能力,有效防御恶意深度伪造和隐私侵犯内容生成,在多种编辑方法上大幅超越 AdvDM 和 Photoguard 等现有防御方法。

DICE: Staleness-Centric Optimizations for Parallel Diffusion MoE Inference

针对 MoE 扩散模型并行推理中的"陈旧性"问题 (staleness),提出 DICE 框架,通过步级交织并行、层级选择性同步和 token 级条件通信三层优化策略,在 DiT-MoE 上实现 1.26× 加速且质量损失极小。

DiffDoctor: Diagnosing Image Diffusion Models Before Treating

提出 DiffDoctor,首个利用像素级反馈微调扩散模型的方法:先训练鲁棒的 artifact 检测器(1M+ 样本,类别平衡策略),再通过最小化合成图中每个像素的 artifact 置信度反向传播梯度到扩散模型,使其在未见 prompt 上也能显著减少 artifact 生成。

DiffSim: Taming Diffusion Models for Evaluating Visual Similarity

DiffSim 首次发现预训练扩散模型(Stable Diffusion)的注意力层特征可用于测量视觉相似度,提出 Aligned Attention Score (AAS) 在 U-Net 的 self-attention / cross-attention 层中对齐两张图像特征后计算余弦相似度,在人类感知一致性、风格相似度和实例一致性等多个 benchmark 上达到 SOTA。

DiffuMatch: Category-Agnostic Spectral Diffusion Priors for Robust Non-rigid Shape Matching

提出在功能映射(Functional Map)的谱域上训练无条件扩散模型,通过蒸馏学习到的结构先验替代传统公理化正则项(如拉普拉斯交换性、正交性),实现跨类别零样本非刚性形状匹配。

Diffusion-based 3D Hand Motion Recovery with Intuitive Physics

提出一种物理增强的条件扩散模型,通过迭代去噪过程将逐帧 3D 手部重建结果细化为时序一致的运动序列,并结合直觉物理约束(运动学约束和稳定性约束)大幅提升重建精度和物理合理性。

DIIP: Diffusion Image Prior

发现预训练扩散模型在重建退化图像时存在类似 Deep Image Prior 的隐式偏置——迭代优化过程中先生成干净图像再过拟合到退化输入——且比 DIP 适用更广泛的退化类型,据此提出完全盲(无需退化模型)的图像复原方法 DIIP。

Discovering Divergent Representations between Text-to-Image Models

提出 CompCon(Comparing Concepts),一种进化搜索算法,自动发现两个文生图模型之间的"分歧表征"——即在哪些视觉属性上、被哪类提示词触发时,两个模型会产生截然不同的输出,并构建了 ID² 基准数据集进行系统评估。

Disrupting Model Merging: A Parameter-Level Defense Without Sacrificing Accuracy

提出 PaRaMS(Parameter Rearrangement & Random Multi-head Scaling),一种参数级主动防御方法,通过功能等价的参数变换将模型推离共享损失盆地,使得被保护模型在合并时性能严重退化,同时保持未合并时的原始性能。

DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers

针对多模态扩散Transformer(MMDiT)提出DiTFastAttnV2,通过Head-wise Arrow Attention和Head-wise Caching机制实现细粒度的注意力压缩,在2K图像生成中减少68%注意力FLOPs并实现1.5倍端到端加速,且不损失视觉质量。

DMQ: Dissecting Outliers of Diffusion Models for Post-Training Quantization

提出 DMQ 框架,结合学习型等价缩放(LES)和通道级 Power-of-Two 缩放(PTS)来处理扩散模型量化中的异常值问题,首次在 W4A6 低比特设定下实现稳定的高质量图像生成。

Domain Generalizable Portrait Style Transfer

DGPST 提出了一个基于扩散模型的人像风格迁移框架,通过 semantic adapter 建立跨域稠密语义对应来扭曲参考图像,配合 AdaIN-Wavelet Transform 进行潜空间初始化以平衡风格化与内容保持,结合 ControlNet(高频结构引导)和 style adapter(风格引导)的双条件扩散模型生成最终结果,仅在 30K 真实肖像照片上训练即可泛化到照片、卡通、素描、动漫等多种域。

DPoser-X: Diffusion Model as Robust 3D Whole-Body Human Pose Prior

提出 DPoser-X,基于无条件扩散模型的 3D 全身人体姿态先验,将各种姿态相关任务统一为逆问题,通过变分扩散采样的截断时间步调度进行测试时优化,并引入混合训练策略有效结合全身和部位数据集,在身体、手、脸和全身建模的 8 个基准上取得最高 61% 的提升。

DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses

DreamDance 提出一种仅以 2D 骨架姿态序列为输入的人体图像动画框架:先通过 Mutually Aligned Geometry Diffusion Model 从 2D 姿态生成相互对齐的深度图和法线图以丰富 3D 几何引导,再通过基于 SVD 的 Cross-Domain Controlled Video Diffusion Model 整合多层次引导信号生成高质量人体动画,在 TikTok 数据集上取得 SOTA(FVD 153.07 vs Champ 170.20)。

Dual Recursive Feedback on Generation and Appearance Latents for Pose-Robust Text-to-Image Diffusion

提出 Dual Recursive Feedback (DRF),一种无需训练的双递归反馈系统,通过外观反馈生成反馈递归精修中间隐变量,解决可控 T2I 扩散模型在跨类别(class-invariant)场景下结构/外观分离不彻底的问题,实现细粒度的姿态迁移和外观融合。

DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability

DynamicID 通过语义激活注意力(SAA)和身份-运动重构器(IMR)两个核心组件,实现了零样本的单/多身份个性化图像生成,同时保持高保真度和灵活的面部可编辑性。

Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing

本文提出 ELECT(Early-timestep Latent Evaluation for Candidate selecTion),一个零样本框架,通过在扩散去噪的早期时间步估计背景不一致性来选择最优种子,将计算开销降低 41%(最高 61%),同时提升背景一致性和编辑指令遵循度,且无需外部监督或额外训练。

EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Equivariant Flow Matching

EC-Flow 提出了"具身中心光流"范式,从无动作标注的 RGB 视频中预测机器人本体的像素级运动轨迹,结合 URDF 运动学约束将视觉预测转化为可执行动作,在可变形物体、遮挡和非位移操作等场景中大幅超越物体中心方法。

EDiT: Efficient Diffusion Transformers with Linear Compressed Attention

EDiT 提出线性压缩注意力机制,通过 ConvFusion 增强 query 的局部信息并用 Spatial Compressor 压缩 key/value token,实现对 DiT 和 MM-DiT 的高效加速(最高 2.2 倍),同时保持可比的图像质量。

EEdit: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing

提出 EEdit 高效图像编辑框架,通过空间局部性缓存(SLoC)跳过未编辑区域计算、Token 索引预处理(TIP)无损加速缓存操作、以及反演步跳过(ISS)减少反演冗余,在 prompt 引导、拖拽、图像合成等多种编辑任务上实现平均 2.46× 加速且无质量损失。

Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization

OAT 提出基于二次误差度量(quadric error)的自适应八叉树 tokenization,根据局部几何复杂度动态分配 token 预算,在减少 50% token 的同时保持重建质量,并在此基础上构建 OctreeGPT 实现高质量文本到 3D 生成。

Efficient Input-Level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation

NaviT2I 发现了文生图扩散模型中后门触发器导致的"早期步骤激活变化"(Early-step Activation Variation)现象,基于此提出了一种仅需分析第一步扩散迭代的高效输入级后门防御框架,在 8 种主流攻击上平均 AUROC 达 96.3%,耗时仅为已有方法的 3.8%~16.7%。

EmotiCrafter: Text-to-Emotional-Image Generation based on Valence-Arousal Model

提出 EmotiCrafter,首个基于连续 Valence-Arousal (V-A) 模型的情感图像生成方法,通过情感嵌入映射网络将 V-A 值融合到文本特征中,注入 Stable Diffusion XL 实现精确的内容+情感双重控制,生成图像在情感连续性和可控性上显著优于现有方法。

End-to-End Multi-Modal Diffusion Mamba

提出 Multi-Modal Diffusion Mamba(MDM),一种基于 Mamba 架构的端到端多模态模型,通过统一的 VAE 编解码器和多步选择性扩散模型,实现图像和文本的同时生成,计算复杂度为 \(\mathcal{O}(MLN^2)\),在图像生成、图像描述、VQA 等多任务上超越现有端到端模型。

Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment

本文揭示了基于 CLIP/BLIP 的奖励模型在评估高质量图像时的「评分悖论」——细节丰富的高质量图像反而得低分,并提出 ICT Score(Image-Contained-Text,评估图像包含文本信息的程度)和 HP Score(纯图像模态的人类偏好评分)两个新指标,在 Pick-High 数据集上训练后,偏好预测准确率提升超过 10%,并成功优化 SD3.5-Turbo 生成更高质量的图像。

Erasing More Than Intended? How Concept Erasure Degrades the Generation of Non-Target Concepts

系统分析了文本到图像模型中概念擦除技术对非目标概念的意外负面影响(溢出退化),提出EraseBench基准测试框架覆盖视觉相似、二项关联、语义关联等多维度,揭示当前SOTA擦除方法在保留非目标概念的生成质量方面仍不可靠。

Exploring Multimodal Diffusion Transformers for Enhanced Prompt-based Image Editing

系统分析了多模态扩散Transformer(MM-DiT)的注意力机制,将注意力矩阵分解为四个功能性子块(I2I/T2I/I2T/T2T),并基于分析结果提出了一种高效的、通过替换图像输入投影(\(\mathbf{q}_i, \mathbf{k}_i\))实现的prompt-based图像编辑方法,适用于SD3系列和Flux.1等多种MM-DiT变体。

FaceCraft4D: Animated 3D Facial Avatar Generation from a Single Image

本文提出 FaceCraft4D 框架,通过组合 3D形状先验(PanoHead GAN反演)、2D图像先验(扩散模型增强纹理)和视频先验(LivePortrait 生成表情动画),从单张图像生成可动画的360度4D面部头像,并提出 COIN 训练策略解决多视角数据不一致问题,实现高质量实时渲染(156 FPS)。

Fair Generation without Unfair Distortions: Debiasing Text-to-Image Generation with Entanglement-Free Attention

提出 Entanglement-Free Attention(EFA),一种推理时应用的去偏见方法,通过修改跨注意力机制将目标属性(如性别、种族)注入人物区域,同时保持非目标属性(如背景、物品)不变,在消除生成偏见的同时避免引入新的不公平关联。

FedDifRC: Unlocking the Potential of Text-to-Image Diffusion Models in Heterogeneous Federated Learning

首次将预训练文本到图像扩散模型(Stable Diffusion)的内部表示引入联邦学习,提出 FedDifRC 框架,通过文本驱动的扩散对比学习(TDCL)和噪声驱动的扩散一致性正则化(NDCR)两个互补模块,有效缓解数据异质性问题,在多种 non-iid 场景下显著提升全局模型性能。

Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment

本文提出 PostDiff——一个无需训练的扩散模型加速框架,在输入层面通过混合分辨率去噪策略(早期低分辨率→后期高分辨率)和模块层面通过混合缓存策略(DeepCache + 交叉注意力缓存)减少冗余,系统性地回答了"减少去噪步数 vs 降低每步计算成本哪个更有效"这一关键问题——答案是后者在大多数效率范围内更优。

FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation

提出 FICGen,首次解决退化场景(低光照/水下/遥感/恶劣天气等)Layout-to-Image 生成中的"上下文幻觉困境",通过可学习双查询机制提取退化场景的高低频原型,经视觉-频率增强注意力注入 latent 扩散空间,并使用实例一致性图 + 空间-频率自适应聚合实现前景-背景解耦,在 5 个退化数据集上全面超越现有 L2I 方法。

Fix-CLIP: Dual-Branch Hierarchical Contrastive Learning via Synthetic Captions for Better Understanding of Long Text

Fix-CLIP 通过三大创新模块提升 CLIP 的长文本理解能力:(1)双分支训练管线用短文本配合 masked 图像、长文本配合原始图像分别对齐;(2)带单向掩码的可学习区域提示(Regional Prompts)提取局部视觉特征;(3)层级特征对齐模块对齐中间层多尺度特征。在 30M 合成长文本数据上增量训练后,长文本检索和短文本检索均大幅超越 SOTA,文本编码器可即插即用提升扩散模型长文本生成质量。

FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

提出 FLOAT,基于流匹配(Flow Matching)的音频驱动说话肖像生成方法,在正交运动潜空间中用 Transformer 架构预测向量场,实现高效(~10 步采样)、时序一致的高质量说话视频生成,并支持语音驱动的情绪增强和测试时头部姿态编辑。

FlowDPS: Flow-Driven Posterior Sampling for Inverse Problems

FlowDPS 通过推导 Flow 模型的 Tweedie 公式将 Flow ODE 分解为干净图像估计和噪声估计两个分量,在干净图像分量中注入似然梯度、在噪声分量中引入随机噪声,实现了基于 Flow 模型的后验采样逆问题求解,在 SD3.0 上的四种线性逆问题中超越所有已有方法。

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

FlowEdit 提出一种无需反转(inversion-free)、无需优化、模型无关的文本编辑方法,直接在预训练 Flow 模型的源/目标分布之间构建 ODE 路径,实现比 inversion 更低传输代价的结构保持编辑。

FlowTok: Flowing Seamlessly Across Text and Image Tokens

FlowTok 提出将文本和图像都编码为紧凑的 1D token 表示(77×16),通过 flow matching 直接在文本与图像 token 之间进行流动转换,无需复杂的条件机制或噪声调度,实现了高效的跨模态生成。

ForgeLens: Data-Efficient Forgery Focus for Generalizable Forgery Image Detection

提出 ForgeLens,一个基于冻结 CLIP-ViT 的特征引导框架,通过轻量级的权重共享引导模块(WSGM)和伪造感知特征集成器(FAFormer),引导冻结预训练网络聚焦伪造特征,仅用 1% 训练数据即达到 SOTA 泛化性能。

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

提出 Free4D,首个无需微调的单图像 4D 场景生成框架,通过 4D 几何结构初始化、自适应引导去噪保证空间一致性、参考潜变量替换保证时序一致性、基于调制的精化融合多视角信息为一致的 4D 高斯表示,实现实时可控渲染。

FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers

本文提出 FreeCus,一个完全免训练的主体驱动定制框架,通过关键注意力共享机制、改进的动态偏移特征提取和多模态大语言模型语义增强三大创新,激活扩散 Transformer(DiT)的内在零样本主体定制能力,达到与需要额外训练的方法相当甚至更优的效果。

FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model

FreeMorph 提出首个无需微调的通用图像变形方法,通过引导感知球面插值和步骤导向变化趋势两个创新设计,实现了 30 秒内在任意语义/布局的图像对之间生成平滑过渡序列,速度比现有方法快 10-50 倍。

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

提出 FreeScale,一种无需训练的推理范式,通过尺度融合(Scale Fusion)机制从不同感受野尺度提取并融合信息(全局高频 + 局部低频),配合定制化级联上采样和约束膨胀卷积,首次在单张 A800 GPU 上实现了 8K 分辨率的文本到图像生成,同时支持高分辨率视频生成。

From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers

提出 TaylorSeer,将扩散模型特征缓存范式从"缓存-重用"升级为"缓存-预测"——利用 Taylor 级数展开基于历史特征的高阶有限差分来预测未来时间步的中间特征,在 FLUX 上实现近乎无损的 4.99× 加速、在 HunyuanVideo 上实现 5.00× 加速,且完全无需额外训练。

GameFactory: Creating New Games with Generative Interactive Videos

提出 GameFactory,通过在预训练视频扩散模型上解耦游戏风格与动作控制的多阶段训练策略,实现了从小规模 Minecraft 数据学到的动作控制能力泛化到开放域任意场景的交互式游戏视频生成——这是首个提供完整技术论文且验证复杂动作空间(7键+鼠标)的场景泛化方法。

GAP: Gaussianize Any Point Clouds with Text Guidance

提出GAP框架,利用深度感知图像扩散模型将无色点云转化为高保真3D Gaussian表示,通过表面锚定机制确保几何精度,并设计基于扩散的inpainting策略补全难以观测区域。

Generating Multi-Image Synthetic Data for Text-to-Image Customization

提出 SynCD(合成定制数据集)及其生成管线,利用共享注意力和 3D 资产先验合成多图一致性对象数据集,训练的编码器模型在无需测试时优化的情况下超越现有编码器方法。

Generative Modeling of Shape-Dependent Self-Contact Human Poses

构建首个大规模精确形状标注的自接触姿态数据集Goliath-SC(383K姿态/130个subject),提出形状条件的部件感知潜在扩散模型PAPoseDiff来建模体型依赖的自接触姿态分布,并利用学到的扩散先验进行单视角姿态refinement,在unseen subject上超越BUDDI和SMPLer-X等SOTA方法。

GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning

提出 GenFlowRL,通过从跨具身数据集训练的流生成模型中提取的 δ-flow 表示进行奖励塑形,将生成式物体中心光流与强化学习结合,实现了鲁棒且可泛化的机器人操控策略学习,在 10 个操控任务上显著优于流式模仿学习和视频引导 RL 方法。

GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

发现"完美的图像重建并不总带来最佳视觉表征",提出 GenHancer——一种仅用轻量级随机初始化去噪器(约预训练重型去噪器 1/10 参数)和全局 [CLS] token 条件的两阶段后训练方法,通过自监督重建任务增强 CLIP 的细粒度视觉感知能力,在 MMVP-VLM 上比 DIVA 提升 6.0%。

Golden Noise for Diffusion Models: A Learning Framework

本文提出"噪声提示"(Noise Prompt)概念,设计了一个轻量级噪声提示网络(NPNet),通过 Re-denoise Sampling 收集 10 万对噪声数据训练 NPNet,将随机高斯噪声转化为承载语义信息的"黄金噪声",作为即插即用模块提升 SDXL 等多种扩散模型的生成质量,仅增加 3% 推理时间。

Grouped Speculative Decoding for Autoregressive Image Generation

提出 Grouped Speculative Decoding (GSD),一种免训练的自回归图像生成加速方法,通过在语义有效的 token 簇级别(而非单一最可能 token)进行推测验证,平均实现 3.7× 加速且不损失图像质量。

Guiding Noisy Label Conditional Diffusion Models with Score-based Discriminator Correction

提出Score-based Discriminator Correction (SBDC),通过训练一个轻量判别器在推理时校正噪声标签条件扩散模型的生成轨迹,利用噪声检测将训练集分为干净/腐败子集来训练判别器,并发现仅在采样过程的早中期阶段施加引导即可获得最优效果。

Holistic Tokenizer for Autoregressive Image Generation

提出 Hita,一种全局-局部(holistic-to-local)图像 tokenizer,通过可学习全局查询捕获纹理/材质/形状等全局属性,结合双码本量化和因果注意力融合模块,在不修改 AR 模型架构的前提下,将 ImageNet 256×256 生成 FID 降至 2.59、训练收敛加速 2.1 倍,并支持零样本风格迁移和图像补全。

Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning

HUB 提出了首个全面评估文生图扩散模型概念遗忘(concept unlearning)方法的基准框架,覆盖 33 个目标概念和 6 大评估维度(忠实度、对齐性、精确性、多语言鲁棒性、对抗鲁棒性、效率),每个概念使用 16,000 条 prompt,发现没有任何单一方法能在所有维度上占优。

HPSv3: Towards Wide-Spectrum Human Preference Score

HPSv3 构建了首个宽谱人类偏好数据集 HPDv3(1.08M 图文对、1.17M 标注对),采用 VLM 骨干(Qwen2-VL)+ 不确定性感知排序损失训练偏好模型,并提出 CoHP 链式思维迭代生成方法,显著提升图像生成评估的准确性和覆盖范围。

HypDAE: Hyperbolic Diffusion Autoencoders for Hierarchical Few-shot Image Generation

将双曲空间的层级表示学习能力与扩散自编码器的高质量生成能力结合,通过在 Poincaré 圆盘中操控潜码的半径和方向,实现可控、多样且保持类别一致性的小样本图像生成。

ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

提出 ILLUME,一个通过统一的下一 token 预测范式将多模态理解和生成能力整合进单个 LLM 的统一 MLLM。通过语义视觉分词器(减少4倍预训练数据量至15M)和自增强多模态对齐方案(让模型自评自生成图像与文本的一致性),在多种理解、生成和编辑任务上达到了State-of-the-art统一模型的竞争力甚至超越。

ImageGem: In-the-wild Generative Image Interaction Dataset for Generative Model Personalization

提出 ImageGem,首个大规模真实用户生成式交互数据集(57K用户 × 242K定制LoRA × 3M文本提示 × 5M生成图像),利用个体用户偏好标注实现三大应用:聚合偏好对齐超越 Pick-a-Pic、个性化检索与生成式推荐(VLM排序显著提升)、以及首次提出的生成模型个性化——在 LoRA 潜权重空间(W2W)中学习偏好编辑方向以定制扩散模型。

Improved Noise Schedule for Diffusion Training

提出从概率分布视角统一分析和设计扩散模型噪声调度的框架,发现将采样概率集中在 \(\log\text{SNR}=0\) 附近(信号与噪声临界点)的 Laplace 噪声调度,在相同训练预算下比标准 cosine 调度 FID 提升 26.6%,且优于所有损失权重调整方法。

Inference-Time Diffusion Model Distillation

提出 Distillation++,一种推理时扩散蒸馏框架,在采样过程中利用预训练教师模型的引导来修正学生蒸馏模型的去噪路径,无需额外训练数据或微调即可显著缩小师生模型间的性能差距。

InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

提出InfGen,一种"第二代生成"范式,用一个基于Transformer的生成器替换VAE解码器,从固定大小的latent一步解码出任意分辨率图像,无需修改或重新训练扩散模型,将4K图像生成时间压缩至10秒以内,比现有最快方法UltraPixel提速10倍以上。

InfiniDreamer: Arbitrarily Long Human Motion Generation via Segment Score Distillation

InfiniDreamer 通过将预训练的短序列运动扩散模型作为先验,提出 Segment Score Distillation (SSD) 优化方法,对粗初始化的长运动序列中的重叠短片段进行迭代优化,实现了无需额外长序列训练数据的任意长度人体运动生成。

Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing via Bidirectional Warping

提出Inpaint4Drag,将拖拽式图像编辑分解为像素空间双向warp和图像修复两个阶段,受弹性物体变形启发设计双向warping算法实现实时预览(0.01s)和高效生成(0.3s),比现有方法快600倍,且可作为任意修复模型的通用适配器。

IntroStyle: Training-Free Introspective Style Attribution using Diffusion Features

提出 IntroStyle,一种无需训练的风格归因方法,仅利用扩散模型自身中间层特征的通道级均值和方差统计量,通过 2-Wasserstein 距离度量图像间的风格相似性,在 WikiArt 和 DomainNet 上大幅超越需要专门训练的 SOTA 方法。

Invisible Watermarks, Visible Gains: Steering Machine Unlearning with Bi-Level Watermarking Design

提出 Water4MU,通过双层优化(BLO)框架将数字水印机制与机器遗忘(MU)相结合,在上层优化水印网络使其有利于遗忘,在下层执行遗忘优化,从而在不显著损害模型效用的前提下显著提升遗忘效果。

IRGPT: Understanding Real-world Infrared Image with Bi-cross-modal Curriculum on Large-scale Benchmark

提出 IRGPT,首个基于真实红外图像的多模态大语言模型,构建了包含 260K+ 图像-文本对的大规模红外-文本数据集 IR-TD,并设计了双跨模态课程迁移学习策略(Bi-cross-modal Curriculum),在 9 个红外任务基准上取得 SOTA 性能,零样本 psum 比基线 InternVL2-8B 提升 76.35。

Joint Diffusion Models in Continual Learning

提出 JDCL,将分类器与扩散生成模型统一为一个联合参数化的网络,结合知识蒸馏和两阶段训练策略,在生成重放式持续学习中大幅缓解灾难性遗忘,超越现有生成重放方法。

LaRender: Training-Free Occlusion Control in Image Generation via Latent Rendering

提出 LaRender,一种基于体渲染原理的免训练图像生成方法,通过在潜空间中对物体特征进行"渲染"来精确控制图像中物体之间的遮挡关系。该方法仅替换预训练扩散模型的交叉注意力层,不引入任何可学习参数,在遮挡精度上显著超越现有 SOTA 方法,且能实现语义透明度控制等丰富效果。

Latent Diffusion Models with Masked AutoEncoders

系统性地分析了 LDM 中自编码器应具备的三个关键属性(潜空间平滑性、感知压缩质量、重建质量),发现现有自编码器无法同时满足,提出 Variational Masked AutoEncoders (VMAEs),结合 MAE 的层次化特征和 VAE 的概率编码,在仅 13.4% 参数和 4.1% GFLOPs 的条件下显著提升生成质量(ImageNet-1K gFID: 5.98 vs SD-VAE 的 6.49)。

LATINO-PRO: LAtent consisTency INverse sOlver with PRompt Optimization

LATINO-PRO 首次将 Latent Consistency Model(LCM)作为生成先验嵌入零样本逆问题求解框架,仅需 8 次神经函数评估即达 SOTA 重建质量,并通过经验贝叶斯自动校准文本提示进一步提升性能。

Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers

提出 LayouSyn,基于轻量开源语言模型提取场景元素、结合宽高比感知扩散 Transformer 的开放词汇文本到布局生成流水线,在空间推理和数量推理基准上达到 SOTA。

LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching

LazyMAR针对Masked Autoregressive(MAR)模型的推理效率瓶颈,利用两种冗余——token冗余(相邻解码步中大部分token特征高度相似)和条件冗余(classifier-free guidance中条件/无条件输出的残差在相邻步间变化极小),设计了token cache和condition cache两种缓存机制,实现2.83×加速且几乎不损失生成质量。

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

LD-RPS 提出一种零样本、无数据集的统一图像复原方法,利用预训练潜在扩散模型进行循环后验采样,通过多模态大模型提供语义先验、可学习 F-PAM 模块对齐退化域,实现多种退化类型的高质量盲复原。

Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model

TP-Diff 首次将扩散模型引入无配对图像去模糊任务,通过记忆增强的纹理先验编码器(TPE)学习空间可变的纹理先验,并设计滤波调制自注意力(FM-MSA)利用该先验实现精准去模糊,以仅 11.89M 参数在多个基准上刷新无监督 SOTA。

Learning Few-Step Diffusion Models by Trajectory Distribution Matching

提出 Trajectory Distribution Matching(TDM),一种统一轨迹蒸馏和分布匹配的新范式,在分布层面对齐学生与教师的 ODE 轨迹,实现高效的少步扩散模型蒸馏,仅需 2 A800 小时即可将 PixArt-α 蒸馏为超越教师的 4 步生成器。

Learning to See in the Extremely Dark

提出配对到配对的数据合成管线构建极暗场景(低至0.0001 lux)RAW图像增强数据集SIED,并设计基于扩散模型的框架,通过自适应光照校正模块(AICM)和颜色一致性损失实现极低信噪比RAW图像的高质量恢复。

Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

本文提出 UNO,一种基于 DiT 的通用定制化生成模型,通过"模型-数据共进化"范式——利用较弱模型生成的合成数据逐步训练更强模型——结合渐进式跨模态对齐和 Universal RoPE,实现了单主体和多主体驱动图像生成的 SOTA 性能(DreamBench DINO 0.760, CLIP-I 0.835)。

Less is More: Improving Motion Diffusion Models with Sparse Keyframes

提出 sMDM,一种以稀疏关键帧为核心的运动扩散框架,通过 masking-interpolation 策略和 Visvalingam-Whyatt 关键帧选择算法,减少冗余帧处理,在文本对齐和运动质量上持续超越密集帧基线。

LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding

LIFT 提出了一个基于元学习的多尺度隐式神经表示框架,通过并行局部隐式函数和层次化潜变量生成器,实现跨任务(生成、分类)和跨数据模态(2D 图像、3D 体素)的统一编码,在重建和生成任务上均达到 SOTA 且计算成本大幅降低。

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation

系统研究如何将预训练 DiT 安全高效地转换为线性注意力版本 LiT,提出 5 条实践指南(深度卷积增强、少头策略、权重继承、选择性加载、混合蒸馏),仅需 DiT 训练步数的 20% 即可达到可比性能。

Long-Context State-Space Video World Models

本文提出将状态空间模型(SSM/Mamba)引入视频世界模型,通过 block-wise SSM 扫描方案在空间一致性和时序记忆之间权衡,配合局部帧注意力,实现了线性训练复杂度、常数推理开销下的长期空间记忆保持,在 Memory Maze 和 Minecraft 数据集上大幅超越有限上下文的 Transformer 基线。

Looking in the Mirror: A Faithful Counterfactual Explanation Method for Interpreting Deep Image Classification Models

将分类器的决策边界视为"镜面",通过将特征表示"反射"到镜面另一侧生成反事实解释(CFE),并设计三角测量损失保持潜在空间到图像空间的距离关系,实现忠实、可控且可动画化的反事实解释。

LoRAverse: A Submodular Framework to Retrieve Diverse Adapters for Diffusion Models

将从100K+ LoRA适配器库中检索相关且多样化的LoRA组合建模为组合优化问题,提出基于子模函数最大化的LoRAverse框架,通过概念提取+子模检索实现兼顾相关性和多样性的LoRA选择。

LUSD: Localized Update Score Distillation for Text-Guided Image Editing

LUSD 通过注意力空间正则化和梯度过滤归一化两个简单修改,解决了现有分数蒸馏方法在图像编辑(尤其是物体插入)中因梯度幅值和空间分布差异过大而导致失败的问题,在 prompt 忠实度和背景保留之间取得了更好的平衡。

M2SFormer: Multi-Spectral and Multi-Scale Attention with Edge-Aware Difficulty Guidance for Image Forgery Localization

提出 M2SFormer,在编码器-解码器的 skip connection 中统一多光谱(2D DCT 频域)和多尺度(SIFT 风格空间金字塔)注意力机制,并设计基于边缘感知曲率的难度引导注意力解码器,在图像篡改定位任务中实现跨域泛化性能 SOTA(CASIAv2 训练方案下 unseen 域平均 DSC 43.0%,mIoU 34.3%)。

Make Me Happier: Evoking Emotions Through Image Diffusion Models

EmoEditor 提出首个系统性的情感驱动图像生成框架,通过双分支扩散模型(全局情感条件 + 局部语义特征)实现仅输入源图和目标情感即可生成具有目标情感的图像,无需手工文本指令或参考图,并构建了 340K 情感标注图对的 EmoPair 数据集。

MamTiff-CAD: Multi-Scale Latent Diffusion with Mamba+ for Complex Parametric Sequence

提出MamTiff-CAD框架,结合Mamba+编码器与Transformer解码器的自编码器学习CAD命令序列的潜表示,再用多尺度Transformer扩散模型生成,首次实现60-256命令长度的复杂CAD模型生成。

MaskControl: Spatio-Temporal Control for Masked Motion Synthesis

MaskControl 首次将空间可控性引入生成式掩码运动模型,通过 Logits Regularizer(训练时隐式对齐)和 Logits Optimization(推理时显式优化)两个核心组件操控 token 分类器的 logits,同时实现高质量运动生成(FID 降低 77%)和高精度关节控制(平均误差 0.91cm vs 1.08cm)。

MatchDiffusion: Training-free Generation of Match-Cuts

提出MatchDiffusion,利用扩散模型早期去噪步骤定义场景宏观结构、后期步骤添加细节的特性,通过Joint Diffusion和Disjoint Diffusion两阶段无训练方法实现自动match-cut视频生成。

MAVFlow: Preserving Paralinguistic Elements with Conditional Flow Matching for Zero-Shot AV2AV Multilingual Translation

提出 MAVFlow,基于条件流匹配(CFM)的零样本音视觉渲染器,通过音频说话人嵌入和视觉情感嵌入的双模态引导,在多语言 AV2AV 翻译中保持说话人一致性。

Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts

本文提出了扩散模型的元遗忘(Meta-Unlearning)框架,在标准遗忘目标之外增加一个元目标,使得模型在被恶意微调时,与遗忘概念相关的良性知识会自毁,从而阻止已遗忘概念的重新学习,该框架兼容大多数现有遗忘方法且仅需添加一个简单的元目标。

Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching

本文发现视觉基础模型(如 DINOv2)在图像特征匹配中存在"对齐偏差"——基于对比学习的模型丢失了实例级细节且缺乏跨图像交互机制,导致多实例场景匹配失败。为此提出 IMD 框架,利用扩散模型作为特征提取器保留实例级细节,并设计跨图像交互提示模块(CIPM)实现双向信息交互,在标准基准和新提出的多实例基准 IMIM 上均达到 SOTA,多实例场景提升 12%。

MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance

MMAIF 提出统一的多任务、多退化、语言引导图像融合框架,通过实际退化流水线和现代化 DiT 架构在潜在空间操作,同时提供回归和 Flow Matching 两个版本,在各类退化融合任务上超越现有 restoration+fusion 流水线。

MoFRR: Mixture of Diffusion Models for Face Retouching Restoration

本文首次提出人脸修图还原(FRR)任务,并设计 MoFRR 框架——借鉴 DeepSeek MoE 思想,通过路由器激活特定修图类型的专家(小波 DDIM)和共享专家(通用 DDIM),在新构建的百万级 RetouchingFFHQ++ 数据集上实现了修图人脸的近真实还原。

MosaicDiff: Training-free Structural Pruning for Diffusion Model Acceleration Reflecting Pretraining Dynamics

本文提出 MosaicDiff,一种免训练的扩散模型结构化剪枝方法,通过将推理过程按预训练学习速度动态分为三个阶段并对各阶段应用不同稀疏度的子网络,实现了在 DiT 和 SDXL 上的显著加速而不牺牲生成质量。

MotionDiff: Training-Free Zero-Shot Interactive Motion Editing via Flow-Assisted Multi-View Diffusion

MotionDiff 提出一种免训练、零样本的多视图运动编辑方法,通过点运动学模型(PKM)从静态场景估计多视图光流,再利用解耦运动表示引导 Stable Diffusion 生成高质量、多视图一致的运动编辑结果。

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

提出 MotionStreamer,将连续因果潜空间与扩散头结合到自回归框架中,实现文本条件下的流式人体动作生成,支持在线多轮生成和动态运动组合。

Multi-turn Consistent Image Editing

提出基于 flow matching 的多轮图像编辑框架,通过双目标 LQR 引导和自适应注意力机制,有效抑制多轮编辑中的误差累积,在保持内容一致性的同时实现灵活可控的迭代编辑。

Multimodal Latent Diffusion Model for Complex Sewing Pattern Generation

提出 SewingLDM,一个多模态条件潜空间扩散模型,通过扩展缝纫版型表示和两阶段训练策略,实现在文本、草图、体型条件控制下合复杂缝纫版型,并可无缝集成到 CG 仿真管线。

MUNBa: Machine Unlearning via Nash Bargaining

将机器遗忘(Machine Unlearning)建模为双玩家合作博弈问题,利用 Nash 讨价还价理论推导闭式解来同时解决遗忘目标与保留目标之间的梯度冲突和梯度支配问题,在分类和生成任务上实现遗忘与保留的最优平衡。

Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling

提出 SoulDance 数据集(首个含身体+手部+面部的高质量3D舞蹈数据集)和 SoulNet 框架(层次化残差向量量化 + 音乐对齐生成模型 + 跨模态检索),实现首个面部表情与身体手部动作协调一致、与音乐节奏情感对齐的全身3D舞蹈生成。

NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

NuiScene 提出使用向量集(vector set)编码场景块的高效方法,配合显式 outpainting 扩散模型实现快速无界户外场景生成,并策划了 NuiScene43 高质量户外场景数据集。

NullSwap: Proactive Identity Cloaking Against Deepfake Face Swapping

提出 NullSwap,通过在源图像中嵌入身份引导的不可见扰动来伪装面部身份信息,使 Deepfake 换脸模型无法提取正确身份,从而在纯黑盒场景下主动防御换脸攻击。

Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Omegance 提出仅通过一个参数 \(\omega\) 缩放扩散模型去噪步骤中的噪声预测,即可无需重训练地实现对生成图像/视频细节粒度的全局、空间和时序精细控制,方法与架构无关且兼容 SDXL、SD3、FLUX 等多种模型。

OminiControl: Minimal and Universal Control for Diffusion Transformer

提出OminiControl,仅需0.1%额外参数即可在DiT架构上实现空间对齐和非对齐两类图像控制任务的统一处理,核心创新包括统一序列处理、动态位置编码和注意力偏置控制机制。

OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

提出 OmniPaint 统一框架,将物体移除与插入重新定义为互逆互补的关联任务,基于 FLUX 扩散先验并引入 CycleFlow 无配对训练机制和 CFD 无参考评估指标,仅用 3K 真实配对样本即可实现高保真的物体编辑,尤其擅长处理阴影、反射等复杂物理效果。

OmniVTON: Training-Free Universal Virtual Try-On

OmniVTON 提出首个无需训练的通用虚拟试穿框架,通过解耦服装纹理与姿态条件,利用结构化服装变形、连续边界缝合和频谱姿态注入三大模块,在 in-shop 和 in-the-wild 场景中均实现高保真试穿,并首次支持多人试穿。

Ouroboros: Single-step Diffusion Models for Cycle-consistent Forward and Inverse Rendering

本文提出 Ouroboros,一个由两个单步扩散模型(分别负责逆渲染 RGB→X 和前向渲染 X→RGB)组成的统一框架,通过循环一致性训练确保双向渲染的一致性,在多个数据集上取得 SOTA 的同时推理速度比多步扩散方法快 50 倍,并可零样本迁移到视频分解。

PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs

提出 PanoLlama,通过 token 重定向策略将固定尺寸的视觉自回归(VAR)模型扩展为无限全景生成,实现免训练的 next-crop prediction,在连贯性、保真度和美学上超越联合扩散等方法。

PatchScaler: An Efficient Patch-Independent Diffusion Model for Image Super-Resolution

本文提出 PatchScaler,一种 Patch 级独立扩散超分管线,通过全局修复模块生成置信度图量化各区域重建难度,并将 Patch 分组为简单/中等/困难三组分配不同采样步数,搭配纹理提示检索机制,在 RealSR 上仅 0.23× ResShift 运行时间达到更优质量。

Penalizing Boundary Activation for Object Completeness in Diffusion Models

本文深入分析了扩散模型生成不完整物体的根本原因——训练中使用的 RandomCrop 数据增强,并提出一种训练免费的边界激活惩罚方法,通过在早期去噪步骤中利用交叉注意力和自注意力约束抑制物体在图像边缘生成,将 SDv2.1 的物体不完整率从 45.7% 降至 17.3%。

PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation

本文提出 PersonalVideo 框架,通过混合奖励监督(身份一致性奖励+语义一致性奖励)直接对生成视频施加反馈,消除了传统方法中 T2I 调优与 T2V 推理之间的分布差距,在保持高身份保真度的同时避免了运动动态和语义跟随的退化。

PINO: Person-Interaction Noise Optimization for Long-Duration and Customizable Motion Generation of Arbitrary-Sized Groups

提出Person-Interaction Noise Optimization(PINO),一种无需训练的框架,将复杂的多人群体交互分解为语义明确的两人交互对,利用预训练的两人交互扩散模型通过噪声优化和物理惩罚项顺序合成任意规模的群体交互运动,支持精细化用户控制和长时序运动生成。

PLA: Prompt Learning Attack against Text-to-Image Generative Models

本文提出 PLA(Prompt Learning Attack),一种针对黑盒 T2I 模型的梯度驱动对抗攻击框架,通过敏感知识编码和多模态相似度损失来学习对抗性 prompt,从而绕过 prompt 过滤器和后置安全检查器,平均 ASR-4 达 90%+,远超现有方法。

Pretrained Reversible Generation as Unsupervised Visual Representation Learning

PRG 通过反转预训练连续生成模型(扩散/流模型)的生成过程来提取无监督视觉表示,实现模型无关的判别任务适配,在 ImageNet 64×64 上达到 78% top-1 准确率,为基于生成模型的方法中 SOTA。

Randomized Autoregressive Visual Generation

提出 Randomized AutoRegressive modeling (RAR):在标准自回归训练中以随机排列输入序列并逐步退火回光栅扫描顺序,使模型学习双向上下文,在 ImageNet-256 上以 FID 1.48 刷新自回归图像生成 SOTA,同时保持与语言模型框架的完全兼容。

REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents

提出 Reducio-VAE,一种以内容帧为条件的 3D 视频自编码器,将视频压缩至比标准 2D VAE 小 64 倍的运动潜空间,配合 Reducio-DiT 在单张 A100 上 15.5 秒内生成 16 帧 1024x1024 视频,训练仅需 3200 A100 GPU 小时。

ReFlex: Text-Guided Editing of Real Images in Rectified Flow via Mid-Step Feature Extraction and Attention Adaptation

针对 Rectified Flow(ReFlow)模型的真实图像编辑难题,通过系统分析 MM-DiT 的中间表示,识别出三个关键特征(I2I-SA、I2T-CA、残差特征),并提出中间步特征提取(mid-step feature extraction)和两种注意力适配技术,在 FLUX 模型上实现了无需训练、无需用户掩码的高质量真实图像编辑,人类评估中 68.2% 优选率远超其他方法。

REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder

提出 REGEN,用扩散 Transformer(DiT)替代传统 VAE 解码器作为视频的再生式解码器,通过"生成而非精确重建"的学习范式突破视频时序压缩瓶颈,实现最高 32× 时序压缩。

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

本文提出 REPA-E,通过表示对齐(REPA)损失实现 VAE 和潜在扩散 Transformer 的端到端联合训练,训练速度分别比 REPA 和普通训练快 17× 和 45×,在 ImageNet 256×256 上达到 FID 1.12 的新SOTA。

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

提出 REPA-E,首个成功实现 VAE 与潜在扩散模型端到端联调的训练方案,通过表征对齐(REPA)损失而非扩散损失来更新 VAE,训练速度提升 17-45 倍并达到 ImageNet 256 新 SOTA(FID 1.12)。

Rethink Sparse Signals for Pose-guided Text-to-Image Generation

提出 SP-Ctrl(Spatial-Pose ControlNet),通过可学习空间姿态表示(SPR)替换 OpenPose 的固定 RGB 编码,并引入关键点概念学习(KCL)策略利用交叉注意力热力图约束增强关键点对齐,使稀疏姿态信号达到与密集信号(深度图/DensePose)相当的姿态控制精度,同时保持图像多样性和跨物种生成能力。

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

分析发现 MM-DiT 架构(FLUX、SD3.5)中视觉与文本 token 数量不对称导致交叉注意力被抑制、且注意力权重对时间步不敏感,提出 TACA(Temperature-Adjusted Cross-modal Attention)通过温度缩放和时间步自适应调整重新平衡多模态交互,结合 LoRA 微调在 T2I-CompBench 上显著提升文图对齐(空间关系+16.4%、形状+5.9%),且几乎无额外计算开销。

Rethinking Layered Graphic Design Generation with a Top-Down Approach

提出Accordion框架,采用自顶向下策略将AI生成的栅格化设计图转换为可编辑的分层设计(含背景、前景对象、矢量化文本层),由VLM在参考创建、设计规划和层生成三个阶段扮演不同角色。

Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

提出 VLN-PE,首个物理真实的视觉-语言导航平台,支持人形、四足和轮式机器人,系统评估现有 VLN 方法在真实物理约束下的性能,揭示了仿真到物理部署中 34% 的成功率下降。

Revelio: Interpreting and Leveraging Semantic Information in Diffusion Models

Revelio 使用 k-稀疏自编码器(k-SAE)揭示扩散模型不同层和时间步中蕴含的单语义(monosemantic)可解释特征,并通过轻量分类器 Diff-C 验证这些特征的迁移学习价值,实现对黑盒扩散模型的深度解读。

SA-LUT: Spatial Adaptive 4D Look-Up Table for Photorealistic Style Transfer

本文提出 SA-LUT,通过风格引导的 4D 查找表和内容-风格交叉注意力生成的上下文映射,实现空间自适应的写实风格迁移,在新提出的 PST50 基准上 LPIPS 相比 3D LUT 方法降低 66.7%,同时支持 4K 视频 16 FPS 实时处理。

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

SANA-Sprint 提出混合蒸馏框架(连续时间一致性模型 + 潜空间对抗蒸馏),将预训练 Flow Matching 模型无损转换为 TrigFlow 并通过 sCM+LADD 联合训练,实现 1-4 步统一自适应高质量文本到图像生成,H100 上单步仅需 0.1 秒。

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

将预训练的SANA flow matching模型通过无损数学变换转化为TrigFlow,结合连续时间一致性蒸馏(sCM)和潜空间对抗蒸馏(LADD)的混合策略,实现统一的1-4步自适应高质量图像生成,1步生成1024×1024图像仅需0.1s(H100),以7.59 FID和0.74 GenEval超越FLUX-schnell且速度快10倍。

SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models

提出SCFlow,通过Flow Matching学习风格和内容的可逆合并映射,利用映射的可逆性让解耦作为合并过程的自然涌现属性,无需显式解耦监督。

ScoreHOI: Physically Plausible Reconstruction of Human-Object Interaction via Score-Guided Diffusion

ScoreHOI 利用 score-based 扩散模型作为优化器,结合 DDIM 逆向-正向采样与物理约束(接触、穿透、地面接触)引导去噪过程,并通过接触驱动的迭代细化策略,从单目图像实现物理合理的人体-物体交互三维重建,在 BEHAVE 上接触 F-Score 提升 9%。

SDMatte: Grafting Diffusion Models for Interactive Matting

本文提出 SDMatte,基于 Stable Diffusion 的交互式抠图模型,通过视觉提示驱动交叉注意力、坐标/不透明度嵌入和掩码自注意力三项设计,将扩散模型的文本交互能力转化为视觉提示交互能力,在多个数据集上显著超越 SAM-based 方法。

Semantic Discrepancy-aware Detector for Image Forgery Identification

提出语义差异感知检测器(SDD),通过语义 token 采样、概念级伪造差异学习和低层伪造特征增强三个模块,利用重建学习将 CLIP 的视觉语义概念空间与伪造空间进行细粒度对齐,在 UnivFD 和 SynRIS 基准上取得 SOTA 性能(\(ap_m\) 98.51%,AUROC 95.1%)。

Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity

针对潜扩散模型(LDM)的语义水印方法因丢弃虚部而导致频率完整性缺失的问题,提出厄密对称傅里叶水印(SFW)和中心感知嵌入策略,在维持频域完整性的同时增强检测鲁棒性和生成质量。

ShortFT: Diffusion Model Alignment via Shortcut-based Fine-Tuning

提出 ShortFT,利用轨迹保持少步扩散模型构建去噪捷径(shortcut),将原本冗长的去噪链大幅缩短,从而实现完整的端到端奖励梯度反向传播,高效且有效地将扩散模型与奖励函数对齐。

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

SliderSpace 通过对扩散模型在给定提示下生成图像的 CLIP 特征做 PCA 分解,自动发现多个语义正交的可控方向,每个方向训练为 LoRA 适配器(slider),实现了无需人工指定属性的概念分解、艺术风格探索和多样性增强。

SMGDiff: Soccer Motion Generation using Diffusion Probabilistic Models

提出 SMGDiff,一个两阶段扩散模型框架,能够根据用户控制信号实时生成高质量、多样化的足球运动动画,同时通过接触引导模块优化球-脚交互细节。

Spectral Image Tokenizer

提出 Spectral Image Tokenizer (SIT),用离散小波变换 (DWT) 将图像从空域转换到频域后再进行 token 化,使 token 序列天然地按"粗到细"排列,从而支持多分辨率重建、渐进式生成、文本引导上采样与编辑等传统 raster-scan tokenizer 无法实现的能力。

Straighten Viscous Rectified Flow via Noise Optimization

本文提出 VRFNO(Viscous Rectified Flow via Noise Optimization),通过引入历史速度项增强轨迹区分度、并用编码器联合训练来优化噪声构建最优耦合,有效拉直 Rectified Flow 的推理轨迹,在 CIFAR-10 和 AFHQ 上取得单步/少步生成的 SOTA 性能(单步 FID 4.50,无需蒸馏)。

StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

StreamDiffusion 提出管线级实时扩散框架,通过 Stream Batch(去噪步骤批处理)、R-CFG(残差无分类器引导)和 SSF(随机相似性过滤)等策略,在单张 RTX 4090 上实现高达 91 fps 的实时图像生成,比 Diffusers AutoPipeline 快 59.6 倍。

Structure-Guided Diffusion Models for High-Fidelity Portrait Shadow Removal

本文将人像阴影去除建模为扩散 Inpainting 问题,通过训练光照无关的结构提取网络获取排除阴影边界的结构图、以结构图引导 Inpainting 扩散模型修复阴影区域,再用梯度引导细节恢复扩散模型补回精细面部细节,在基准数据集上显著超越现有方法。

StyleKeeper: Prevent Content Leakage using Negative Visual Query Guidance

提出 负视觉查询引导(NVQG) 方法,通过在 self-attention 层中将参考图的 query 注入作为负向引导来抑制内容泄漏,实现了无需训练的高质量视觉风格提示,在风格相似度和文本对齐上均优于现有方法。

StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion

提出 StyleMotif,一个单分支运动潜在扩散框架,通过风格-内容交叉归一化机制统一内容生成与多模态(文本/图片/视频/音频/运动)风格注入,相比 SMooDi 双分支设计减少 43.9% 可训练参数并提速 22.5%,同时在风格识别准确率(SRA)上提升 5.23%。

SummDiff: Generative Modeling of Video Summarization with Diffusion

SummDiff 首次将扩散模型引入视频摘要任务,将其定义为条件生成问题,通过学习"好摘要"的分布来生成多种合理摘要,更好地反映视频摘要任务固有的主观性。

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

SuperEdit 通过利用扩散生成先验引导 VLM 修正编辑指令、并构建对比监督信号(正/负指令 + triplet loss)来解决指令式图像编辑中的噪声监督问题,以更少数据和更小模型超越 SmartEdit 9.19%。

Synthesizing Near-Boundary OOD Samples for Out-of-Distribution Detection

本文提出 SynOOD,利用 MLLM 提取上下文语义 + 扩散模型迭代 inpainting + OOD 梯度引导,合成靠近 InD/OOD 边界的挑战性 OOD 样本,用于微调 CLIP 图像编码器和负标签特征,在 ImageNet 基准上 AUROC 提升 2.80%、FPR95 降低 11.13%。

TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation

TaxaDiffusion 利用生物分类学的层级结构(Kingdom→Phylum→Class→Order→Family→Genus→Species)渐进式训练扩散模型,从高层共有特征逐步细化到物种级别的细微差异,实现了高精度的细粒度动物图像生成,在 FishNet 数据集上 FID 降至 31.87(vs LoRA 的 43.91),BioCLIP 对齐分数提升 37%,且对样本极少(甚至仅 1 张)的稀有物种同样有效。

TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance

本文提出 TeEFusion,通过将 CFG 的引导幅度直接编码为条件/无条件文本嵌入的线性组合来替代双重前向传播,实现零额外参数的高效 CFG 蒸馏,同时兼容教师模型的复杂采样策略(如 Z-Sampling、W2SD),使学生模型推理速度达教师的 6 倍。

TeRA: Rethinking Text-guided Realistic 3D Avatar Generation

提出TeRA,首个基于隐空间扩散模型的文本引导3D真人头像生成框架,通过蒸馏大规模人体重建模型构建结构化隐空间,12秒生成写实3D人物,比SDS方法快两个数量级。

Text Embedding Knows How to Quantize Text-Guided Diffusion Models

首次利用文本提示(text prompt)指导扩散模型的动态量化比特分配——通过预测文本对应的生成图像质量,为不同层和时间步自适应选择高/中/低比特精度,在降低计算复杂度的同时保持甚至提升生成质量。

The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

本文揭示了条件流匹配中使用标准最优传输(OT)会导致训练-测试不匹配的"条件诅咒"问题——OT 忽略条件信息导致训练时先验分布产生条件偏移,而测试时用的是无偏先验,并提出了 C²OT(Conditional Optimal Transport)通过在 OT 代价矩阵中加入条件权重项来修复此问题。

The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation

本文提出 NoiseQuery,一种免训练的 T2I 生成增强方法,通过预构建大规模噪声库并在推理时检索与用户目标最匹配的初始噪声,实现高级语义和低级视觉属性的细粒度控制,仅需 0.002 秒/prompt 的额外开销即可提升多种 T2I 模型和增强技术的效果。

Timestep-Aware Diffusion Model for Extreme Image Rescaling

提出 TADM,在预训练 SD 的潜空间中执行极端图像缩放(16×/32×),通过解耦特征缩放模块和时间步自适应对齐策略,动态分配扩散模型的生成能力以应对空间非均匀退化。

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

提出 TLB-VFI,一种高效的视频扩散模型用于帧插值:通过时域感知自编码器(隐空间时域块+像素空间3D小波门控)提取丰富的时间信息,结合重新设计的布朗桥扩散过程,在参数量仅 46.7M(比图像扩散方法少 3×、比视频扩散方法少 20×)的情况下,在 SNU-FILM extreme 和 Xiph-4K 上 FID 提升约 20%。

Towards Robust Defense against Customization via Protective Perturbation Resistant to Diffusion-based Purification

提出AntiPure——一种抗净化(anti-purification)保护性扰动方法,通过Patch-wise频域引导和错误时间步引导两种机制,使保护性扰动在被扩散净化后仍能有效干扰定制化生成(DreamBooth/LoRA),实现最小感知差异和最大输出失真的双重目标。

Trade-offs in Image Generation: How Do Different Dimensions Interact?

提出 TRIG-Bench 基准(40,200 样本,10 个评估维度,132 个成对维度子集),以及 VLM-as-Judge 指标 TRIGScore,首次系统性地揭示和分析了图像生成模型在不同评估维度(如真实性、关系对齐、风格等)之间的权衡关系,并通过维度权衡图(DTM)指导微调实现性能提升。

Trans-Adapter: A Plug-and-Play Framework for Transparent Image Inpainting

提出Trans-Adapter,一种即插即用的适配器模块,使基于扩散的图像修复模型能直接处理透明(RGBA)图像,同时引入LayerBench基准和Alpha边缘质量(AEQ)度量指标。

Transformed Low-rank Adaptation via Tensor Decomposition and Its Applications to Text-to-image Models

提出 TLoRA 方法,将预训练权重的微调分解为 变换(Transform)残差(Residual) 两个适应部分,分别采用张量环矩阵(TRM)和张量环(TR)分解进行参数化,在 SDXL 上实现了仅 0.4M 参数的超参数高效微调,同时性能优于 LoRA 等基线方法。

TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

提出 TRCE,通过两阶段概念擦除策略(文本语义擦除 + 去噪轨迹转向),在可靠擦除恶意概念的同时最小化对模型正常生成能力的影响。

Understanding Flatness in Generative Models: Its Role and Benefits

本文首次系统研究损失景观平坦性在生成模型(尤其是扩散模型)中的角色与优势,理论证明平坦极小值可增强对先验分布扰动的鲁棒性,实验表明 SAM 能有效提升扩散模型的平坦性,从而改善生成质量、降低暴露偏差和量化误差。

UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer

UniCombine 提出基于 DiT 的多条件可控生成框架,通过 Conditional MMDiT Attention 机制和 LoRA Switching 模块,实现任意条件组合(文本+空间图+主体图像)的统一生成,支持 training-free 和 training-based 两种模式,并构建了首个多条件生成数据集 SubjectSpatial200K。

Unlocking the Potential of Diffusion Priors in Blind Face Restoration

本文提出 FLIPNET,一个基于 T2I 扩散模型的统一框架,通过翻转输入在修复模式(BoostHub 选择性融合 LQ 特征 + BFR-oriented 面部嵌入)和退化模式(从真实退化数据集学习并合成退化图像)之间切换,同时解决 HQ/LQ 分布差距和合成/真实退化差距两大难题。

Unsupervised Imaging Inverse Problems with Diffusion Distribution Matching

DDM4IP 提出一种无监督框架,利用条件流匹配(Conditional Flow Matching)建模退化分布,同时通过分布匹配损失自动学习未知的前向退化模型,仅需少量非配对数据即可在去模糊、非均匀 PSF 标定和盲超分辨率任务上达到或超过现有方法。

Video Color Grading via Look-Up Table Generation

提出基于扩散模型显式生成 LUT 的视频调色框架:通过 GS-Extractor 提取参考场景的高层风格特征,用 L-Diffuser 生成色彩查找表(LUT),一次生成即可无损应用于全部视频帧,并支持文本 prompt 进行亮度/对比度等细粒度调整。

Video Motion Graphs

Video Motion Graphs 提出了一个基于检索+生成的通用人体运动视频系统,通过将参考视频构建为运动图结构并进行条件化路径搜索获取关键帧,再利用 HMInterp(一个双分支扩散帧插值模型,结合运动扩散模型的骨骼引导和渐进式条件训练)来无缝连接不连续帧,在多种条件(音乐、语音、动作标签)下生成高质量人体运动视频,显著优于生成式和检索式基线。

VIGFace: Virtual Identity Generation for Privacy-Free Face Recognition Dataset

提出 VIGFace 框架,通过在人脸识别模型的特征空间中预先分配与真实身份正交的虚拟原型(virtual prototypes),训练扩散模型从虚拟原型生成不存在于真实世界的人脸图像,实现隐私无忧的人脸识别数据集构建和数据增强。

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

提出 VisualCloze,将多种图像生成任务统一为"视觉完形填空"范式——用视觉示例(而非文本指令)定义任务,通过图像 infilling 模型实现统一生成,并构建 Graph200K 图结构数据集增强任务间知识迁移,支持域内任务、未见任务泛化、多任务组合和反向生成。

What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?

通过系统分析LoRA微调中\(W_{\{q,k,v,o\}}\)各组件的行为,揭示了\(W_v\)\(W_o\)负责学习全景球面结构而\(W_q\)\(W_k\)保留透视域共享知识的机制,并据此提出高效的单分支全景生成框架UniPano。

What's in a Latent? Leveraging Diffusion Latent Space for Domain Generalization

深入分析了不同预训练模型(CLIP、DiT、SD、MAE、DINOv2、ResNet)隐空间的域分离能力,发现扩散模型特征在无监督情况下最擅长分离域信息,并提出 GUIDE 框架——用扩散特征发现伪域表征并增广分类器特征,在 5 个 DomainBed 数据集上无需域标签即取得 66.3% 平均准确率(超越 ERM 基线 +2.6%,在 TerraIncognita 上 +4.3%),且优于大多数需要域标签的方法。

Your Text Encoder Can Be An Object-Level Watermarking Controller

通过仅微调文本编码器中的伪 token 嵌入 \(\mathcal{W}_*\),实现对 T2I 扩散模型生成图像的对象级不可见水印嵌入,以 \(10^5\times\) 更少的参数达到 99% 的比特准确率(48 bits)。