🎨 图像生成¶
📷 CVPR2025 · 306 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (11) · 📷 CVPR2026 (240) · 🔬 ICLR2026 (154) · 🤖 AAAI2026 (78) · 🧠 NeurIPS2025 (250) · 📹 ICCV2025 (219)
🔥 高频主题: 扩散模型 ×111 · 文生图 ×21 · 个性化生成 ×19 · 对抗鲁棒 ×13 · 布局/合成 ×11
- 3DTopia-XL: Scaling High-Quality 3D Asset Generation via Primitive Diffusion
-
提出基于新型原语表示PrimX和Diffusion Transformer的原生3D生成模型3DTopia-XL,能从文本或图像输入生成带有高分辨率几何、纹理和PBR材质的高质量3D资产,在质量和效率上显著超越现有方法。
- A Bias-Free Training Paradigm for More General AI-generated Image Detection
-
提出B-Free训练范式——通过stable diffusion的自条件重构从真实图像生成语义对齐的假图,结合inpainting内容增强,消除格式/内容/分辨率等偏差,使检测器聚焦于生成器特有的伪影痕迹,在27种生成模型(含FLUX、SD 3.5等最新模型)上泛化AUC>99%,balanced accuracy达95.2%。
- A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation
-
系统研究了使用decoder-only LLM作为文本到图像扩散模型文本编码器的效果,发现直接使用最后一层embedding效果差于T5,但通过层归一化平均(layer-normalized averaging)聚合所有层的embedding可显著超越T5基线。
- AMO Sampler: Enhancing Text Rendering with Overshooting
-
提出AMO(Attention-Modulated Overshooting)采样器,一种无需训练的推理时增强方法,通过在rectified flow模型的采样过程中引入过冲-噪声补偿的Langevin动力学校正,并利用文本-图像交叉注意力分数自适应控制过冲强度,显著提升文本渲染的准确率,同时保持生成图像的整体质量。
HOI-IDiff: An Image-like Diffusion Method for Human-Object Interaction Detection
AniDoc: Animation Creation Made Easier
- AniMer: Animal Pose and Shape Estimation Using Family Aware Transformer
-
本文提出 AniMer,首次将高容量 ViT 骨干引入四足动物 SMAL 参数估计,通过动物科级监督对比学习区分不同物种的形状分布,配合基于 ControlNet 的合成数据集 CtrlAni3D(10k图像),在 Animal3D/CtrlAni3D/跨域 Animal Kingdom 上全面超越现有方法。
- SPAI: Any-Resolution AI-Generated Image Detection by Spectral Learning
-
提出 SPAI,通过掩码频谱学习(Masked Spectral Learning)建模真实图像的频率分布,引入频谱重建相似度(SRS)和频谱上下文注意力(SCA)检测 AI 生成图像作为分布外样本,在 13 种生成模型上平均 AUC 达 91.0%,比次优方法绝对提升 5.5%,且支持任意分辨率图像检测。
- Arbitrary-Steps Image Super-Resolution via Diffusion Inversion
-
本文提出InvSR,通过训练一个噪声预测网络来实现扩散反演(Diffusion Inversion),利用预训练扩散模型的图像先验进行超分辨率,支持1-5步任意步数采样,即使单步采样也能达到或超过现有SOTA方法的效果。
- Articulated Kinematics Distillation from Video Diffusion Models
-
AKD 提出用骨骼关节参数化(低自由度)替代 4D 神经变形场来从视频扩散模型中蒸馏运动,结合 PD 控制器的物理模拟实现自然地面接触,在 29 个角色资产上用户偏好率均超过 50%(运动量 51%、物理合理性 53%、文本一致性 53%)。
- ArtiFade: Learning to Generate High-quality Subject from Blemished Images
-
本文提出ArtiFade,首个解决"瑕疵主题驱动生成"问题的方法,通过构建瑕疵-无瑕疵配对数据集、部分微调扩散模型的cross-attention权重并优化artifact-free embedding,使得现有主题驱动方法(Textual Inversion、DreamBooth)能从带水印/贴纸/对抗噪声等瑕疵的图像中生成高质量无伪影的主题图像。
- AS-Bridge: A Bidirectional Generative Framework Bridging Next-Generation Astronomical Surveys
-
提出 AS-Bridge,用双向布朗桥扩散模型建模地面 LSST 和太空 Euclid 两大天文巡天之间的随机映射关系,实现概率性跨巡天翻译与稀有事件检测(强引力透镜),并证明 epsilon-prediction 训练目标兼具重建质量和似然性优势。
- AutoPresent: Designing Structured Visuals from Scratch
-
本文提出AutoPresent框架和SlidesBench基准,首次系统研究从自然语言指令生成演示幻灯片的任务——通过让LLM生成Python代码(而非端到端图像生成)来创建PPTX幻灯片,配合SlidesLib工具库和迭代优化,8B参数的开源模型达到接近GPT-4o的效果。
- Autoregressive Distillation of Diffusion Transformers
-
提出自回归蒸馏(ARD),利用ODE轨迹的历史信息而非仅当前去噪样本作为输入来预测未来步,通过token级时间嵌入和块级因果注意力掩码修改teacher transformer架构,在ImageNet-256上以4步达到FID 1.84,仅增加1.1%额外FLOPs。
- AvatarArtist: Open-Domain 4D Avatarization
-
提出 AvatarArtist,通过 GAN 和扩散模型协同构建多域 image-triplane 数据集,训练 DiT 生成参数化三平面 + 运动感知跨域渲染器,实现从任意风格单张肖像生成可驱动的 4D 头像。
- Beyond Convolution: A Taxonomy of Structured Operators for Learning-Based Image Processing
-
系统性地将学习式图像处理中卷积的替代/扩展算子组织为五大家族(分解型、自适应加权型、基自适应型、积分/核型和注意力型),并从线性、局部性、等变性、计算成本和任务适用性等多个维度进行比较分析。
- Bias for Action: Video Implicit Neural Representations with Bias Modulation
-
提出 ActINR,通过在 INR 中跨帧共享权重、仅用偏置(bias)建模运动的方式实现连续视频表示,在 10× 慢动作、4× 空间超分+2× 时间超分、去噪和修复任务上大幅超越现有方法(平均 3-6dB 提升)。
- BiGain: Unified Token Compression for Joint Generation and Classification
-
BiGain 首次将扩散模型的 token 压缩重新定义为生成+分类的双目标优化问题,提出拉普拉斯门控 token 合并(L-GTM)和插值-外推 KV 下采样(IE-KVD)两个频率感知算子,在保持生成质量同时显著提升分类准确率(ImageNet-1K 70%合并比下 Acc +7.15%,FID -0.34)。
- BootPlace: Bootstrapped Object Placement with Detection Transformers
-
提出 BootPlace,将物体放置问题重新定义为"放置即检测"问题,通过在物体减除背景上训练检测变换器识别候选区域,再用负相关语义互补将目标物体匹配到最佳区域,在 Cityscapes 上 top-5 IOU 比 SOTA 提升约 4×。
- BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training
-
提出 BooW-VTON,通过高质量伪数据构建 + 野外数据增广 + 试穿定位损失,训练出无需人体解析掩码的虚拟试穿扩散模型,在 VITON-HD/StreetVTON/WildVTON 多个基准上全面超越现有方法。
- CacheQuant: Comprehensively Accelerated Diffusion Models
-
提出 CacheQuant,一种无需训练的范式,通过联合优化模型缓存(temporal level)和量化(structural level)来全面加速扩散模型,在 Stable Diffusion 上实现 5.18× 加速和 4× 压缩,CLIP score 仅损失 0.02。
- CamFreeDiff: Camera-free Image to Panorama Generation with Diffusion Model
-
提出 CamFreeDiff,通过在多视图扩散框架中集成轻量级 3-DoF 单应性估计器,实现从无相机参数的单张图像生成 360° 全景图,FID 从 MVDiffusion 的 42.4 降至 27.0,且无需微调即可泛化到域外数据。
- Can Generative Video Models Help Pose Estimation?
-
提出 InterPose,利用预训练视频生成模型在两张少/无重叠图像之间"幻想"中间帧,配合自一致性评分选择最佳视频,在 DUSt3R 基础上一致提升四个数据集的位姿估计精度。
- Channel-wise Noise Scheduled Diffusion for Inverse Rendering in Indoor Scenes
-
提出通道级噪声调度方法,让单一扩散模型架构通过不同噪声调度实现精度优先(SDM, T=4)和多样性优先(PDM, T=1000)两种逆渲染模式,同时引入 ILR 隐式光照表征支持逐像素环境图推理和真实物体插入。
- ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
-
提出 ChatGen,将文本到图像生成中的 prompt 编写、模型选择和参数配置三个繁琐步骤自动化,通过多阶段进化训练策略(ChatGen-Evo)让用户以自由聊天方式描述需求即可获得高质量生成图像。
- Classifier-Free Guidance inside the Attraction Basin May Cause Memorization
-
从动力系统视角提出"吸引盆地"概念解释扩散模型记忆化现象——CFG 在吸引盆地内施加会导致轨迹收敛到记忆化训练图像,通过检测转折点延迟 CFG 启动(配合反向引导 OG)可零额外开销地缓解记忆化。
- CleanDIFT: Diffusion Features without Noise
-
提出 CleanDIFT,通过轻量级无监督微调(单卡 A100 仅 30 分钟),使扩散模型直接在干净图像上提取高质量语义特征,消除了传统方法需要加噪和调时间步的限制,在语义对应、深度估计、分割等多任务上显著超越标准扩散特征。
- CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation
-
系统揭示 CLIP 在多目标场景中的两类偏差——文本编码器偏向先提到的物体、图像编码器偏向大物体,并追溯偏差根源至对比训练过程中训练数据里大物体被先提到的统计规律。
- Co-Spy: Combining Semantic and Pixel Features to Detect Synthetic Images by AI
-
提出 Co-Spy 融合 VAE 重建伪影特征和 CLIP 语义特征两条互补检测路径——VAE 伪影跨模型泛化但怕 JPEG 压缩,CLIP 语义抗 JPEG 但泛化差——自适应调节器根据输入动态分配两路权重,在 22 个生成模型上建立新 SOTA。
- coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation
-
提出 coDrawAgents,由 Interpreter、Planner、Checker、Painter 四个专家 agent 组成的交互式多智能体对话框架,通过分而治之的增量布局规划、视觉上下文感知推理和显式错误纠正,在 GenEval 上达到 0.94(SOTA)、DPG-Bench 上 85.17(SOTA)。
- Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
-
提出 CoDe(协同解码),将 VAR 的多尺度推理分解为大模型草稿(低频小尺度)+ 小模型精修(高频大尺度)的协作流程,实现 1.7× 加速、50% 显存降低,FID 仅从 1.95 微增至 1.98。
- Color Alignment in Diffusion
-
提出颜色对齐扩散方法,通过将中间采样或预测结果投影到条件颜色空间(最近邻颜色映射),使扩散模型在保持结构生成自由度的同时严格遵循给定的颜色分布(颜色值+比例),支持重训练、微调和零样本三种设置。
- Community Forensics: Using Thousands of Generators to Train Fake Image Detectors
-
构建包含 4803 个生成模型、270 万张图像的 Community Forensics 数据集,发现即使架构相似的模型也能通过增加数量显著提升假图检测泛化性,在多个基准上达到最优平均 mAP 0.966。
- Composing Parts for Expressive Object Generation
-
提出 PartComposer,一种无需训练的方法,通过并行"部件扩散"从注意力图中定位对象部件,再用区域扩散为每个部件独立生成用户指定的细粒度属性(颜色、风格、描述),实现部件级可控图像合成。
- Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization
-
提出基于预训练扩散模型的人体重光照和背景协调统一框架,通过粗到精策略(球谐函数 ControlNet 提供粗光照 + 扩散模型学习精细残差)和无监督运动 ControlNet 实现静态和视频场景的光照一致重光照。
- Concept Lancet: Image Editing with Compositional Representation Transplant
-
提出 Concept Lancet (CoLan),一种零样本即插即用的图像编辑框架,通过将源图像的隐表示稀疏分解为视觉概念向量的线性组合,然后根据编辑任务(替换/添加/删除)进行定制化概念移植,解决了编辑强度校准难题。
- Concept Replacer: Replacing Sensitive Concepts in Diffusion Models via Precision Localization
-
提出 Concept Replacer,通过少样本训练的概念定位器精确识别去噪过程中的敏感概念区域,再用训练免费的双提示交叉注意力(DPCA)将定位区域替换为安全内容,实现精确局部概念替换而非全局图像失真。
- ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation
-
提出 ConceptGuard,通过移位嵌入、概念绑定提示、记忆保持正则化和优先队列回放四种策略,实现持续个性化 T2I 生成中灾难性遗忘和概念混淆的缓解,在多概念基准上大幅超越现有方法。
- Conditional Balance: Improving Multi-Conditioning Trade-Offs in Image Generation
-
分析 SDXL 自注意力层对风格和结构的敏感度差异,发现仅在最敏感的子集层中注入条件信息即可显著改善多条件生成中的风格-内容 trade-off,无需额外训练。
- Consistent and Controllable Image Animation with Motion Diffusion Models
-
提出 Cinemo,基于扩散模型的图像动画方法,通过学习运动残差(而非直接预测帧)分布大幅提升与输入图像的时间一致性,配合 SSIM 运动强度控制和 DCT 噪声初始化实现精细可控的 I2V 生成,在 UCF-101 和 MSR-VTT 上全面超越现有方法。
- BootComp: Controllable Human Image Generation with Personalized Multi-Garments
-
本文提出 BootComp,通过训练分解网络从人物图像中提取产品视图服装图来构建大规模合成配对数据集,再训练双路径扩散模型实现以多件参考服装为条件的可控人物图像生成,在 MP-LPIPS 上比 SOTA 提升 30%。
- CTRL-O: Language-Controllable Object-Centric Visual Representation Learning
-
CTRL-O 将语言可控性引入目标中心表示学习,通过语言嵌入初始化 slot query、解码器语言条件化和控制对比损失,在无 mask 监督下实现语言-物体绑定,COCO 上 FG-ARI 47.5(比 Dinosaur +7.0),同时支持零样本参考表达分割、实例级图像生成和 VQA。
- CustAny: Customizing Anything from A Single Example
-
本文构建了首个大规模通用物体定制数据集MC-IDC(315K图像、10K+类别),并提出CustAny框架,通过多模型ID提取、全局-局部双层ID注入和ID感知解耦模块,实现从单张参考图像对任意物体的零样本定制生成。
- Data-Free Group-Wise Fully Quantized Winograd Convolution via Learnable Scales
-
本文提出用组级量化对 Winograd 卷积全流水线进行 8-bit 量化,并通过无数据微调 Winograd 变换矩阵的缩放参数来解决输出变换中的大动态范围问题,在扩散模型上实现近无损图像生成质量和 31.3% 的卷积加速。
- Decentralized Diffusion Models
-
Decentralized Diffusion Models(DDM)提出了一种将扩散模型训练分布到完全隔离的计算集群上的方法,通过在数据分区上独立训练专家模型并用轻量路由器在推理时集成,证明该集成精确优化与单模型相同的全局 Flow Matching 目标,在 FLOP-for-FLOP 下优于单一大模型。
- DeClotH: Decomposable 3D Cloth and Human Body Reconstruction from a Single Image
-
提出 DeClotH,从单张图像分别重建可分解的3D服装和人体mesh——利用3D模板(SMPLicit+SMPL)作为几何先验缓解遮挡问题,并训练专用的 ClothDiffusion 提供服装特定的纹理/几何指导。
- Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning
-
本文将扩散模型训练视为多任务学习问题,提出Decouple-then-Merge(DeMe)框架——先将时间步分组微调多个专用模型以消除梯度冲突,再通过参数空间合并回单一模型,在不增加推理开销的情况下显著提升生成质量。
- Decoupling Training-Free Guided Diffusion by ADMM
-
本文提出 ADMMDiff,用交替方向乘子法(ADMM)将无训练条件扩散生成中的"无条件生成"和"条件引导"解耦为两个独立子问题,自动平衡两者无需手调权重超参数,在多种条件生成任务上超越现有方法。
- Derivative-Free Diffusion Manifold-Constrained Gradient for Unified XAI
-
本文提出 FreeMCG,利用扩散模型生成流形上的粒子集合并结合集成卡尔曼滤波近似模型梯度在数据流形上的投影,首次统一了特征归因和反事实解释两大 XAI 任务,且仅需黑盒模型访问。
- Detecting Adversarial Data Using Perturbation Forgery
-
通过建模对抗噪声的高斯分布并证明其近邻性,提出 Perturbation Forgery 方法在训练时持续扰动噪声分布形成开覆盖,配合稀疏掩码生成伪对抗数据训练二分类器,仅需 FGSM 一种攻击的噪声分布就能泛化检测梯度、GAN、扩散和物理等各类未见攻击,AUROC 达 0.99+ 且推理开销极低。
- DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness
-
本文提出 DexGrasp Anything,将三种物理约束力集成到扩散模型的训练和采样阶段,实现几乎所有开放数据集上 SOTA 的灵巧手抓取姿态生成,并构建了包含 15K+ 物体、340万+ 抓取姿态的最大规模灵巧抓取数据集。
- DiC: Rethinking Conv3x3 Designs in Diffusion Models
-
本文重新审视3x3卷积在扩散模型中的潜力,通过一系列架构改进(沙漏U-Net+稀疏跳连)和条件注入改进(阶段特定嵌入+中间块注入+条件门控),构建了纯3x3卷积的扩散模型DiC,在ImageNet生成上超越同规模DiT且推理速度显著更快。
- Diff2Flow: Training Flow Matching Models via Diffusion Model Alignment
-
提出 Diff2Flow 框架,通过时间步重缩放、插值对齐和速度场推导,实现从预训练扩散模型到 Flow Matching 模型的高效知识迁移,在文生图、深度估计等多任务上以极少微调开销取得优于或持平 SOTA 的性能。
- DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models
-
本文通过自动化构建迄今最大的3D合成头发数据集(40K风格),训练一个基于扩散Transformer的头皮纹理生成模型,首次以图像条件方式直接预测单根发丝(而非引导发丝)的潜码纹理图,实现从单张图像重建包括爆炸头和秃顶在内的多样化3D发型。
- DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
-
本文提出新任务"定制化漫画生成"并引入 DiffSensei 框架,用 MLLM 作为文本兼容的角色适配器连接扩散模型,通过 masked cross-attention 实现精确布局控制,在自建的大规模 MangaZero 数据集(43K页/427K标注面板)上显著超越现有方法。
- Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
-
本文提出 Diffusion-4K 框架,包含 Aesthetic-4K 基准数据集、GLCM Score/Compression Ratio 评估指标、以及基于小波变换的微调方法,使 SD3-2B 和 Flux-12B 等大规模潜在扩散模型能直接生成具有丰富纹理细节的 4096×4096 高质量图像。
- Diffusion Self-Distillation for Zero-Shot Customized Image Generation
-
本文提出 Diffusion Self-Distillation,利用预训练 T2I 模型的网格图生成能力来自动构建身份保持的配对数据集(LLM 生成 prompt + VLM 筛选),再微调同一模型实现零样本身份保持图像生成,无需测试时优化即达到接近 DreamBooth 的效果。
- DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention
-
DiG将门控线性注意力(GLA)引入扩散模型骨干网络,通过空间重定向增强模块(SREM)解决GLA的单向建模和缺乏局部感知问题,在ImageNet 256×256生成任务上超越DiT性能的同时,在1792分辨率下速度提升2.5倍、GPU显存节省75.7%。
- Dissecting and Mitigating Diffusion Bias via Mechanistic Interpretability
-
本文提出DiffLens框架,通过稀疏自编码器(k-SAE)将扩散模型内部神经元解缠为单语义特征空间,再用基于梯度的归因方法定位驱动偏见生成的特定特征,从而实现对性别、种族等社会偏见的精细控制和缓解,同时保持图像质量。
- DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression
-
DiT-IC 将预训练 T2I 扩散 Transformer 适配为单步图像压缩重建模型,在 32x 下采样的深层潜空间工作,通过方差引导重建流、自蒸馏对齐和潜变量条件引导三种对齐机制,实现 SOTA 感知质量且解码比现有扩散 codec 快 30 倍。
- DiverseFlow: Sample-Efficient Diverse Mode Coverage in Flows
-
本文提出DiverseFlow,一种无需训练的推理时方法,通过行列式点过程(DPP)在flow模型的ODE求解过程中引入样本间耦合梯度约束,在固定采样预算下显著提高生成样本的多样性和模式覆盖率。
- Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification
-
提出基于注意力掩码的异构噪声扩散净化策略,对分类器关注的关键像素施加高强度噪声以消除对抗扰动,对其余区域施加低强度噪声以保留语义信息,并通过单步重采样大幅降低计算开销。
- Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
-
本文提出Divot,一种利用扩散过程进行自监督视频表征学习的连续视频Tokenizer,通过让扩散模型以Tokenizer特征为条件进行去噪来训练表征,并用高斯混合模型(GMM)建模LLM输出的连续视频特征分布,实现了视频理解与生成的统一框架。
- DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture
-
本文提出 DKDM 范式,首次实现扩散模型的无数据知识蒸馏——利用预训练教师模型的反向去噪过程替代真实数据分布,配合动态迭代蒸馏策略高效生成多样化训练知识,支持任意架构学生模型,在完全不接触原始数据的情况下实现与有数据训练相当甚至更优的生成性能。
- DNF: Unconditional 4D Generation with Dictionary-Based Neural Fields
-
DNF 提出了一种基于字典学习的 4D 神经场表示,通过 SVD 分解-压缩-扩展的 MLP 参数字典实现形状与运动的解耦紧凑编码,配合 Transformer 扩散模型实现无条件 4D 形变物体生成,在 DeformingThings4D 上达到 SOTA。
- Do Visual Imaginations Improve Vision-and-Language Navigation Agents?
-
本文用 SDXL 为 VLN 指令中的视觉地标生成合成图像作为"想象",通过 ViT 编码后拼接到文本指令 embedding 中输入 VLN agent,配合余弦相似度对齐损失,在 R2R 和 REVERIE 上一致提升导航成功率约 1%,初步验证了视觉想象作为语言与视觉之间桥梁的价值。
- DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles
-
提出 DoraCycle 使用两个多模态循环(文→图→文 和 图→文→图)对统一多模态生成模型做无配对域适应,仅用无配对目标域数据即可接近全配对训练效果(FID 27.44 vs 24.93),10% 配对+90% 无配对时几乎无损(FID 25.37)。
- DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
-
提出 DreamCache 通过在单个去噪步(t=1)缓存参考图的 U-Net 中间特征,用轻量 25M 参数的条件适配器在生成时注入缓存特征,实现免微调、免编码器、即插即用的个性化图像生成。
- DreamOmni: Unified Image Generation and Editing
-
构建统一文生图+多种编辑任务(指令编辑/修补/拖拽/参考生成)的 2.5B DIT 模型,用 Qwen2-VL 替换文本编码器实现统一视觉-语言 prompt 理解,通过合成贴纸数据管线高效创建编辑训练数据,在生成和编辑上同时达到 SOTA。
- DreamRelation: Bridging Customization and Relation Generation
-
DreamRelation 提出了一种关系感知的定制化图像生成框架,通过精心构建的解耦数据引擎、关键点匹配损失(KML)和局部 token 注入三大设计,在保持多目标身份一致性的同时准确生成文本指定的目标间关系(如拥抱、骑行等),在 RelationBench 上全面超越现有方法。
- DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning
-
提出 DreamVideo-Omni,通过渐进式两阶段训练范式(Omni-Motion SFT + Latent Identity Reward Feedback Learning),在统一的 DiT 框架中实现多主体定制与全运动控制(全局 bbox + 局部轨迹 + 相机运动)的协同生成。
- DualAnoDiff: Dual-Interrelated Diffusion Model for Few-Shot Anomaly Image Generation
-
提出 DualAnoDiff,通过双相互关联扩散模型(全局分支生成整体异常图像+异常分支生成局部异常部分)同时生成高质量的异常图像-掩码对,并引入背景补偿模块维持背景和物体形状的一致性,显著提升下游异常检测/定位/分类的性能。
- Dual Diffusion for Unified Image Generation and Understanding
-
提出 Dual Diffusion Transformer (D-DiT),在单一 MM-DiT 架构中同时使用连续扩散建模图像分布和离散掩码扩散建模文本分布,是首个端到端的全扩散多模态模型,支持图像生成、图像描述和视觉问答等全套任务。
- Dual Diffusion for Unified Image Generation and Understanding
-
提出 D-DiT(Dual Diffusion Transformer),首个完全端到端的多模态扩散模型,在图像分支用连续流匹配、文本分支用离散掩码扩散,统一损失函数下同时训练图像生成和文本理解。
- Dual Prompting Image Restoration with Diffusion Transformers (DPIR)
-
提出 DPIR,基于 SD3 (Diffusion Transformer) 的图像修复模型,通过轻量级低质量图像条件分支和全局-局部视觉双提示(dual prompting)分支,从多角度引入退化图像信息,首次系统性地将 DiT 应用于图像修复并取得 SOTA 性能。
- DualAnoDiff: Dual-Interrelated Diffusion Model for Few-Shot Anomaly Image Generation
-
提出 DualAnoDiff,利用双关联扩散模型同时生成整体异常图像和对应异常部分,解决了少样本场景下异常图像生成中多样性不足、融合不自然和掩码不对齐的问题,在下游异常检测任务中达到 SOTA。
- Dynamic Motion Blending for Versatile Motion Editing (MotionReFit)
-
MotionReFit 提出了首个通用文本引导运动编辑框架,通过 MotionCutMix 数据增强技术动态生成训练三元组,配合自回归扩散模型和运动协调器,实现涵盖身体部位替换、风格迁移和细粒度调整的空间与时序编辑。
- EasyCraft: A Robust and Efficient Framework for Automatic Avatar Crafting
-
EasyCraft 提出了一个端到端的自动角色捏脸框架,通过 MAE 预训练的通用 ViT 编码器将任意风格的面部图像映射为统一特征分布,再转换为游戏引擎捏脸参数,同时集成文本到图像技术支持文本输入,可轻松适配不同游戏引擎。
- EasyCraft: A Robust and Efficient Framework for Automatic Avatar Crafting
-
提出 EasyCraft,一个端到端的自动角色定制框架,通过自监督预训练的通用 ViT 编码器实现任意风格照片到游戏捏脸参数的转换,并结合 Stable Diffusion 支持文本驱动的角色创建。
- EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation
-
提出 EDEN,从输入表示、模型架构和训练范式三个维度全面增强扩散模型在视频帧插值中的作用,通过 Transformer tokenizer 压缩中间帧为语义丰富的 1D token 表示、采用 DiT 替代 U-Net 架构、引入双流上下文整合机制(时序注意力 + 帧差嵌入),在 DAVIS 等大运动基准上 LPIPS 降低近 10%,且仅需 2 步去噪即可实现高质量生成。
- Editing Away the Evidence: Diffusion-Based Image Manipulation and the Failure Modes of Robust Watermarking
-
理论和实验统一分析了扩散模型编辑会"无意间"破坏鲁棒不可见水印的现象——正向加噪使水印 SNR 指数衰减,反向去噪的流形收缩效应将水印信号当作"非自然残差"消除,即使 VINE 等最先进水印在强编辑(\(t^*=0.8\))下也降至接近随机猜测(~60% bit accuracy)。
- Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models
-
提出一种双层优化框架,将剪枝扩散模型的微调恢复(下层:蒸馏+扩散损失最小化)和不良概念遗忘(上层:引导模型远离目标概念)统一为单一阶段优化,解决了"先微调再遗忘"两阶段方法中微调最优点不等于遗忘最优初始化的循环依赖问题,在风格去除上 CSD 指标降低 27%。
- Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction
-
提出 CoordTok,一种可扩展的视频 tokenizer,将视频编码为因子化 triplane 表示,解码器学习从随机采样的 \((x,y,t)\) 坐标到对应 patch 像素的映射(而非一次重建所有帧),使得可以直接在 128 帧长视频上训练大型 tokenizer,将 128 帧视频编码为仅 1280 个 token(基线需要 6144-8192 个),并驱动 DiT 实现 128 帧一次性视频生成(FVD 369.3 SOTA)。
- Efficient Personalization of Quantized Diffusion Model without Backpropagation (ZOODiP)
-
本文提出 ZOODiP,通过零阶优化在量化后的扩散模型上进行个性化(Textual Inversion),利用子空间梯度投影去噪和部分时间步采样加速训练,仅用 2.37GB 显存和前向传播即可达到与梯度方法可比的个性化效果,内存节省最高 8.2 倍。
- EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing
-
本文提出 EmoDubber,一个情感可控的电影配音架构,通过时长级对比学习对齐唇动与韵律、发音增强策略提升清晰度、基于流匹配的正负引导机制控制情感类型和强度,在唇形同步和发音清晰度上全面超越现有方法。
- EmoEdit: Evoking Emotions through Image Manipulation
-
本文提出 EmoEdit,首个通过内容修改(而非仅颜色/风格调整)来唤起指定情感的图像操纵框架,构建了 40,120 对的 EmoEditSet 数据集,设计了可即插即用的 Emotion Adapter,在结构保持和情感唤起之间取得了显著平衡。
- Enhancing Creative Generation on Stable Diffusion-based Models
-
本文提出 C3(Creative Concept Catalyst),一种免训练方法,通过在 Stable Diffusion 的去噪过程中选择性放大特征来增强创意生成能力,并提供基于创意两个主要维度的放大因子选择指南。
- Enhancing Dance-to-Music Generation via Negative Conditioning Latent Diffusion Model
-
提出 PN-Diffusion,利用正向播放和反向播放的舞蹈视频分别提取正负节奏条件,设计双向扩散与反向过程来联合训练 U-Net,增强生成音乐与舞蹈动作的节奏一致性和音乐质量,在 AIST++ 和 TikTok 数据集上 BCS 提升 1.80/3.85、BHS 提升 4.22/5.90。
- Enhancing Facial Privacy Protection via Weakening Diffusion Purification
-
本文通过学习逐时间步的无条件嵌入(unconditional embeddings)来削弱 LDM 反向扩散过程中的净化效应,并利用自注意力图引导保持结构一致性,在 CelebA-HQ 和 LADN 上平均 PSR 达 79.17%,同时 FID 优于所有竞争方法。
- Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception
-
提出 DIAE,通过多模态美学感知模块(MAP)将模糊美学指令转化为 HSV/轮廓图+文本的多模态控制信号,并构建"非完美配对"数据集 IIAEData 配合双分支监督策略实现弱监督美学增强,在 LAION 和 MLLM 美学评分上达 SOTA。
- Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion Models
-
本文提出 PRSS 方法,通过 Prompt Re-anchoring(将记忆化 prompt 重新用作 CFG 的锚点引导生成偏离记忆内容)和 Semantic Prompt Search(用 LLM 搜索语义相似但不触发记忆的替代 prompt)两个策略,在不修改模型和不需要训练数据的推理阶段改进 CFG 方程,实现了扩散模型记忆化缓解中的最优隐私-效用平衡。
- Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data (SPARCL)
-
本文提出SPARCL,通过将真实图像特征注入快速T2I模型的padding嵌入来生成高保真微变化合成图像,并设计自适应margin损失过滤噪声合成样本聚焦难样本学习,将CLIP的组合理解准确率在四个基准上平均提升8%以上,在三个基准上超越SOTA 2%。
- Erasing Undesirable Influence in Diffusion Models (EraseDiff)
-
本文提出EraseDiff,将扩散模型的数据遗忘问题形式化为基于价值函数的约束优化问题,通过自然的一阶算法同时优化保留性能和擦除效果,在DDPM/Stable Diffusion上比SA快11倍、比SalUn快2倍,同时在保留-遗忘权衡上取得Pareto最优。
- Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment
-
本文揭示了扩散驱动TTA方法中源域与合成域之间存在隐性不对齐问题,提出Synthetic-Domain Alignment (SDA)框架,通过Mix of Diffusion (MoD)技术将源模型和目标数据同时对齐到同一个合成域,在分类、分割和多模态大语言模型上均取得了一致的性能提升。
- EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation
-
EvoTok 提出了一种基于残差潜在演化(Residual Latent Evolution)的统一图像 tokenizer,通过在共享潜空间中级联残差向量量化,使表示从浅层的像素级细节渐进演化到深层的语义级抽象,在仅用 13M 图像训练的情况下实现了 0.43 rFID 的重建质量,并在 7/9 个理解 benchmark 和 GenEval/GenAI-Bench 上取得优异效果。
- Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis
-
本文提出 Aurora,一种基于稀疏混合专家(Sparse MoE)的 GAN 文本生成图像模型,通过在生成器中引入多个专家网络和文本感知的稀疏路由器来扩大模型容量,在 64×64 分辨率上以远快于扩散模型的推理速度,在 MS COCO 上达到 6.2 的零样本 FID。
- FADE: Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models
-
提出 FADE(Fine-grained Attenuation for Diffusion Erasure),首次解决文生图扩散模型中概念遗忘的邻近性问题——精确擦除目标概念的同时保留语义相近概念的生成能力,在保留性能上比 SOTA 提升至少 12%。
- FaithDiff: Unleashing Diffusion Priors for Faithful Image Super-Resolution
-
提出 FaithDiff,首次释放(fine-tune)预训练扩散模型先验用于图像超分辨率,并设计对齐模块桥接退化图像特征与扩散噪声隐空间,通过联合优化 encoder 和扩散模型实现高保真结构恢复。
- FDeID-Toolbox: Face De-Identification Toolbox
-
本文提出 FDeID-Toolbox,一个面向人脸去标识化(Face De-Identification)研究的综合性工具箱,通过模块化架构统一了数据加载、方法实现、推理流程和评测协议四个核心组件,解决了该领域实现碎片化、评测标准不一致、结果不可比较的长期痛点。
- FilmComposer: LLM-Driven Music Production for Silent Film Clips
-
FilmComposer 首次将大语言模型多代理系统与波形/符号音乐生成相结合,模拟专业音乐人的工作流程(选点→作曲→编曲→混音),从无声电影片段自动生成高质量(48kHz)、高音乐性、具有发展性的电影配乐。
- FilmComposer: LLM-Driven Music Production for Silent Film Clips
-
提出 FilmComposer,模拟专业音乐人工作流,通过视觉处理、节奏可控 MusicGen 和多智能体编曲混音三大模块,首次实现面向电影片段的高质量专业配乐自动生成。
- FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs
-
提出 FineLIP,通过位置嵌入拉伸支持 248 token 长文本输入,并引入自适应 token 细化和跨模态 token 级对齐,在长描述文本的检索和文生图任务上显著超越 SOTA。
- FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs
-
FineLIP 通过位置编码拉伸(77→248 tokens)、自适应 Token 精炼模块(ATRM)和跨模态 Token 级对齐(CLIM),使 CLIP 模型能够处理长文本描述并实现细粒度视觉-文本匹配,在长描述检索任务上显著超越 Long-CLIP、TULIP 等现有方法。
- Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models
-
本文提出一种基于有限差分的在线 RL 变体(FDFO),通过采样成对轨迹并将 flow velocity 拉向生成更优图像的方向来优化扩散/流匹配 T2I 模型,将整个采样过程视为单一 action,比现有 RL 后训练方法收敛更快、输出质量和 prompt 对齐更优。
- FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations
-
FlipSketch 首次实现从单张静态草图 + 文本描述自动生成无约束栅格草图动画,通过在 T2V 扩散模型上微调 LoRA、DDIM 反演参考帧机制和双注意力组合三大创新,在保持草图身份的同时生成流畅、动态的动画序列。
- FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations
-
提出 FlipSketch,首个从单张静态草图和文本描述生成无约束光栅草图动画的系统,通过微调文本-视频扩散模型、参考帧迭代对齐和双注意力组合三项创新实现流畅动画。
- Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation
-
提出 Focus-N-Fix,一种区域感知的 T2I 模型微调方法,通过定位问题区域并约束非问题区域不变,实现对伪影、过度性化、暴力等局部质量问题的精准修复,同时避免全局微调带来的灾难性遗忘和奖励黑客现象。
- Font-Agent: Enhancing Font Understanding with Large Language Models
-
构建了包含 135,000 个字体-文本对的大规模多模态数据集 DFD,并提出 Font-Agent——一个基于视觉语言模型的字体理解代理,通过边缘感知追踪模块(EAT)捕捉字体笔画细节和动态直接偏好优化策略(D-DPO)精细化模型对字体风格的理解能力。
- Fractals made Practical: Denoising Diffusion as Partitioned Iterated Function Systems
-
证明 DDIM 确定性反向链是一个分区迭代函数系统(PIFS),由此推导出三个无需模型评估的可计算几何量(收缩阈值 \(L_t^*\)、膨胀函数 \(f_t(\lambda)\)、全局膨胀阈值 \(\lambda^{**}\)),并据此从理论上解释了四个现有的经验性设计选择(cosine offset、分辨率 logSNR shift、Min-SNR 加权、Align Your Steps)。
- Free-viewpoint Human Animation with Pose-correlated Reference Selection
-
提出一种姿态关联参考选择扩散网络,通过姿态相关性模块计算目标-参考姿态间的关联图并自适应选择最相关的参考特征,支持在大幅视角变化(包括镜头推拉)下进行高质量人体动画生成,同时引入了 MSTed 多机位 TED 视频数据集。
- From Elements to Design: A Layered Approach for Automatic Graphic Design Composition
-
LaDeCo 将平面设计的分层设计原则引入大型多模态模型(LMM),先用 GPT-4o 对多模态设计元素进行语义层规划,再按层逐步预测元素属性并渲染中间结果反馈给模型,将复杂的设计合成任务分解为可管理的子步骤,在设计合成质量上大幅超越基线方法。
- From Words to Structured Visuals: A Benchmark and Framework for Text-to-Diagram Generation and Editing
-
本文定义了文本到图表生成任务,构建了 DiagramGenBenchmark(涵盖 8 类图表),并提出多智能体框架 DiagramAgent(Plan + Code + Check + Diagram-to-Code),在图表生成、编码和编辑任务上显著超越现有文本到图像/代码方法。
- GCC: Generative Color Constancy via Diffusing a Color Checker
-
GCC 利用预训练扩散模型的图像先验,通过 inpainting 生成反映场景光照的色卡来估计光照颜色,借助 Laplacian 分解保留色卡结构的同时适应光照变化,在跨相机场景中展现出优越的泛化能力。
- GenDeg: Diffusion-based Degradation Synthesis for Generalizable All-In-One Image Restoration
-
本文提出GenDeg,一个基于Stable Diffusion的退化合成框架,能在任意干净图像上生成多种可控退化(雾/雨/雪/运动模糊/低光/雨滴),合成55万+图像构成GenDS数据集,训练在其上的All-In-One复原模型在域外测试集上获得显著性能提升。
- Generation of Maximal Snake Polyominoes Using a Deep Neural Network
-
将 DDPM 应用于生成最大蛇形多联骨牌,提出精简版 Structured Pixel Space Diffusion(SPS Diffusion),在训练到 14x14 正方网格的情况下泛化到 28x28 并生成有效蛇形,部分结果超越已知最大长度下界。
- Generative Image Layer Decomposition with Visual Effects
-
LayerDecomp 提出了一个基于 Diffusion Transformer 的图像图层分解框架,将输入图像分解为干净的 RGB 背景层和带有透明视觉效果(阴影、反射)的 RGBA 前景层,通过一致性损失在无标注数据上也能学到正确的前景表示,大幅超越现有物体移除和空间编辑方法。
- Generative Modeling of Class Probability for Multi-Modal Representation Learning
-
CALM 通过类锚点(class anchors)将视频和文本特征映射到统一的概率分布空间,再用跨模态 VAE 建模模态间不确定性,在域内检索(MSR-VTT R@1 50.8%)和跨域检索(MSR-VTT→DiDeMo R@1 41.2%)上均超越 SOTA,仅增加 0.5M 参数。
- Generative Modeling of Class Probability for Multi-Modal Representation Learning
-
CALM(Class-anchor-ALigned generative Modeling)提出用独立类别标签作为锚点,生成各模态与锚点的概率分布并通过跨模态概率 VAE 对齐,有效缓解视频文本之间的信息不平衡和模态差异问题,在四个benchmark上显著超越SOTA,尤其在跨域泛化性上表现突出。
- Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
-
DDT-LLaMA 提出用扩散时间步编码学习具有递归结构的离散视觉 token(DDT),使视觉 token 序列像自然语言一样具有层级依赖关系,从而在统一的 next-token-prediction 框架下同时实现多模态理解和生成的 SOTA 性能。
- Generative Photomontage
-
提出 Generative Photomontage 框架,允许用户从多张 ControlNet 生成的图像中选取不同区域,通过扩散特征空间的图割分割和自注意力特征注入进行无缝合成,实现对生成图像的精细组合控制。
- GIF: Generative Inspiration for Face Recognition at Scale
-
提出将人脸识别中的标量标签替换为结构化身份编码(整数序列),通过CLIP初始化+超球面均匀化生成编码向量,再用层次聚类构建树结构编码,将分类器计算复杂度从\(\mathcal{O}(m)\)降至\(\mathcal{O}(\log m)\),同时解决了少数类坍缩问题。
- GLASS: Guided Latent Slot Diffusion for Object-Centric Learning
-
本文提出 GLASS,一种基于 Slot Attention 的物体中心学习方法,通过在扩散模型生成的图像空间中学习,利用语义引导模块(扩散模型的交叉注意力生成伪语义掩码)和实例引导模块(MLP 重建编码器特征)协同解决过分割和欠分割问题,在真实场景的物体发现和条件/组合生成任务上大幅超越前方法。
- GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing
-
提出GlyphMastero字形编码器,通过双流(局部字符级+全局文本行级)特征提取、跨层次注意力交互和多尺度FPN融合,为扩散模型提供笔画级精确的字形引导,在多语言场景文字编辑中句子准确率提升18.02%、FID降低53.28%。
- Goku: Flow Based Video Generative Foundation Models
-
Goku 是字节跳动与港大提出的 rectified flow Transformer 系列模型(2B/8B),首次将 rectified flow 用于图像-视频联合生成,配合全面的数据管线和大规模训练基础设施优化,在 VBench(84.85)和 GenEval(0.76)等基准上达到 SOTA。
- GPS as a Control Signal for Image Generation
-
将照片 EXIF 元数据中的 GPS 坐标作为扩散模型的新型控制信号,训练 GPS+文本联合条件的图像生成模型,能捕捉城市内不同街区/地标的细粒度外观差异,并通过角度条件 SDS 从 2D 模型提取 3D 地标重建。
- GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing
-
本文提出GRADE——首个评估学科知识驱动的图像编辑能力的基准,涵盖10个学科领域520个样本,通过多维评估协议揭示了当前20个SOTA多模态模型在知识密集型编辑任务上的显著不足。
- GraphGPT-o: Synergistic Multimodal Comprehension and Generation on Graphs
-
提出 GraphGPT-o,将多模态属性图(MMAG,节点含图像+文本,边表示关系)的结构信息注入多模态大语言模型(MLLM),通过 PPR 采样、层次化 Q-Former 对齐器和灵活推理策略,实现基于图上下文的文本-图像联合生成。
- h-Edit: Effective and Flexible Diffusion-Based Editing via Doob's h-Transform
-
h-Edit 基于 Doob's h-transform 将扩散图像编辑形式化为反向时间桥建模问题,通过将编辑更新解耦为"重建项"和"编辑项",首次实现了免训练的文本引导+奖励模型联合编辑,在 PIE-Bench 上全面超越现有 SOTA 方法。
- Hiding Images in Diffusion Models by Editing Learned Score Functions
-
提出在扩散模型的特定时间步编辑learned score function来隐藏图像的方法,结合梯度感知参数选择和LoRA实现参数高效微调,在提取精度(52.90 dB PSNR)、模型保真度(FID变化仅0.02)和隐藏效率(0.04 GPU小时)三个维度上全面超越现有方法数个量级。
- Hierarchical Flow Diffusion for Efficient Frame Interpolation
-
HFD 提出在多尺度上用扩散模型显式去噪双向光流(而非在潜空间直接去噪),结合光流引导的编解码器图像合成器端到端联合训练,在精度上全面超越所有基线,同时推理速度比其他扩散方法快 10+ 倍。
- HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation
-
HMAR 将 VAR 的 next-scale 预测重构为 Markov 过程(仅依赖前一尺度的累积重建而非所有前序尺度),并在每个尺度内引入多步掩码生成来消除条件独立假设,配合自定义 IO-aware 块稀疏注意力核,在 ImageNet 上匹配或超越 VAR/DiT 质量的同时实现训练 2.5× 加速和推理 3× 内存缩减。
- HSI: A Holistic Style Injector for Arbitrary Style Transfer
-
HSI提出了一种基于全局风格统计特征和逐元素乘法的风格迁移模块,用线性复杂度替代自注意力的二次复杂度,同时通过双关系学习机制提升风格化质量,在效果和效率上均超越现有方法。
- ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models
-
提出 ICE 两阶段框架,仅用单个 T2I 扩散模型从单张图像自动定位物体级概念并分解为内在属性(类别、颜色、材质),实现无标注、无额外模型的层次化视觉概念提取。
- IDEA-Bench: How Far are Generative Models from Professional Designing?
-
提出首个面向专业级图像设计的综合基准 IDEA-Bench,涵盖 100 个真实设计任务(海报、绘本、字体、特效等)和 5 种输入输出模式,揭示当前最强模型仅获 22.48/100 分,距离专业设计仍有巨大鸿沟。
- IDProtector: An Adversarial Noise Encoder to Protect Against ID-Preserving Image Generation
-
IDProtector 提出首个前馈式对抗噪声编码器,通过单次前向传播为人脸照片添加不可感知的对抗扰动,可同时防御 InstantID、IP-Adapter、PhotoMaker 等多种编码器驱动的身份保持生成方法,且对 JPEG 压缩、缩放等变换保持鲁棒。
- ILIAS: Instance-Level Image Retrieval At Scale
-
ILIAS 是一个包含 1000 个实例对象、1 亿干扰图像的大规模实例级图像检索测试基准,通过全面 benchmarking 揭示了当前基础模型在特定物体识别上的能力与不足,为该领域提供了一个远未饱和的评测标准。
- Image Generation Diversity Issues and How to Tame Them
-
本文揭示了当前扩散模型存在严重的多样性不足问题(最先进模型仅覆盖训练数据 77% 的多样性),提出了基于图像检索的 Image Retrieval Score (IRS) 作为可解释的多样性度量指标,并引入 Diversity-Aware Diffusion Models (DiADM) 在不损失生成质量的前提下提升多样性。
- Image Referenced Sketch Colorization Based on Animation Creation Workflow
-
本文模仿真实动画制作流程,提出一种基于扩散模型的图像参考草图上色框架,通过分割交叉注意力(Split Cross-Attention)配合可切换LoRA机制分别处理前景和背景的上色,消除了空间纠缠伪影(spatial entanglement),在4.8M图像上训练后在定性、定量和用户研究中均优于现有方法。
- Implicit Bias Injection Attacks against Text-to-Image Diffusion Models
-
本文提出隐式偏见注入攻击框架(IBI-Attacks),通过在文本嵌入空间中预计算一个通用的偏见方向向量,再利用自适应特征选择模块根据不同用户输入动态调整该向量,以即插即用的方式将隐式偏见(如情绪、文化倾向)植入预训练的文生图扩散模型中,同时保持生成内容的原始语义,80%+的攻击成功率下仅35.8%被人类试验者察觉。
- Improving Diffusion Inverse Problem Solving with Decoupled Noise Annealing
-
本文提出解耦退火后验采样(DAPS),通过在扩散采样过程中解耦相邻步骤的样本依赖关系,允许大幅度的非局部跳跃来修正早期采样错误,在非线性逆问题(如相位恢复)上大幅超越现有方法。
- Improving Editability in Image Generation with Layer-wise Memory
-
本文提出基于层级记忆的迭代图像编辑框架,通过存储每步编辑的 latent 和 prompt embedding,结合背景一致性引导(BCG)和多查询解耦注意力(MQD),实现多步顺序编辑中背景保持一致且新对象自然融入的效果。
- InsightEdit: Towards Better Instruction Following for Image Editing
-
提出 InsightEdit,构建 250 万级高质量编辑数据集 AdvancedEdit,并设计双流桥接机制将 MLLM 的文本推理特征和图像语义特征同时注入扩散模型,在复杂指令跟随和背景一致性上达到 SOTA。
- Instant Adversarial Purification with Adversarial Consistency Distillation
-
提出 One Step Control Purification (OSCP) 框架,结合 Gaussian Adversarial Noise Distillation (GAND) 和 Controlled Adversarial Purification (CAP),在单次 U-Net 推理(~0.1 秒)内完成对抗净化,相比传统扩散净化方法加速 100 倍。
- InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation
-
本文提出 InterAct 基准,整合并标准化了 21.81 小时的 3D 人物-物体交互数据(扩展到 30.70 小时),通过统一优化框架校正运动捕捉伪影并增强数据,定义六项生成任务和统一建模方法,在多个 HOI 生成任务上取得 SOTA 表现。
- InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing
-
提出 InterEdit,首个文本引导的多人 3D 运动交互编辑框架,通过 Semantic-Aware Plan Token Alignment 和 Interaction-Aware Frequency Token Alignment 在扩散模型中实现语义编辑的同时保持多人之间的时空耦合关系。
- InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions
-
InterMimic 提出了一个课程式教师-学生蒸馏框架,首次实现了单策略从大规模不完美 MoCap 数据中学习多样化的全身物理人物交互技能,通过教师策略先"完善"每个动作子集,再蒸馏到学生策略,并用 RL 微调超越简单模仿,最终支持零样本泛化和与运动生成器的无缝集成。
- Interpretable Generative Models through Post-hoc Concept Bottlenecks
-
本文提出两种低成本的后置方法——概念瓶颈自编码器(CB-AE)和概念控制器(CC)——将预训练生成模型转化为可解释且可操控的模型,无需从头训练或真实标注数据,在 CelebA/CelebA-HQ/CUB 上的可操控性(steerability)平均超过先前 CBGM 方法约25%,训练速度快4-15倍。
- IterIS: Iterative Inference-Solving Alignment for LoRA Merging
-
IterIS提出了一种迭代推理-求解的LoRA合并方法,通过直接提取统一适配器的输入特征(而非近似)来建立更准确的优化目标,配合正则化减少样本需求至先前方法的1-5%,并引入自适应权重平衡优化,在文本到图像扩散模型、视觉语言模型和大语言模型的LoRA合并中显著超越基线。
- JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
-
提出 JanusFlow,将 rectified flow 直接嵌入自回归 LLM 框架,通过解耦理解/生成编码器 + 表征对齐正则化,在 1.3B 参数下同时达到多模态理解和图像生成的 SOTA。
- K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs
-
提出 K-LoRA,在每个 attention 层通过 Top-K 元素绝对值累加来比较主题 LoRA 和风格 LoRA 的重要性,自适应选择整层 LoRA 权重,配合时间步缩放因子,实现免训练的主题-风格高质量融合。
- Language-Guided Image Tokenization for Generation
-
TexTok 提出在图像分词(tokenization)阶段引入文本描述作为条件,将高层语义信息卸载给文本,使图像 token 专注于编码细粒度视觉细节,从而在保持甚至提升重建质量的同时实现更高的压缩率,在 ImageNet 上取得了 SOTA 的生成 FID 分数 1.46。
- Latent Space Imaging
-
Latent Space Imaging (LSI) 提出了一种将光学编码与生成模型解码结合的新成像范式,通过将图像信息直接编码到 StyleGAN 的语义隐空间中,实现 1:100 到 1:16384 的极端压缩比,同时仍能完成人脸重建、属性分类、分割和关键点检测等下游任务。
- LaTexBlend: Scaling Multi-concept Customized Generation with Latent Textual Blending
-
LaTexBlend 通过在文本编码器后的潜在文本空间(Latent Textual Space)中表示和融合多个定制概念,实现了高保真、高效率的多概念定制图像生成,微调复杂度线性增长且推理无额外开销。
- LaVin-DiT: Large Vision Diffusion Transformer
-
LaVin-DiT 提出一种基于扩散 Transformer 的大视觉基础模型,通过空间-时序 VAE 编码、联合扩散 Transformer 去噪、以及 in-context learning 实现超过 20 种视觉任务的统一处理,从 0.1B 扩展至 3.4B 参数,在多项任务上显著超越自回归式大视觉模型 LVM。
- Learning Flow Fields in Attention for Controllable Person Image Generation
-
提出 Leffa(Learning Flow Fields in Attention),在扩散模型的注意力层中将 attention map 转换为流场并进行像素级正则化监督,显式引导 target query 关注正确的 reference key 区域,零额外推理开销地减少细粒度细节(纹理、文字、logo)失真,在虚拟试衣(VITON-HD、DressCode)和姿态迁移(DeepFashion)上均 SOTA。
- Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation
-
提出PAG(Prompt Adaptation with GFlowNets),将提示词适配重新定义为概率推断问题,利用GFlowNets从奖励分布中采样而非最大化奖励,结合流重激活、奖励优先采样和奖励分解三大技术解决模式坍塌问题,生成既高质量又多样化的文本到图像提示词。
- Learning Visual Generative Priors without Text
-
提出Lumos框架,通过纯视觉的图像到图像(I2I)自监督预训练学习视觉生成先验,然后仅用1/10的文本-图像对微调即可达到甚至超越现有T2I模型的效果,并在文本无关的视觉任务(I2V、NVS)上展现出优于T2I先验的性能。
- LEDiff: Latent Exposure Diffusion for HDR Generation
-
提出LEDiff,通过在预训练扩散模型的潜空间中进行曝光融合(而非图像空间),用少量HDR数据微调VAE解码器和去噪器,让现有生成模型具备HDR生成能力,同时实现SOTA级别的LDR到HDR转换。
- Lifting Motion to the 3D World via 2D Diffusion
-
MVLift提出了一个多阶段框架,仅使用单视角2D姿态序列训练,通过线条件扩散模型→多视角优化→合成数据生成→多视角扩散模型的渐进策略建立多视角一致性,实现无需3D监督的全局3D运动(含关节旋转+根轨迹)估计,在AIST++上根轨迹误差67.6mm超越需要3D监督的WHAM (164.3mm)。
- LookingGlass: Generative Anamorphoses via Laplacian Pyramid Warping
-
本文提出LookingGlass方法,通过拉普拉斯金字塔扭曲(Laplacian Pyramid Warping)技术,将Visual Anagrams框架扩展到潜空间整流流模型和更广泛的空间变换类型,生成从正常视角和特定折射/反射视角看都有意义的变形画(Anamorphosis)图像。
- LoRACLR: Contrastive Adaptation for Customization of Diffusion Models
-
LoRACLR 提出一种基于对比学习目标的 LoRA 模型合并方法,通过学习一个 delta 权重将多个独立训练的单概念 LoRA 模型融合为一个统一模型,无需重训练或访问原始训练数据,即可实现高保真的多概念图像生成,合并 12 个概念仅需 5 分钟。
- lbGen: Low-Biased General Annotated Dataset Generation
-
提出 lbGen 框架,通过双层语义对齐(全局对抗+个体余弦相似度)和质量保证损失微调 Stable Diffusion,仅用类别名称即可生成低偏差的通用标注数据集,预训练骨干比 ImageNet 真实数据平均迁移精度高出 1.7%~2.1%。
- LumiNet: Latent Intrinsics Meets Diffusion Models for Indoor Scene Relighting
-
提出 LumiNet,将源图像的潜在内在特征(128 维 albedo-like 表征)和目标图像的潜在外在光照码(16 维)注入改造后的 ControlNet,实现仅用图像输入的室内场景级光照迁移,包含镜面高光、阴影和间接照明等复杂效果。
- MagicQuill: An Intelligent Interactive Image Editing System
-
提出 MagicQuill 智能交互式图像编辑系统,用三种笔触(添加/减去/颜色)表达编辑意图,双分支扩散插件(inpainting + control)实现边缘和颜色的精细控制,MLLM 实时猜测意图自动生成 prompt,形成无需手动输入文字的连续编辑工作流。
- Make It Count: Text-to-Image Generation with an Accurate Number of Objects
-
本文提出CountGen方法,通过在扩散模型去噪过程中识别承载物体身份信息的特征来分离和计数物体实例,并训练一个布局预测模型来修复数量不足的情况,实现了不依赖外部布局的计数准确文本到图像生成。
- MangaNinja: Line Art Colorization with Precise Reference Following
-
MangaNinja 是一个基于扩散模型的参考图引导线稿上色方法,通过渐进式 Patch Shuffling 策略训练模型学会局部语义匹配能力,并引入 PointNet 驱动的点控制机制实现精细颜色对应,在大姿态差异、多参考图、跨角色上色等挑战场景中显著超越现有方法。
- MARBLE: Material Recomposition and Blending in CLIP-Space
-
仅在 CLIP 空间操作材质嵌入,通过定向注入 UNet 中的材质响应层实现材质迁移和混合,并通过轻量 MLP 预测属性编辑方向实现粗糙度/金属度/透明度/发光的参数化控制,无需微调扩散模型。
- MCA-Ctrl: Multi-party Collaborative Attention Control for Image Customization
-
提出 MCA-Ctrl,一种免微调的图像定制方法,通过三个并行扩散过程在自注意力层中的全局注入(SAGI)和局部查询(SALQ)操作,同时支持文本和图像条件的高质量主体生成、替换和添加。
- Memories of Forgotten Concepts
-
本文揭示了扩散模型中概念擦除方法的根本缺陷——通过扩散反演找到高似然度的潜变量种子,证明被擦除的概念信息仍然存留在模型中,且可以从多个不同的种子向量重建出被擦除概念的高质量图像。
- MetaShadow: Object-Centered Shadow Detection, Removal, and Synthesis
-
MetaShadow 提出首个三合一框架,将基于GAN的 Shadow Analyzer(阴影检测+去除)与基于扩散模型的 Shadow Synthesizer(阴影合成)协同结合,通过 GAN 中间特征引导扩散模型进行阴影知识迁移,在三个阴影任务上均达到 SOTA。
- MExD: An Expert-Infused Diffusion Model for Whole-Slide Image Classification
-
MExD 首次将生成式扩散模型应用于全切片图像(WSI)分类,通过动态混合专家(Dyn-MoE)聚合器筛选关键实例并提供条件信息,结合扩散分类器(Diff-C)从噪声中迭代还原类别标签,在Camelyon16、TCGA-NSCLC和BRACS三个基准上达到SOTA。
- MINIMA: Modality Invariant Image Matching
-
MINIMA 提出了一个统一的跨模态图像匹配框架,通过设计数据引擎从廉价的 RGB 图像对中生成多模态合成数据集 MD-syn(480M 对),使任何现有匹配管线仅需微调即可获得跨模态匹配能力,在 19 种跨模态场景下显著超越模态特定方法。
- Minority-Focused Text-to-Image Generation via Prompt Optimization
-
MinorityPrompt 提出了一种在线 prompt 优化框架,通过在推理过程中迭代优化可学习 token embedding 来最大化似然度损失,引导 T2I 扩散模型生成处于数据分布低密度区域的少数(minority)样本,同时保持语义一致性和生成质量。
- MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World
-
MirrorVerse 通过构建增强的合成数据集 SynMirrorV2(包含随机位姿、旋转和多物体场景),配合三阶段课程式训练策略,训练出 MirrorFusion 2.0 模型,首次使扩散模型能够生成逼真的镜面反射,在合成和真实场景中均显著超越前方法。
- MixerMDM: Learnable Composition of Human Motion Diffusion Models
-
提出 MixerMDM,首个可学习的运动扩散模型组合技术,通过 Transformer-based Mixer 模块预测动态混合权重,以对抗训练方式学习如何融合个体运动和交互运动扩散模型,实现细粒度可控的人-人交互运动生成。
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling
-
首次将连续图像表示与离散文本表示整合到统一自回归概率建模框架中,通过轻量扩散头替代 VQ 离散化避免信息损失,并推导出 v-prediction 为最优参数化以解决低精度训练下的数值误差问题。
- MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices
-
提出首个可在移动端实时运行的单张人脸头像动画方法 MobilePortrait,通过混合显隐式关键点 + 预计算外观知识,仅用 16 GFLOPs 即匹敌 SOTA(100–600+ GFLOPs)的效果。
- Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion
-
构建首个大规模立体转换基准 Mono2Stereo(240 万对),提出立体质量指标 SIoU(与人类判断相关性 0.84 Spearman)和双条件扩散模型 + Edge Consistency 损失,同时解决单阶段方法立体效果弱和两阶段方法图像质量差的矛盾。
- Move-in-2D: 2D-Conditioned Human Motion Generation
-
定义 2D 场景图像+文本条件下的人体运动生成新任务,构建 30 万级 HiC-Motion 数据集,通过 in-context conditioning 扩散 Transformer 生成可自然投影到场景的运动序列,赋能下游人体视频生成。
- MTADiffusion: Mask Text Alignment Diffusion Model for Object Inpainting
-
MTADiffusion通过构建500万张图像的Mask-Text对齐数据集、联合训练修复与边缘预测任务、以及基于VGG Gram矩阵的风格一致性损失,同时解决了对象修复中的语义错位、结构扭曲和风格不一致三大问题,在BrushBench和EditBench上达到SOTA。
- Multi-focal Conditioned Latent Diffusion for Person Image Synthesis
-
MCLD通过将源人物图像解耦为面部区域、外观纹理和整体图像三个焦点条件,设计多焦点条件聚合模块(MFCA)在UNet不同阶段选择性注入不同条件,有效缓解了LDM压缩导致的面部和纹理细节退化问题,在DeepFashion上取得SOTA。
- Multi-Group Proportional Representation for Text-to-Image Models
-
本文提出Multi-Group Proportional Representation (MPR)指标,用于系统化度量文本到图像模型中交叉人口群体的代表性偏差,并开发了基于该指标的优化算法,在保持生成质量的前提下引导T2I模型向更均衡的群体代表性方向调整。
- Multi-party Collaborative Attention Control for Image Customization
-
提出 MCA-Ctrl,一种无需微调的图像定制方法,通过三个并行扩散过程的自注意力协同控制,实现文本和图像条件下的高质量主体驱动编辑与生成,同时引入主体定位模块解决复杂视觉场景中的特征泄漏和混淆问题。
- Multitwine: Multi-Object Compositing with Text and Layout Control
-
本文提出首个支持文本和布局引导的多目标同时合成(compositing)生成模型Multitwine,通过联合训练合成与个性化生成任务,结合跨注意力/自注意力解耦损失,实现同时插入多个对象的自然交互(如拥抱、弹吉他),用户研究中交互真实性偏好率最高达97.1%。
- MVPortrait: Text-Guided Motion and Emotion Control for Multi-View Vivid Portrait Animation
-
本文提出MVPortrait,一个两阶段文本引导框架(Text2FLAME + FLAME2Video),通过将FLAME 3D参数化面部模型作为中间表示,分别用MotionDM和EmotionDM扩散模型生成运动和表情参数序列,再用多视角视频生成模型将FLAME渲染序列转化为逼真的多视角肖像动画,首次实现文本/语音/视频三种信号兼容的可控肖像动画。
- Navigating Image Restoration with VAR's Distribution Alignment Prior
-
本文发现Visual AutoRegressive (VAR) 模型的next-scale预测具有天然的多尺度分布对齐能力——低尺度修复全局退化(如低光照、雾霾),高尺度修复局部退化(如噪声、雨滴),基于此构建VarFormer框架,通过Degradation-Aware Enhancement (DAE)自适应选择尺度先验、Adaptive Feature Transformation (AFT)融合先验与退化特征,在6类恢复任务上超越现有multi-task方法。
- Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models
-
本文提出FastProtect,首个关注延迟的图像保护框架,通过预训练Mixture-of-Perturbations (MoP)替代传统逐图迭代优化,配合Multi-Layer Protection Loss增强训练效果、Adaptive Targeted Protection和Adaptive Protection Strength优化推理,实现了比现有最快方法PhotoGuard快175×(A100 GPU上0.04秒 vs 7秒处理512²图像)的实时保护,同时保持相当的保护效力和更优的不可见性。
- Nested Diffusion Models Using Hierarchical Latent Priors
-
本文提出嵌套扩散模型,用一系列从粗到细的扩散模型逐级生成不同语义层级的潜变量,每级以上级输出为条件,在 ImageNet 256×256 上仅增加 25% 计算量便将无条件 FID 从 45.19 降至 11.05,有条件 FID 降至 3.97。
- Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis
-
Noise Diffusion 提出利用大型视觉语言模型(VLM)的 VQA 评分监督优化扩散模型的初始噪声,通过分布保持的噪声更新公式 \(z'_T = \sqrt{1-\gamma} z_T + \sqrt{\gamma} \sigma\)(保证 \(z'_T \sim \mathcal{N}(0,I)\))和梯度引导噪声选择,在复杂 prompt 上 VQA Score 提升 19.3%,适配所有 SD 版本和多种 VLM。
- Nonisotropic Gaussian Diffusion for Realistic 3D Human Motion Prediction
-
SkeletonDiffusion 提出非各向同性高斯扩散模型用于 3D 人体运动预测,用骨骼邻接矩阵构造非对角协方差矩阵 \(\Sigma_N\)(而非标准的 \(I\)),使扩散噪声天然符合人体骨骼拓扑,肢体抖动(jitter)从 0.52 降至 0.26,拉伸(stretch)从 5.54 降至 4.45。
- Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability
-
MaskUNet 发现扩散模型中"将某些 U-Net 参数置零反而能提升生成质量"这一反直觉现象,提出基于时间步和样本内容的可学习二值掩码动态选择参数,COCO 2014 FID 从 12.85 降至 11.72(+8.8%),T2I-CompBench 颜色绑定从 0.375 提升至 0.699。
- Not Just Text: Uncovering Vision Modality Typographic Threats in Image Generation Models
-
本文揭示了图像生成模型在视觉模态上存在的"排版攻击"漏洞——攻击者可以通过在输入图像中嵌入文本来操纵生成结果,并系统评估了现有防御方法对此类视觉模态威胁的无效性,提出了 VMT-IGMs 数据集作为评估基准。
- ObjectMover: Generative Object Movement with Video Prior
-
ObjectMover 将图像中物体移动任务建模为序列到序列问题,通过微调视频生成模型来利用其跨帧物体一致性知识,结合游戏引擎合成的高质量数据对和多任务学习策略,实现了在复杂真实场景中的光照重整、遮挡补全和阴影/反射同步编辑。
- OFER: Occluded Face Expression Reconstruction
-
OFER 使用两个条件扩散模型分别生成 FLAME 参数模型的形状和表情系数,结合一个排序网络从多个候选中选出最优形状,实现了遮挡条件下多样且真实的 3D 人脸表情重建。
- OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows
-
OmniFlow 将 Stable Diffusion 3 的整流流框架扩展到多模态(文本+图像+音频)联合生成场景,通过模块化的 Omni-Transformer 架构和新颖的多模态引导机制,在无需从头训练的情况下实现了优于 CoDi 和 UniDiffuser 等前代 any-to-any 模型的生成质量。
- OmniGen: Unified Image Generation
-
首个通用图像生成基础模型,仅由 VAE 和 Transformer 组成,通过统一多模态输入格式实现文生图、图像编辑、可控生成等多任务端到端处理。
- OmniStyle: Filtering High Quality Style Transfer Data at Scale
-
构建了首个百万级风格迁移配对数据集 OmniStyle-1M(100万 content-style-stylized 三元组,1000种风格),设计 OmniFilter 多维质量过滤框架筛选高质量数据,并基于 DiT 架构训练端到端风格迁移模型 OmniStyle,同时支持指令引导和参考图引导的风格迁移,全面超越现有方法。
- One-for-More: Continual Diffusion Model for Anomaly Detection
-
提出CDAD框架,通过梯度投影实现扩散模型的稳定持续学习,配合迭代SVD(iSVD)将内存消耗从157GB降至17GB,并设计异常掩码网络增强条件机制,在MVTec和VisA上17/18个设置中取得第一。
- One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers
-
揭示 DiT 的计算在空间 token 上均匀分配(不会把多余计算重分配到困难区域),提出 ELIT——在 DiT 中插入可变长度的 latent interface(Read/Write 交叉注意力),训练时随机丢弃尾部 latent 学出重要性排序,推理时通过调节 latent 数量实现平滑的质量-FLOPs 权衡,ImageNet 512px 上 FID 降低 53%。
- OpenSDI: Spotting Diffusion-Generated Images in the Open World
-
OpenSDI 定义了开放世界扩散图像检测挑战,构建了包含多 VLM 生成指令和多扩散模型的大规模数据集 OpenSDID,并提出 MaskCLIP——通过 Synergizing Pretrained Models(SPM)框架协同 CLIP 和 MAE,在检测和定位任务上大幅超越现有方法。
- Optimizing for the Shortest Path in Denoising Diffusion Model
-
将扩散模型的去噪过程建模为图论中的最短路径问题,通过优化初始残差来压缩反向扩散路径,实现用 2 步采样即可达到甚至超越 DDIM 10 步的生成质量。
- ORIDa: Object-Centric Real-World Image Composition Dataset
-
ORIDa 构建了首个大规模、真实拍摄、公开可用的物体合成数据集,包含200个独特物体的30000+图像(含事实-反事实对和多位置变体),并通过在 StableDiffusion-Inpaint 上微调验证了该数据集在物体移除和插入任务中的有效性。
- OSDFace: One-Step Diffusion Model for Face Restoration
-
OSDFace 提出了首个专门针对人脸修复的单步扩散模型,通过视觉表示嵌入器(VRE)从低质量人脸中提取丰富先验信息,结合面部身份损失和 GAN 引导,仅需一步推理(约 0.1 秒)即可生成高保真、自然且身份一致的人脸图像,全面超越现有 SOTA。
- Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation
-
提出 Concept-Gated Visual Distillation (CGVD),一种无需训练的推理时框架,通过语言指令解析 → SAM3 分割 → 集合论交叉验证 → LaMa 修复的流水线,从 VLA 模型的视觉输入中选择性移除语义干扰物,在高度杂乱场景中将 π₀ 的操作成功率从 43.0% 提升至 77.5%。
- Panorama Generation From NFoV Image Done Right
-
发现现有全景图生成方法的"视觉作弊"现象(追求视觉质量牺牲畸变准确性),提出 PanoDecouple 解耦框架将全景生成分解为畸变引导(DistortNet)和内容补全(ContentNet),仅用 3K 训练数据实现畸变和视觉质量双优。
- Parallel Sequence Modeling via Generalized Spatial Propagation Network
-
GSPN 提出广义空间传播网络,通过行/列线扫描的 2D 线性传播和稳定性-上下文条件,实现原生 2D 空间感知的亚二次注意力机制,将有效序列长度降至 \(\sqrt{N}\),在 16K 图像生成中加速 SD-XL 达 84 倍。
- PatchDPO: Patch-level DPO for Finetuning-free Personalized Image Generation
-
提出PatchDPO,通过patch级别的质量估计替代传统DPO的整图偏好判断,对预训练个性化生成模型进行第二阶段优化,在DreamBooth和Concept101数据集上单物体和多物体生成均达到SOTA。
- Pattern Analogies: Learning to Perform Programmatic Image Edits by Analogy
-
Pattern Analogies 提出了一种无需推断底层程序即可对图案图像进行结构化编辑的框架:用户通过一对简单图案 \((A, A')\) 展示期望的编辑操作,TriFuser 扩散模型将此编辑迁移到复杂目标图案 \(B\) 上生成 \(B'\),在真实世界艺术家设计的图案上忠实执行并泛化到训练未见的图案风格。
- PCM: Picard Consistency Model for Fast Parallel Sampling of Diffusion Models
-
PCM 提出了 Picard 一致性模型来加速扩散模型的 Picard 迭代并行采样,通过训练模型直接预测不动点解并引入模型切换机制确保精确收敛,在图像生成和机器人控制任务上实现最高 2.71x 加速。
- PersonaBooth: Personalized Text-to-Motion Generation
-
定义 Motion Personalization 新任务,提出 PersonaBooth 多模态微调方法和 PerMo 大规模动作个性数据集,通过 persona token、对比学习和上下文感知融合,从几个基础动作中捕捉个人独特运动风格并生成文本驱动的个性化动作。
- Personalized Preference Fine-tuning of Diffusion Models
-
PPD 提出个性化偏好扩散模型微调框架:利用 VLM 从少量(4 对)偏好示例中提取用户嵌入,通过解耦交叉注意力层注入扩散模型,结合 DPO 目标同时优化多用户的个性化偏好,仅需 4 个偏好对即可为新用户生成匹配其偏好的图像(76% 胜率)。
- PhD: A ChatGPT-Prompted Visual Hallucination Evaluation Dataset
-
本文提出 PhD,一个 ChatGPT 辅助构建的大规模视觉幻觉评估数据集,包含 14K+ 日常图片、750 张反常识图片和 102K VQA 三元组,通过 4 种评估模式×5 种视觉任务系统化评估多模态大语言模型的幻觉问题,在规模和挑战性上远超现有基准。
- PhysicsGen: Can Generative Models Learn from Images to Predict Complex Physical Relations?
-
提出 PhysicsGen 基准,包含 30 万图像对覆盖三个物理仿真任务(声波传播、镜头畸变、滚动/弹跳动力学),系统评估生成模型学习物理关系的能力,发现高阶微分方程描述的物理关系对现有模型构成根本性挑战。
- PICD: Versatile Perceptual Image Compression with Diffusion Rendering
-
PICD 提出了一种通用的感知图像压缩框架,通过将文本信息无损编码并与压缩图像一起用扩散模型"渲染"融合,在三个层次(领域级、适配器级、实例级)改进条件扩散模型,同时实现屏幕内容和自然图像的高视觉质量与高文本精确度。
- Pippo: High-Resolution Multi-View Humans from a Single Image
-
Pippo提出了一种多视图扩散Transformer,从单张随手拍照片生成1K分辨率的人体环绕视频,通过三阶段训练策略(预训练30亿人体图像+中训+后训)和推理时注意力偏置技术,实现超过训练视图数5倍的生成能力。
- PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction
-
提出 PQPP,首个联合文本到图像生成和检索的 Prompt/Query 性能预测基准,包含超过 10K 查询和 160 万条人工标注,发现生成与检索的查询难度几乎不相关(Pearson 仅 0.135)。
- Precise, Fast, and Low-cost Concept Erasure in Value Space: Orthogonal Complement Matters
-
本文提出 AdaVD(Adaptive Value Decomposer),一种免训练的 T2I 扩散模型概念擦除方法,通过在 cross-attention 的 value 空间中将原始 prompt 投影到目标概念的正交补空间,并引入自适应 shift 因子,实现了精确擦除目标概念且极少影响非目标内容。
- Probability Density Geodesics in Image Diffusion Latent Space
-
本文证明了在扩散模型的潜在空间中可以计算基于概率密度的测地线,其中通过高概率密度区域的路径比低密度区域更"短",并展示了该技术在视频近似性分析、无训练图像序列插值和外推中的应用。
- ProReflow: Progressive Reflow with Decomposed Velocity
-
提出渐进式 Reflow(逐步从多窗口到少窗口拉直扩散轨迹)和对齐 v-prediction(在速度匹配中优先匹配方向而非幅度),使 SDv1.5 在 4 步采样下达到接近 32 步 DDIM 的生成质量。
- Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction
-
提出 DPIDM(Dynamic Pose Interaction Diffusion Models),通过骨架姿态适配器将人体和服装的同步姿态注入去噪网络,设计分层注意力模块建模帧内人-衣姿态空间交互和帧间人体姿态时序动态,配合时序正则化注意力损失增强时序一致性,在 VVT 数据集上 VFID 达到 0.506,相比 SOTA 提升 60.5%。
- Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
-
提出 Q-DiT,针对 Diffusion Transformer (DiT) 的后训练量化方法,通过进化搜索自动分配量化组大小和样本级动态激活量化,在 W4A8 设置下实现高保真图像/视频生成。
- RAD: Region-Aware Diffusion Models for Image Inpainting
-
RAD通过为每个像素分配不同的噪声调度实现区域异步生成,仅需对vanilla扩散模型进行最小的结构改动(将FC层改为1×1卷积),就能在推理速度提升100倍的同时达到SOTA修复质量。
- Random Conditioning for Diffusion Model Compression with Distillation
-
本文提出 Random Conditioning 技术,在条件扩散模型的知识蒸馏过程中将带噪图像与随机选取的不相关文本条件配对,使得学生模型无需为每个文本都生成对应图像即可探索完整条件空间,实现了高效的无图像/少图像扩散模型压缩,且学生能生成训练时从未见过的概念。
- RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories
-
提出 RayFlow 扩散框架,为每个样本设计独特的扩散路径(指向实例特定目标分布),并通过 Time Sampler 重要性采样优化训练,在最小化采样步数的同时保持生成多样性和稳定性。
- Re-HOLD: Video Hand Object Interaction Reenactment via Adaptive Layout-instructed Diffusion Model
-
提出 Re-HOLD,首个以人为中心的手物交互(HOI)视频重演框架,通过分离式布局表示解耦手和物体建模,结合交互纹理增强模块和自适应布局调整策略,实现跨物体高保真 HOI 视频生成。
- Reanimating Images using Neural Representations of Dynamic Stimuli
-
提出 BrainNRDS 框架,将静态图像表征与运动生成解耦,利用 fMRI 脑活动解码光流信息,结合运动条件扩散模型从初始帧生成视频,同时发现视频编码器(VideoMAE)在预测脑活动方面优于图像编码器。
- Rectified Diffusion Guidance for Conditional Generation
-
ReCFG 从理论上揭示了标准 Classifier-Free Guidance (CFG) 中两个系数求和为 1 的约束导致生成分布的期望偏移问题,通过放松系数约束并给出 \(\gamma_0\) 的闭式解,提供了一种无需重训练、几乎不增加推理开销的后处理方案来校正 CFG 的引导效果。
- Redefining
in Dictionary: Towards an Enhanced Semantic Understanding of Creative Generation -
CreTok 将"creative"重定义为一个可学习的通用 token
<CreTok>,通过在文本嵌入空间持续迭代优化该 token 的语义,赋予扩散模型组合式创意生成的"元创造力",无需额外训练即可零样本生成多样的概念混合图像,速度比 SOTA 快 10-30 倍。 - ReNeg: Learning Negative Embedding with Reward Guidance
-
ReNeg 提出通过奖励模型引导在连续文本嵌入空间中直接学习负面嵌入(negative embedding),替代手工制作的负面提示,仅优化极少参数即可在 HPSv2 基准上媲美全模型微调方法的生成质量,且学到的嵌入可直接迁移到其他 T2I 和 T2V 模型。
- Reversing Flow for Image Restoration
-
ResFlow 提出将图像退化过程建模为确定性连续归一化流(而非随机扩散过程),通过辅助变量消解退化的不可逆性实现可逆建模,采用熵守恒调度策略,仅需 4 步采样即可完成高质量图像复原,在去雪/去雨/去雾/去噪/去压缩伪影等任务上达到 SOTA。
- Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate Reward
-
本文提出 LaSRO,通过在潜空间中学习可微的代理奖励模型,将任意(包括不可微)奖励信号转化为可微梯度引导,实现对两步扩散模型的高效奖励微调,显著优于 DDPO、DPO 等主流强化学习方法。
- RoomPainter: View-Integrated Diffusion for Consistent Indoor Scene Texturing
-
提出 RoomPainter,通过零样本的多视角集成采样(MVIS)和相关视角注意力机制,将 2D 扩散模型适配为 3D 一致的室内场景纹理合成工具,采用两阶段策略确保全局和局部一致性。
- RORem: Training a Robust Object Remover with Human-in-the-Loop
-
RORem 通过"人在回路中"的半监督数据生成范式——先用初始模型生成移除结果,让人类标注筛选高质量样本,再训练判别器自动化后续筛选——迭代构建 200K+ 高质量目标移除配对数据集,使微调后的 SDXL 模型在移除成功率上超越先前方法 18%+,蒸馏后仅需 4 步(<1 秒)。
- SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation and Editing
-
提出 SALAD,一种骨骼感知的潜在扩散模型,通过骨骼-时间结构化的 VAE 和去噪器显式建模关节、帧与文本的细粒度交互,并利用交叉注意力图实现零样本文本驱动动作编辑。
- SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer
-
提出 SaMam,首个基于 Mamba 状态空间模型的任意图像风格迁移框架,通过风格感知 S7 块从风格嵌入预测 SSM 权重参数,配合锯齿形扫描和局部增强机制,在变换质量和效率之间取得最佳平衡。
- Scaling Down Text Encoders of Text-to-Image Diffusion Models
-
本文通过基于视觉的知识蒸馏方法,将 T5-XXL(11B)文本编码器蒸馏为 T5-Base(220M),缩小 50 倍的同时在图像质量和语义理解上几乎不损失,揭示了文本编码器在文生图任务中存在严重过参数化的"缩放下行规律"。
- Science-T2I: Addressing Scientific Illusions in Image Synthesis
-
Science-T2I 构建了涵盖 16 个科学领域的 20k+ 对抗图像对基准,揭示当前图像生成模型在隐式科学推理上的系统性缺陷(所有模型得分低于 50/100),并提出 SciScore 奖励模型和两阶段对齐框架(SFT+OFT),将 FLUX.1[dev] 的科学推理能力提升超过 50%。
- ScribbleLight: Single Image Indoor Relighting with Scribbles
-
ScribbleLight 提出一个基于涂鸦引导的单张室内图像重光照生成模型,通过 Albedo-conditioned Stable Image Diffusion 保持原图纹理颜色,并设计编码器-解码器 ControlNet 架构实现几何保持的精细光照控制,用户只需简单涂鸦即可实现开关灯、投射阴影等多种光照效果。
- SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer
-
提出即插即用的语义连续-稀疏注意力模块 SCSA,通过语义连续注意力(SCA)确保同语义区域风格一致性、语义稀疏注意力(SSA)保留原始纹理细节,可无训练嵌入任何基于注意力的风格迁移方法。
- See Further When Clear: Curriculum Consistency Model
-
本文提出 Curriculum Consistency Model (CCM),发现一致性蒸馏中不同时间步的学习难度(知识差异)高度不均衡,通过基于 PSNR 的 KDC 指标动态调整教师模型的迭代步数以保持课程难度一致,在 CIFAR-10 单步 FID 达到 1.64,并成功扩展到 SDXL 和 SD3。
- Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects
-
提出 Self-Cross Diffusion Guidance,通过惩罚一个主体的聚合自注意力图与另一个主体的交叉注意力图之间的重叠,有效解决扩散模型生成相似主体时的主体混合问题,是首个同时利用自注意力和交叉注意力交互关系的免训练方法。
- Self-Supervised ControlNet with Spatio-Temporal Mamba for Real-World Video Super-Resolution
-
提出 SCST 框架,将时空连续 Mamba(STCM)用于全局 3D 注意力建模,并结合基于 MoCo 的自监督 ControlNet 提取退化无关特征,配合三阶段混合训练策略,在真实世界视频超分辨率基准上取得了 SOTA 的感知质量。
- SemanticDraw: Towards Real-Time Interactive Content Creation from Image Diffusion
-
SemanticDraw 提出了一个亚秒级(0.64 秒)的区域多提示词文本-图像生成框架,通过三种稳定化策略解决了区域控制与扩散模型加速方法的兼容性问题,并利用多提示词流式批处理管线在单张 RTX 2080 Ti 上实现了近实时交互生成。
- SGMatch: Semantic-Guided Non-Rigid Shape Matching with Flow Regularization
-
SGMatch提出了语义引导的非刚体3D形状匹配框架,通过语义引导局部跨注意力(SGLCA)模块将视觉基础模型的语义特征融入几何描述子以消除对称歧义,并引入条件流匹配(CFM)正则化促进对应关系的空间平滑性,在非等距变形和拓扑噪声场景下取得一致性提升(SMAL上比之前SOTA好24%)。
- ShapeWords: Guiding Text-to-Image Synthesis with 3D Shape-Aware Prompts
-
提出ShapeWords,将3D形状编码为可嵌入文本prompt中的特殊token(Shape2CLIP模块),实现视角无关的3D形状引导文本到图像生成,在组合场景中显著优于ControlNet深度图条件方法。
- Shining Yourself: High-Fidelity Ornaments Virtual Try-on with Diffusion Model
-
首次将扩散模型应用于饰品(手镯、戒指、耳环、项链)虚拟试戴任务,提出迭代式姿态感知佩戴蒙版预测和蒙版引导注意力机制,在大姿态和大尺度差异下实现高保真的几何结构保持。
- ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual Instructions
-
本文提出 ShowHowTo,一个视频扩散模型,能够根据用户提供的初始场景图像和分步文字指令,生成与场景一致的逐步视觉指令序列;同时构建了包含57.8万条序列的大规模教学数据集,通过全自动管线从网络教学视频中采集。
- Six-CD: Benchmarking Concept Removals for Text-to-Image Diffusion Models
-
提出 Six-CD 基准,包含六类不良概念(有害、裸露、名人、版权角色、物体、艺术风格)和新评估指标 in-prompt CLIP score,首次系统性地对比评估文生图扩散模型的概念移除方法。
- SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-Image Diffusion Models
-
SleeperMark 提出了一种针对 T2I 扩散模型的鲁棒水印框架,通过将水印信息与模型的语义知识显式解耦,使水印在下游微调(LoRA、DreamBooth、ControlNet)后仍可靠检测,在各种微调攻击下 TPR@10⁻⁶FPR 保持 0.93 以上。
- SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device
-
SnapGen-V 提出了一套完整的移动端视频扩散模型加速框架,通过剪枝高效空间骨干网络、延迟-内存联合架构搜索确定时序层设计、以及专用的对抗微调将去噪步数降至 4 步,最终以 0.6B 参数在 iPhone 16 上 5 秒内生成 5 秒视频,是首个在移动设备上实现实时文本到视频生成的工作。
- SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer
-
SoftVQ-VAE 通过将 VQ-VAE 的硬分类后验改为软分类后验(每个潜 token 自适应聚合多个 codeword),实现了完全可微的连续图像分词器,仅用 32-64 个 1D token 就能将 256×256 和 512×512 图像压缩到极高比率,使 SiT-XL 在 ImageNet 上达到 1.78 FID 的同时推理吞吐量提升 18-55 倍。
- STORM: Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis
-
STORM 提出基于最优传输理论的空间传输优化方法(STO),在扩散模型去噪过程中动态调整物体的注意力图位置,无需任何训练即可实现精确的空间布局控制,有效解决了 T2I 模型中"物体位置错误"这一被忽视的关键问题。
- Stable Flow: Vital Layers for Training-Free Image Editing
-
Stable Flow 提出自动检测 DiT(FLUX)中的"关键层"(vital layers)并仅在这些层注入参考图像的注意力特征,实现无需训练的多种图像编辑操作,同时引入 latent nudging 技术改善真实图像的流模型反演质量。
- StableAnimator: High-Quality Identity-Preserving Human Image Animation
-
StableAnimator 提出首个端到端的身份保持视频扩散框架,通过全局内容感知 Face Encoder 和分布感知 ID Adapter 在训练中维护身份一致性,并在推理时利用 Hamilton-Jacobi-Bellman(HJB)方程优化面部质量,无需任何后处理工具即可生成高保真的人物动画视频。
- Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
-
MicroDiT 通过提出延迟遮蔽(deferred masking)策略——先用轻量级 patch-mixer 预处理所有 patch 再遮蔽 75%——配合层级宽度缩放、混合专家(MoE)及合成数据,仅用 $1,890 成本在 2.6 天内从零训练出 11.6 亿参数的稀疏 Transformer,在 COCO 上达到 12.7 FID,成本仅为 Stable Diffusion 的 1/118。
- StyleMaster: Stylize Your Video with Artistic Generation and Translation
-
StyleMaster通过基于prompt-patch相似度的局部纹理选择和基于模型幻觉生成的对比学习全局风格提取,结合运动适配器和灰度Tile ControlNet,实现了兼具风格忠实度和内容保持的高质量视频风格化生成与迁移。
- StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
-
StyleStudio提出跨模态AdaIN、基于风格的无分类器引导(SCFG)和教师模型三个互补策略,解决文本驱动风格迁移中的风格过拟合、文本对齐不准和布局不稳定问题,实现了对风格元素的选择性控制。
- SVFR: A Unified Framework for Generalized Video Face Restoration
-
本文提出 SVFR,一个基于 Stable Video Diffusion 的统一视频人脸修复框架,将盲人脸修复(BFR)、着色和修复三个任务纳入同一模型中联合训练,通过任务嵌入、统一隐空间正则化和面部先验学习等设计,在多个视频人脸修复任务上取得 SOTA 效果。
- SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion
-
本文提出 SwiftEdit,首个基于单步扩散模型的文本引导图像编辑工具,通过两阶段训练的单步反演网络和注意力重缩放的 mask 编辑技术,在 0.23 秒内完成图像编辑,比多步方法快至少 50 倍。
- Symbolic Representation for Any-to-Any Generative Tasks
-
提出了一种符号化生成任务描述语言 (A-Language) 和免训练推理引擎,将自然语言指令映射为由函数、参数、拓扑三元组构成的可执行符号流,实现跨 12 类多模态生成任务的统一处理,在质量和灵活性上匹配或超越端到端训练的统一多模态模型。
- Synchronized Video-to-Audio Generation via Mel Quantization-Continuum Decomposition
-
提出 Mel-QCD,将 Mel 频谱图分解为语义向量(量化)、能量和标准差(连续)三种信号,通过 V2X 预测器从视频预测这些信号,结合 ControlNet 和文本反转技术,在 VGGSound 上 8 项指标中取得全面 SOTA 的视频到音频生成。
- SyncSDE: A Probabilistic Framework for Diffusion Synchronization
-
SyncSDE 提出一个概率理论框架来分析和改进扩散模型同步(diffusion synchronization),将同步过程分解为"原始分数函数"和"轨迹间相关性建模"两项,揭示了启发式策略应聚焦于相关性建模,从而用单一超参数 \(\lambda\) 实现跨任务的最优同步策略,在 mask-based T2I、宽图生成、图像编辑、光学错觉图和3D纹理等多个任务上超越 SyncTweedies。
- SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction
-
提出 SyncVP 多模态视频预测框架,使用双分支扩散模型通过高效时空跨模态注意力同步生成 RGB+深度未来帧,创新地使用共享噪声和跨模态引导训练策略,在 Cityscapes 上达到 SOTA 且支持部分模态输入。
- T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting
-
提出T2ICount,利用预训练文生图扩散模型的单步去噪特征进行零样本目标计数,通过层次语义校正模块(HSCM)和表征区域一致性损失(\(\mathcal{L}_{RRC}\))解决单步去噪的文本敏感性不足问题。
- Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework
-
提出 AC-DC 去噪器(Auto-Correction + Directional Correction + Score-Based Denoising 三阶段),解决将 score-based 扩散先验嵌入 ADMM-PnP 框架时的流形不匹配问题,并首次建立了 score-based 去噪器在 ADMM 中的收敛性理论保证,在去噪、修复、去模糊、超分辨、相位恢复、HDR 等逆问题上一致超越现有基线。
- Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Counting
-
提出 TMTB 框架,通过扩散模型 inpainting 增强背景多样性、引入 VMamba 骨干网络和抗噪分类分支,在半监督人群计数任务中以仅 5% 标签数据将 JHU-Crowd++ MAE 降至 67.0,大幅刷新 SOTA。
- TCFG: Tangential Damping Classifier-Free Guidance
-
从数据流形几何视角出发,通过 SVD 分解去除无条件 score 中与条件 score 不对齐的切向分量,以极低计算开销改善 CFG 采样质量,在 SD1.5/SDXL/SD3/DiT 上均降低 FID。
- Temporal Score Analysis for Understanding and Correcting Diffusion Artifacts
-
发现扩散生成过程中的三阶段(Profiling-Mutation-Refinement)及伪影形成的"分数陷阱"机制,提出 ASCED 通过监控异常分数动力学实时检测和校正伪影,无需训练即可匹配或超越有监督方法。
- The Art of Deception: Color Visual Illusions and Diffusion Models
-
本文发现扩散模型(特别是 DDIM 反演过程)的中间表示会自然产生与人类感知一致的亮度/颜色偏移,基于此开发了一种利用文生图扩散模型生成新型视觉错觉的方法,并通过心理物理学实验验证了生成的错觉同样能欺骗人类。
- Tiled Diffusion
-
提出 Tiled Diffusion,通过在扩散模型的潜空间中引入拼贴约束和相似性约束,首次支持从自拼贴到复杂多对多连接的多种拼贴场景,实现无缝且连贯的可拼贴图像生成。
- TinyFusion: Diffusion Transformers Learned Shallow
-
提出 TinyFusion,一种可学习的深度剪枝方法,通过 Gumbel-Softmax 可微采样层掩码与协同优化权重更新模拟微调,显式优化剪枝后模型的可恢复性(而非最小化剪枝后损失),在 DiT-XL 上以不到 7% 预训练成本制造浅层扩散 Transformer,实现 2× 加速且 FID 仅 2.86。
- TKG-DM: Training-Free Chroma Key Content Generation Diffusion Model
-
本文提出 TKG-DM,通过操控扩散模型初始噪声的通道均值来控制生成图像的背景颜色,结合高斯掩码实现前景与色度键背景的分离,无需任何微调即可生成高质量的绿幕/色度键图像。
- TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation
-
提出TokenFlow统一图像tokenizer,通过双码本+共享映射架构解耦语义和像素级特征学习,首次实现离散视觉输入超越LLaVA-1.5 13B(+7.2%),同时在自回归生成中达到GenEval 0.55的SOTA。
- Towards Scalable Human-Aligned Benchmark for Text-Guided Image Editing
-
提出 HATIE,一个大规模(18K图像/50K查询)、全自动、多维度的文本引导图像编辑评估基准,通过5个维度的指标组合并拟合用户研究权重实现与人类感知的对齐。
- Towards Transformer-Based Aligned Generation with Self-Coherence Guidance
-
提出 Self-Coherence Guidance (SCG),一种针对 Transformer 架构文本引导扩散模型的训练无关对齐方法,通过直接优化跨注意力图(而非潜变量)来改善属性绑定、细粒度属性绑定和风格绑定。
- Towards Understanding and Quantifying Uncertainty for Text-to-Image Generation
-
首次系统性量化文本到图像生成模型相对于prompt的不确定性,提出PUNC方法——利用LVLM将生成图captioning后在文本空间与原始prompt比较,通过precision/recall分离认知和数据不确定性。
- Training Data Provenance Verification: Did Your Model Use Synthetic Data from My Generative Model for Training?
-
提出 TrainProVe 方法,基于泛化误差上界理论,通过影子模型训练和假设检验来验证可疑模型是否使用了特定生成模型的合成数据进行训练,准确率超过 99%。
- Traversing Distortion-Perception Tradeoff Using a Single Score-Based Generative Model
-
本文提出方差缩放反向扩散过程,通过一个参数 \(\lambda \in [0,1]\) 控制反向采样的方差大小,从而用单个预训练 score 网络灵活遍历 distortion-perception tradeoff 曲线的最优解,并在条件高斯分布下证明了其最优性。
- Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
-
提出 FIRM 框架——通过"差异优先"(编辑)和"计划-打分"(生成)的数据构建流水线训练专用奖励模型(FIRM-Edit-8B / FIRM-Gen-8B),配合"Base-and-Bonus"奖励策略(CME/QMA)解决 RL 中的奖励 hacking 问题,在图像编辑和 T2I 生成任务上均取得 SOTA。
- TurboFill: Adapting Few-Step Text-to-Image Model for Fast Image Inpainting
-
TurboFill 提出一种三步对抗训练方案,直接在少步蒸馏扩散模型 DMD2 上训练修复适配器(ControlNet 架构),仅需 4 步推理即可实现超越多步 BrushNet 的高质量图像修复效果,训练成本降低 10 倍以上。
- UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models
-
UIBDiffusion 提出了首个针对扩散模型的不可感知后门攻击方法,通过将通用对抗扰动(UAP)改造为后门触发器,实现了通用性(图像和模型无关)、实用性(高攻击成功率且不影响生成质量)和不可检测性(绕过 Elijah 和 TERD 两种最先进的防御算法)的三重优势。
- UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion
-
UltraFusion 首次将曝光融合建模为引导式修复问题,利用欠曝图像作为高光区域的软引导而非硬约束,实现 9 档曝光差的超高动态范围成像,同时对对齐误差和光照变化保持鲁棒。
- Uncertainty-guided Perturbation for Image Super-Resolution Diffusion Model
-
发现 LR 图像不同区域(平坦区域 vs 边缘纹理区域)对应扩散过程的不同时间步,提出不确定性引导的噪声加权(UNW)策略,对平坦区域施加更少噪声以保留更多 LR 信息,在更小模型和更少训练开销下达到超分 SOTA。
- Uni-Renderer: Unifying Rendering and Inverse Rendering via Dual Stream Diffusion
-
Uni-Renderer 提出了一种基于双流扩散模型的统一框架,将渲染(从固有属性到 RGB 图像)和逆渲染(从 RGB 图像分解固有属性)建模为两个条件生成任务,通过循环一致性约束缓解逆渲染中的固有歧义问题,在材质分解和渲染编辑上取得了优于现有方法的效果。
- UNIC-Adapter: Unified Image-Instruction Adapter with Multi-modal Transformer for Image Generation
-
UNIC-Adapter 基于 MM-DiT 架构设计了一个统一的图像-指令适配器,通过跨注意力机制和 RoPE 增强的空间感知注入,使单个 SD3 模型能够处理像素级控制、主题驱动生成和风格迁移等 14 种条件图像生成任务。
- UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations
-
提出 UniCom,通过对 VLM 连续语义特征进行通道维度压缩(而非空间下采样),构建紧凑连续表示空间,用 Transfusion 架构统一多模态理解与生成,在统一模型中达到 SOTA 生成质量。
- Unified Uncertainty-Aware Diffusion for Multi-Agent Trajectory Modeling
-
提出U2Diff,一个统一的扩散模型框架,能同时处理多智能体轨迹补全和预测任务,通过增强去噪损失提供逐状态不确定性估计,并引入Rank Neural Network对生成的多模态预测进行误差概率排序。
- UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
-
UniReal提出将各种图像生成和编辑任务统一为"不连续帧生成"的框架,利用视频数据作为可扩展的通用监督源,通过层次化提示和文本-图像关联机制,在单一扩散Transformer中实现了指令编辑、定制化生成、物体插入等多种任务的统一处理。
- Unseen Visual Anomaly Generation
-
提出 AnomalyAny 框架,利用预训练 Stable Diffusion 的生成能力,通过注意力引导优化和提示引导精化,在仅需单张正常样本且无需额外训练的条件下,生成多样化逼真的未见异常样本。
- Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing
-
针对基于 Flow Transformer (MM-DiT) 的无训练图像编辑,提出两阶段流反演方法(固定点迭代+速度补偿)和基于自适应层归一化(AdaLN)的不变性控制机制,统一支持刚性和非刚性编辑。
- Using Powerful Prior Knowledge of Diffusion Model in Deep Unfolding Networks for Image Compressive Sensing
-
将预训练扩散模型的强大先验知识嵌入深度展开网络(DUN),提出 DMP-DUN 方法,仅需 2 步即可实现高质量图像压缩感知重建。
- V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration
-
将图像复原重新定义为渐进式视频生成过程,利用预训练视频生成模型(Wan2.2-TI2V-5B)的先验知识,仅用 1,000 个多任务训练样本(不到现有方法的 2%)即可实现竞争力的多任务图像复原。
- VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness
-
提出 VerbDiff,一个无需额外条件(如边界框)即可生成准确人物交互图像的文本到图像扩散模型,通过关系解耦引导(RDG)消除交互词偏差,利用交互区域模块(IR Module)从交叉注意力图中提取局部交互区域进行方向引导。
- VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
-
VideoWorld 探索纯视觉视频生成模型能否从无标签视频中学习复杂知识(规则、推理、规划),提出潜在动态模型(LDM)压缩多步视觉变化,仅 3 亿参数即在围棋中达到职业五段水平。
- Visual-ERM: Reward Modeling for Visual Equivalence
-
提出 Visual-ERM,一个多模态生成式奖励模型,在视觉空间中直接评估 vision-to-code 任务的渲染质量,提供细粒度、可解释、任务无关的奖励信号,用于 RL 训练和测试时缩放。
- Visual Lexicon: Rich Image Features in Language Space
-
ViLex 提出了一种将图像编码到文本词汇空间的视觉编码器,通过冻结的文生图扩散模型进行自监督训练,使得生成的图像 token 同时兼具高层语义和细粒度视觉细节,在图像重建和视觉理解任务上均超越了传统方法。
- Visual Persona: Foundation Model for Full-Body Human Customization
-
提出 Visual Persona,首个面向全身人体定制的基础模型,通过大规模配对数据集策展(580K图像/100K身份)和身体部位分区 Transformer 解码器架构,实现高保真的全身外观保持与文本引导的多样化生成。
- ViUniT: Visual Unit Tests for More Robust Visual Programming
-
ViUniT提出了一个自动生成视觉单元测试的框架,通过LLM生成图像描述和预期答案、文本到图像模型生成测试图像,验证视觉程序的逻辑正确性,将7B开源模型提升到超越gpt-4o-mini的水平并减少40%的"对了但原因错误"的程序。
- VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary
-
提出 VLog,将视频叙事(narration)定义为词汇表单元,通过生成式检索架构(GPT-2 推理 + SigLIP 检索)实现比生成式 VideoLLM 快 10-20 倍的高效视频理解。
- VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis
-
VLOGGER 是首个从单张人像图片和音频输入生成包含面部表情与上半身手势的全身说话人视频的方法,通过两阶段扩散模型管线(音频→3D运动→视频)实现了高质量、可变长度的人物视频合成,在三个公开基准上超越了现有方法。
- WeGen: A Unified Model for Interactive Multimodal Generation as We Chat
-
提出WeGen统一框架,将多模态理解和视觉生成整合到单一模型中,通过动态实例身份一致性(DIIC)数据管线和提示自重写(PSR)机制,解决参考图像一致性保持和生成多样性两大挑战,实现类似对话式设计助手的交互体验。
- Where's the Liability in the Generative Era? Recovery-Based Black-Box Detection of AI-Generated Content
-
本文提出了一种基于"破坏-恢复"策略的黑盒 AI 生成图像检测方法,核心假设是生成模型更容易恢复自己生成的图像被遮挡的部分,通过分布对齐的代理模型微调进一步提升对未知目标模型的检测准确度,仅需不到 1000 张 API 样本和 2 小时 GPU 时间。
- Yo'Chameleon: Personalized Vision and Language Generation
-
提出 Yo'Chameleon,首次探索大型多模态模型(LMM)的个性化问题,通过双soft prompt + self-prompting机制 + "soft-positive"训练策略,仅用3-5张图片和32个可学习token就能实现个性化的文本理解和图像生成。
- Z-Magic: Zero-shot Multiple Attributes Guided Image Creator
-
提出 Z-Magic 框架,从条件概率理论视角重新建模多属性图像生成中的属性依赖关系,通过条件依赖梯度引导和多任务学习优化,在零样本设置下实现多属性连贯生成。
- Zero-Shot Image Restoration Using Few-Step Guidance of Consistency Models (and Beyond)
-
CM4IR 提出一种基于一致性模型(Consistency Model)的零样本图像恢复方案,通过新颖的噪声注入机制(解耦去噪/注入噪声级别 + 随机/估计噪声分割)结合反投影引导和更好的初始化,仅用 4 次神经网络评估即超越需要 20-1000 次的现有扩散模型方法。
- Emuru: Zero-Shot Styled Text Image Generation, but Make It Autoregressive
-
提出 Emuru,首个用于手写文本图像生成(HTG)的自回归模型,结合专用 VAE 和 T5 Transformer 编解码器,仅在 10 万+字体的合成数据上训练即可零样本泛化到未见过的手写风格,支持任意长度文本生成。