跳转至

🎨 图像生成

📷 CVPR2026 · 240 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (11) · 🔬 ICLR2026 (154) · 🤖 AAAI2026 (78) · 🧠 NeurIPS2025 (250) · 📹 ICCV2025 (219) · 🧪 ICML2025 (115)

🔥 高频主题: 扩散模型 ×85 · 文生图 ×19 · 多模态 ×12 · 人脸/视线 ×11 · 布局/合成 ×11

2ndMatch: Finetuning Pruned Diffusion Models via Second-Order Jacobian Matching

提出2ndMatch微调框架,通过对齐剪枝模型与原始模型的二阶Jacobian矩阵 \(J^\top J\)(灵感来自有限时间Lyapunov指数),匹配两者对输入扰动的时间敏感性,从而显著缩小剪枝扩散模型与原始模型的生成质量差距。

Accelerating Diffusion Model Training under Minimal Budgets: A Condensation-Based Perspective

提出 D2C(Diffusion Dataset Condensation)——首个面向扩散模型的数据集压缩框架,通过"Select + Attach"两阶段流水线,在仅使用 ImageNet 0.8%–8% 数据的条件下实现 100–233× 的训练加速,同时保持高质量图像生成能力。

ADAPT: Attention Driven Adaptive Prompt Scheduling and InTerpolating Orthogonal Complements for Rare Concepts Generation

提出 ADAPT 框架,通过注意力驱动的自适应 Prompt 调度(APS)、池化嵌入操控(PEM)和潜空间操控(LSM)三个零样本模块,确定性且语义对齐地控制从通用到罕见概念的生成过渡,在 RareBench 上显著超越 R2F 基线。

HINGE: Adapting a Pre-trained Single-Cell Foundation Model to Spatial Gene Expression Generation from Histology Images

提出HINGE框架,首次将预训练的表达空间单细胞基础模型(sc-FM, CellFM)改装为组织学图像条件的空间基因表达生成器,通过恒等初始化的SoftAdaLN调制轻量注入视觉上下文、表达空间掩码扩散过程对齐预训练目标、warm-start课程稳定训练,在三个ST数据集上达SOTA并保持优越的基因共表达一致性。

Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation

提出 Adaptive Auxiliary Prompt Blending (AAPB),通过 Tweedie 公式推导闭式自适应混合系数,在每个去噪步动态平衡辅助锚定提示与目标提示的贡献,无需训练即可显著改善稀有概念生成和零样本图像编辑的语义准确性与结构保真度。

Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration

提出 Spectrum,一种基于切比雪夫多项式的全局谱域特征预测方法,将扩散模型去噪器的中间特征视为时间函数并用岭回归拟合系数,实现误差不随步长增长的长程特征预测,在 FLUX.1 上达到 4.79× 加速、在 Wan2.1-14B 上达到 4.67× 加速而质量几乎无损。

Agentic Retoucher for Text-To-Image Generation

将 T2I 扩散模型输出的局部失真(手指畸变、面部异常、文字错误等)校正问题建模为感知-推理-行动的多智能体循环系统 Agentic Retoucher,通过 Perception Agent 的上下文感知失真显著性图定位缺陷、Reasoning Agent 的结构化推理诊断失真类型、Action Agent 的工具选择执行修复,并配合 GenBlemish-27K 数据集实现端到端的迭代式自动修正。

Agentic Retoucher for Text-To-Image Generation

Agentic Retoucher 将 T2I 生成图像的局部缺陷修复重构为感知→推理→行动的多 agent 闭环决策流程,通过上下文感知的显著性检测、人类偏好对齐的诊断推理和自适应工具选择实现自主修复,在 GenBlemish-27K 上 plausibility 提升 2.89 分,83.2% 修复结果被人类评为优于原图。

AHS: Adaptive Head Synthesis via Synthetic Data Augmentations

AHS 通过使用头部重演模型(GAGAvatar)生成合成增强数据来克服自监督训练的局限性,结合双编码器注意力机制和自适应掩码策略,在全身图像的头部替换任务中实现了 SOTA 效果。

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

针对视觉自回归(VAR)模型在图像超分辨率中的两个一致性问题——注意力局部偏差导致的空间不连贯和残差监督导致的跨尺度误差累积,提出 AlignVAR 框架,通过空间一致性自回归(SCA)和层级一致性约束(HCC)协同解决,实现比扩散方法快 10× 以上的推理速度且重建质量更优。

All-in-One Slider for Attribute Manipulation in Diffusion Models

提出 All-in-One Slider 框架,通过在文本编码器中间层嵌入上训练一个轻量级 Attribute Sparse Autoencoder,将属性分解为高维稀疏激活空间中的解耦方向,从而用单一模块实现对多种面部属性的连续、细粒度、可组合控制,并首次展示对未见属性(如种族、名人)的零样本连续操控能力。

All-in-One Slider for Attribute Manipulation in Diffusion Models

提出 All-in-One Slider 框架,通过在文本嵌入空间上训练一个属性稀疏自编码器(Attribute Sparse Autoencoder),将多种人脸属性解耦为稀疏的语义方向,实现单一轻量模块对 52+ 种属性的细粒度连续控制,并支持多属性组合和未见属性的零样本操控。

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

提出 Ani3DHuman 框架,将运动学驱动的网格动画与视频扩散先验相结合,通过自引导随机采样(Self-guided Stochastic Sampling)将低质量的刚体渲染恢复为高保真视频,从而实现逼真的非刚体服装动态建模。

APPLE: Attribute-Preserving Pseudo-Labeling for Diffusion-Based Face Swapping

APPLE 提出了一种基于扩散模型的教师-学生框架,通过条件去模糊(代替传统条件修复)训练教师模型生成属性对齐的伪标签,再利用这些高质量伪标签训练学生模型,在保持身份迁移能力的同时实现了 SOTA 的属性保留性能(FID 2.18, Pose Error 1.85)。

Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation

Ar2Can 提出将多人图像生成分解为空间规划(Architect)和身份保留渲染(Artist)两阶段,通过 GRPO 强化学习配合基于匈牙利匹配的空间锚定人脸奖励函数训练 Artist 模型,在 MultiHuman-Testbench 上实现了 68.2 的身份保留分数和 90.2 的计数准确率,大幅超越所有基线。

AS-Bridge: A Bidirectional Generative Framework Bridging Next-Generation Astronomical Surveys

提出 AS-Bridge,一个基于 Brownian Bridge 扩散过程的双向生成框架,在地基 LSST 与空基 Euclid 天文巡天之间建模概率条件分布,实现跨巡天图像翻译和罕见事件检测(引力透镜),并通过 \(\epsilon\)-prediction 训练目标改进了标准 Brownian Bridge 的似然估计。

AS-Bridge: A Bidirectional Generative Framework Bridging Next-Generation Astronomical Surveys

提出 AS-Bridge,基于双向 Brownian Bridge 扩散过程建模地面 LSST 与空间 Euclid 巡天观测间的条件概率分布,实现跨巡天概率图像翻译和利用重建不一致性的无监督强引力透镜检测。

Attention, May I Have Your Decision? Localizing Generative Choices in Diffusion Models

本文通过线性探针(linear probing)发现扩散模型中隐式决策(如未指定性别时默认生成男性)主要由自注意力层而非交叉注意力层控制,并基于此提出 ICM 方法,仅在少量关键自注意力层上进行干预即可实现 SOTA 的去偏见效果,同时最小化图像质量退化。

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

将 AI 生成图像归因从分类范式转为实例检索范式,提出 LIDA 框架:利用 RGB 低位平面提取生成器特有指纹作为输入,通过在真实图像上无监督预训练 + 少样本适配实现开放集归因,在 GenImage 和 WildFake 上以 1-shot 设置即取得 40.4%/77.5% 的平均 Rank-1 准确率,大幅超越现有方法。

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

提出 LIDA,将 AI 生成图像溯源从分类问题转化为检索问题,利用低位平面指纹捕获生成器特异性伪影,配合无监督预训练和少样本自适应,在零/少样本设置下实现 SOTA 的 Deepfake 检测和图像溯源。

AutoDebias: An Automated Framework for Detecting and Mitigating Backdoor Biases in Text-to-Image Models

提出 AutoDebias——首个同时检测和缓解 T2I 模型中恶意后门偏见的统一框架,利用 VLM 开放集检测发现触发词-偏见关联并构建查找表,再通过 CLIP 引导的分布对齐训练消除后门关联,在 17 种后门场景中将攻击成功率从 90% 降至接近 0 且保持图像质量。

Banana100: Breaking NR-IQA Metrics by 100 Iterative Image Replications with Nano Banana Pro

Banana100 通过让 Nano Banana Pro 迭代复制图像 100 次来系统性研究多轮编辑中的质量退化问题,构建了包含 28,000 张退化图像的数据集,并揭示了一个惊人发现:21 种主流无参考图像质量评估(NR-IQA)指标均无法可靠检测迭代退化——大多数指标甚至给噪声图像打出比干净图像更高的分数。

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

提出 BeautyGRPO,一个基于强化学习的人脸修图框架,通过构建细粒度偏好数据集 FRPref-10K 训练专用奖励模型,并设计动态路径引导(DPG)机制在随机探索与高保真之间取得平衡,实现与人类美学偏好对齐的自然修图效果。

Beyond the Golden Data: Resolving the Motion-Vision Quality Dilemma via Timestep Selective Training

发现视频数据中运动质量(MQ)和视觉质量(VQ)呈负相关的"Motion-Vision Quality Dilemma",通过梯度分析揭示不平衡数据在适当时间步可产生等效学习信号,提出TQD框架使仅用不平衡数据训练即可超越黄金数据训练。

BiGain: Unified Token Compression for Joint Generation and Classification

BiGain 提出频率感知的 token 压缩框架,通过拉普拉斯门控 token 合并(保留高频细节)和插值-外推 KV 下采样(保留查询精度),在扩散模型推理加速中首次同时优化生成质量和分类准确率。

BiGain: Unified Token Compression for Joint Generation and Classification

BiGain 提出频率感知的 token 压缩框架,通过拉普拉斯门控 token 合并和插值-外推 KV 下采样两个无训练算子,首次在扩散模型加速中同时保持生成质量并显著提升判别分类性能。

BiMotion: B-spline Motion for Text-guided Dynamic 3D Character Generation

提出 BiMotion,用连续可微的 B 样条曲线将变长运动序列压缩为固定数量控制点,配合专用 VAE 和 flow-matching 扩散模型,实现快速、高表达力、语义完整的文本引导动态 3D 角色生成,在质量和效率上均超越现有方法。

BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

提出 BioVITA 框架,包含百万级三模态(图像-文本-音频)生物数据集、两阶段对齐模型和六方向跨模态物种级检索基准,首次实现生物领域视觉-文本-声音统一表示学习。

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

提出 BlackMirror 框架,通过细粒度的指令-响应语义偏差检测(MirrorMatch)和跨 prompt 稳定性验证(MirrorVerify)两阶段流程,在黑盒条件下实现对 T2I 模型多种后门攻击的通用检测,F1 平均达 89.46%,大幅超越已有黑盒方法 UFID。

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

提出 CARE-Edit,一种条件感知的专家路由框架,通过异构专家(Text/Mask/Reference/Base)配合轻量级 latent-attention 路由器,在 DiT 骨干上实现动态计算分配,有效解决统一图像编辑器中多条件信号(文本、掩码、参考图)冲突导致的颜色溢出、身份漂移等问题。

CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

提出 CaReFlow,首次将 rectified flow 用于多模态分布映射以缩小模态间隙:通过 one-to-many mapping 让源模态数据点观测目标模态全局分布,adaptive relaxed alignment 对不同关联度的模态对施加不同对齐强度,cyclic rectified flow 保证映射后信息不丢失,即使用简单拼接融合也能在多个多模态情感计算 benchmark 上达到 SOTA。

Causal Motion Diffusion Models for Autoregressive Motion Generation

提出 CMDM 框架,在运动-语言对齐的因果隐空间中统一扩散去噪与自回归生成,通过帧级独立噪声和因果不确定性采样调度,实现高质量、低延迟的文本到动作生成和长序列流式合成。

Guiding Diffusion Models with Semantically Degraded Conditions (CDG)

提出 Condition-Degradation Guidance (CDG),用语义退化的条件 \(\boldsymbol{c}_{\text{deg}}\) 替代 CFG 中的空提示 \(\emptyset\),将引导从"好 vs 空"转变为"好 vs 几乎好"的精细化对比,从而在无需训练的前提下显著提升扩散模型的组合生成精度。

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

将 Classifier-Free Guidance (CFG) 重新解释为流匹配扩散模型中的反馈控制过程,提出统一框架 CFG-Ctrl,并基于滑模控制 (SMC) 设计非线性反馈引导机制 SMC-CFG,在大引导尺度下显著提升语义一致性和生成鲁棒性。

ChangeBridge: Spatiotemporal Image Generation with Multimodal Controls for Remote Sensing

提出 ChangeBridge,通过漂移异步扩散桥(drift-asynchronous diffusion bridge)实现遥感场景中从前事件到后事件的条件时空图像生成,支持坐标文本、语义掩码、实例布局等多模态控制,并可作为变化检测任务的数据生成引擎。

ChordEdit: One-Step Low-Energy Transport for Image Editing

基于动态最优传输理论,推导出低能量的 Chord 控制场,将不稳定的朴素编辑场平滑化,首次实现了对蒸馏单步 T2I 模型的无训练、无反演、高保真实时图像编辑。

Cinematic Audio Source Separation Using Visual Cues

提出首个音视频影视音频源分离(AV-CASS)框架,利用面部和场景双视频流的视觉线索,通过条件流匹配进行生成式三路音频分离(语音/音效/音乐),仅在合成数据上训练即可泛化到真实电影。

Circuit Mechanisms for Spatial Relation Generation in Diffusion Transformers

通过机械可解释性方法揭示了扩散Transformer(DiT)生成空间关系的内部电路机制:随机嵌入模型使用两阶段模块化电路(关系头+物体生成头),T5编码器模型则将关系信息融合到物体token中通过单token解码,两种机制的鲁棒性差异显著。

Circuit Mechanisms for Spatial Relation Generation in Diffusion Transformers

通过机制可解释性方法,揭示了扩散Transformer中空间关系生成的两种截然不同的电路机制:随机文本编码器使用"关系头+物体头"的两阶段模块化电路,而 T5 编码器将关系信息融入物体 token 中通过单 token解码,后者在域外扰动下更脆弱。

CoD: A Diffusion Foundation Model for Image Compression

提出首个面向压缩的扩散基础模型 CoD,从零训练学习端到端的压缩-生成联合优化,替换 Stable Diffusion 后在下游扩散编解码器中实现超低码率(0.0039 bpp)下的 SOTA 性能,训练成本仅为 SD 的 0.3%。

coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation

提出 coDrawAgents,一个交互式多智能体对话框架(Interpreter-Planner-Checker-Painter),通过分而治之的增量布局规划、视觉上下文驱动的空间推理和显式错误纠正机制,大幅提升复杂场景下组合式文本到图像生成的忠实度。

coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation

提出coDrawAgents交互式多智能体对话框架,Interpreter、Planner、Checker、Painter四个专业智能体闭环协作,以分治策略按语义优先级逐组增量规划布局,基于画布视觉上下文接地推理并显式纠错,在GenEval上以0.94 Overall Score大幅领先GPT Image 1(0.84),在DPG-Bench上达85.17 SOTA。

CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment

提出 CognitionCapturerPro,通过不确定性加权遮蔽(UM)、多模态融合编码器和共享主干-多头对齐(STH-Align),整合 EEG 信号与图像/文本/深度/边缘四种模态,在 THINGS-EEG 上实现 Top-1 检索准确率 61.2%、Top-5 达 90.8%,较前作 CognitionCapturer 提升 25.9% 和 10.6%。

CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment

CognitionCapturerPro通过不确定性加权掩蔽解决保真度损失、多模态融合编码器整合图像/文本/深度/边缘信息解决表征偏移,配合轻量共享主干对齐替代扩散先验,在THINGS-EEG数据集上Top-1/Top-5检索准确率分别提升25.9%和10.6%。

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

提出 CoLoGen,一个基于"概念-定位对偶性"(Concept-Localization Duality)的统一图像生成框架,通过渐进式分阶段训练和 Progressive Representation Weaving(PRW)动态专家路由架构,在指令编辑、可控生成和个性化生成三大任务上同时达到或超越专用模型水平。

ConsistCompose: Unified Multimodal Layout Control for Image Composition

提出 ConsistCompose,通过将布局坐标直接嵌入语言prompt(LELG范式),在统一多模态框架中实现布局可控的多实例图像生成;构建340万样本的ConsistCompose3M数据集提供布局+身份监督;配合坐标感知CFG机制,在COCO-Position上实现布局IoU 7.2%提升和AP 13.7%提升,同时保持通用理解能力。

ConsistCompose: Unified Multimodal Layout Control for Image Composition

提出 LELG(语言嵌入式布局引导生成)范式,将 bounding box 坐标直接编码为文本 token 嵌入语言流,在统一多模态 Transformer 中实现布局可控的多实例图像生成,无需任何布局专用编码器或分支。

COT-FM: Cluster-wise Optimal Transport Flow Matching

提出 COT-FM,一个即插即用的 Flow Matching 增强框架:通过聚类目标样本、反转预训练模型获取簇级源分布、在簇内近似最优传输,显著拉直传输路径,在不改变模型架构的前提下同时加速采样和提升生成质量。

CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think

CRAFT 提出一种超轻量的扩散模型对齐方法:通过组合奖励过滤(CRF)策略自动构建高质量训练集,然后执行增强版 SFT,理论证明 CRAFT 实际优化的是分组强化学习的下界,仅用 100 个样本就超越了需要数千偏好对的 SOTA 方法,且训练速度快 11-220 倍。

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

提出 C-MET(Cross-Modal Emotion Transfer),通过建模语音和面部表情空间之间的情感语义向量映射,首次实现了基于语音驱动的扩展情感(如讽刺、魅力)说话人脸视频生成,情感准确率超越 SOTA 14%。

CTCal: Rethinking Text-to-Image Diffusion Models via Cross-Timestep Self-Calibration

提出 CTCal(Cross-Timestep Self-Calibration),利用扩散模型在小时间步(低噪声)下形成的可靠文本-图像对齐(cross-attention maps)来校准大时间步(高噪声)下的表征学习,为文本到图像生成提供显式的跨时间步自监督,在 T2I-CompBench++ 和 GenEval 上全面超越现有方法。

Cycle-Consistent Tuning for Layered Image Decomposition

提出基于扩散模型的循环一致性微调框架,通过联合训练分解模型和合成模型实现图像层分离(如logo-物体分解),并引入渐进式自改进数据扩增策略,在非线性层交互场景下实现鲁棒分解。

D2C: Accelerating Diffusion Model Training under Minimal Budgets via Condensation

首次将数据集压缩引入扩散模型训练,提出D2C两阶段框架(Select+Attach),仅用0.8% ImageNet数据在40K步达到FID 4.3,比REPA快100倍、比vanilla SiT快233倍。

DA-VAE: Plug-in Latent Compression for Diffusion via Detail Alignment

提出 Detail-Aligned VAE (DA-VAE),通过结构化潜在空间(base + detail channels)和对齐损失,在不从头训练扩散模型的前提下将预训练 VAE 的压缩率提升至原来的 4 倍,仅需 5 H100-days 即可适配 SD3.5 生成 1024×1024 图像。

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

本文揭示了扩散模型中普遍存在的 SNR-t 偏差(逆过程样本的信噪比与时间步不匹配),并提出小波域动态差分校正方法(DCW),在不训练的情况下即插即用地提升多种扩散模型的生成质量。

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

DeCo 提出频率解耦的像素扩散框架,用轻量像素解码器处理高频细节并让DiT专注低频语义建模,配合频率感知flow matching损失,在ImageNet上达到FID 1.62(256)和2.22(512),缩小了像素扩散与潜空间扩散的差距。

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

将扩散模型采样加速形式化为全局路径规划问题,构建路径感知代价张量(PACT)量化跳步误差的路径依赖性,通过动态规划选择最优关键步序列,在FLUX上以4.87×加速超越全步基线+0.028 ImageReward。

Depth Adaptive Efficient Visual Autoregressive Modeling

揭示了 VAR 模型中频率驱动的硬剪枝范式存在根本性局限,提出 DepthVAR,一种免训练的推理加速框架,通过自适应分配每个 token 的 Transformer 层计算深度(而非二值化的保留/剪除),实现 2.3×-3.1× 加速且质量损失极小。

Diffusion Mental Averages

提出 Diffusion Mental Averages (DMA),通过在扩散模型的语义空间中对齐多个去噪轨迹,从预训练扩散模型中提取概念的"心理平均"原型图像——首次实现一致、逼真的概念平均可视化。

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

发现扩散模型早期去噪步骤的交叉注意力分布与最终图像质量高度相关,提出 Diffusion Probe——用轻量CNN从早期注意力图预测生成结果质量,实现在完成10%去噪即可预筛选低质量生成路径,加速 Prompt 优化、Seed 选择和 GRPO 训练。

DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

提出DiFlowDubber,基于离散流匹配(DFM)的自动视频配音框架,通过两阶段训练(零样本TTS预训练→视频配音适配)将大规模TTS知识迁移到视频驱动配音,设计FaPro模块捕获面部表情-韵律映射、Synchronizer模块实现精准唇音同步。

DiP: Taming Diffusion Models in Pixel Space

提出 DiP,一个高效的像素空间扩散框架,通过将 DiT backbone 在大patch上建模全局结构 + 轻量 Patch Detailer Head 恢复局部细节,实现了与LDM可比的计算效率但无需VAE,在ImageNet 256×256上达到1.79 FID。

Disentangling to Re-couple: Resolving the Similarity-Controllability Paradox in Subject-Driven Text-to-Image Generation

提出 DisCo 框架,通过先解耦文本与视觉信息(用代词替换实体词消除文本对 subject 的干扰)、再用 GRPO + 专用 reward model 重新耦合二者,有效解决了 subject-driven 图像生成中"相似度-可控性"不可兼得的悖论。

DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression

提出 DiT-IC,将预训练T2I扩散Transformer通过三种对齐机制(方差引导重建流、自蒸馏对齐、潜表示条件引导)适配为单步图像压缩重建模型,在32×下采样的深层潜空间执行扩散,实现SOTA感知质量且解码速度比现有扩散压缩编解码器快30×。

DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression

将预训练文生图DiT(SANA)适配为高效单步图像压缩解码器,通过方差引导重建流(像素级自适应去噪强度)、自蒸馏对齐(编码器潜变量做蒸馏目标)、潜空间条件引导(替代文本编码器)三种对齐机制,在32×下采样的深层潜空间中实现SOTA感知质量(BD-rate DISTS -87.88%),解码快30倍且16GB笔电显存可重建2K图像。

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

提出反特征坍塌学习框架 AFCL,通过信息瓶颈过滤无关特征并抑制不同伪造线索之间的过度重叠,保持判别表征的多样性和互补性,在跨模型生成图像检测上取得显著提升。

DMin: Scalable Training Data Influence Estimation for Diffusion Models

提出 DMin,一个可扩展的扩散模型训练数据影响力估计框架,通过高效梯度压缩将存储需求从数百 TB 降至 MB/KB 级别,首次实现对数十亿参数扩散模型的影响力估计,支持亚秒级 top-k 检索。

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

将扩散模型采样加速形式化为全局路径规划问题,通过构建路径感知代价张量 (PACT) 并使用动态规划选择最优关键时间步序列,实现 training-free 的 4.87× 加速且生成质量超越全步基线。

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

提出 DreamVideo-Omni,通过两阶段渐进训练范式(全运动身份监督微调 + 潜空间身份奖励反馈学习),在单一 DiT 架构中首次统一实现多主体定制与全粒度运动控制(全局包围盒 + 局部轨迹 + 相机运动)。

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

提出 DreamVideo-Omni,在单一 DiT 架构中统一多主体身份定制和全运动控制(全局 bbox + 局部轨迹 + 相机运动),通过条件感知 3D RoPE、Group/Role Embeddings 解决多主体歧义,并设计潜空间身份奖励反馈学习(LIReFL)在任意去噪步提供密集身份奖励,绕过 VAE 解码器实现高效身份强化。

DUO-VSR: Dual-Stream Distillation for One-Step Video Super-Resolution

提出 DUO-VSR 三阶段蒸馏框架,通过渐进引导蒸馏初始化 + 双流蒸馏(DMD + RFS-GAN 联合优化)+ 偏好引导精调,将多步视频超分模型压缩为单步生成器,实现约 50× 加速且超越先前单步 VSR 方法的视觉质量。

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

DynaVid 提出利用计算机图形学渲染的合成光流(而非合成视频)来训练视频扩散模型,通过运动生成器+运动引导视频生成器的两阶段框架,实现了高度动态运动的逼真视频合成和精细相机控制。

EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation

EdgeDiT 提出一种硬件感知的扩散 Transformer 优化框架,通过层级知识蒸馏训练轻量级代理块、多目标贝叶斯优化搜索 Pareto 最优架构,实现了 20-30% 参数缩减、36-46% FLOPs 降低、1.65x 端侧加速,同时保持甚至超越原始 DiT-XL/2 的生成质量。

Editing Away the Evidence: Diffusion-Based Image Manipulation and the Failure Modes of Robust Watermarking

本文从理论和实验两方面统一分析了非对抗性扩散编辑如何无意中破坏鲁棒隐形水印,推导了水印 SNR 衰减和互信息衰减的界,并在指令编辑、拖拽编辑、无训练合成等场景下验证了水印恢复的系统性失效。

Editing Away the Evidence: Diffusion-Based Image Manipulation and the Failure Modes of Robust Watermarking

从理论(SNR衰减、互信息下界、去噪收缩)和实验两方面系统分析非对抗性扩散编辑(instruction/drag/composition)如何无意中破坏鲁棒隐形水印,揭示传统后处理鲁棒性无法推广到生成式变换。

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

提出 EffectErase 框架,将视频物体插入作为移除的逆辅助任务进行联合学习,并构建包含 60K 视频对的大规模 VOR 数据集,实现对物体及其遮挡、阴影、反射、光照、变形等视觉副效应的高质量擦除。

EgoFlow: Gradient-Guided Flow Matching for Egocentric 6DoF Object Motion Generation

EgoFlow 提出一种基于 Flow Matching 的生成框架,通过 Mamba-Transformer-Perceiver 混合架构融合多模态场景条件,并在推理时用梯度引导采样施加可微的物理约束(碰撞避免、运动平滑性),从第一人称视频生成物理合理的 6DoF 物体运动轨迹,碰撞率降低高达 79%。

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

首次将 MeanFlow 框架从类别标签条件扩展到文本条件图像生成,发现限制步数下文本表示的语义区分性和解耦性是关键瓶颈,基于 BLIP3o-NEXT 文本编码器实现了高质量的少步/单步 T2I 生成。

EMMA: Concept Erasure Benchmark with Comprehensive Semantic Metrics and Diverse Categories

提出 EMMA 基准,从五个维度(擦除能力、保留能力、效率、质量、偏见)共 12 个指标系统评估 T2I 模型的概念擦除方法,覆盖 206 个概念类别和 5 个领域,首次揭示现有方法在隐式提示下的浅层擦除本质和偏见放大问题。

Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception

提出 DIAE 框架,通过多模态美学感知(MAP)将模糊的美学指令转化为 HSV/轮廓图视觉信号 + 文本联合引导,并构建"不完美配对"数据集 IIAEData 实现弱监督的图像美学增强。

Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception

DIAE提出多模态美学感知(MAP)模块将模糊的美学指令转为HSV+轮廓图+文本的显式控制信号,并构建"不完美配对"数据集IIAEData配合双分支监督框架进行弱监督训练,实现内容一致的美学增强,LAION美学评分提升17.4%。

Enhancing Spatial Understanding in Image Generation via Reward Modeling

构建 80K 对抗性偏好数据集 SpatialReward-Dataset,训练专门评估空间关系准确性的奖励模型 SpatialScore(准确率超越 GPT-5),并用 top-k 过滤策略结合 GRPO 在线 RL 显著提升 FLUX.1-dev 的空间生成能力。

Erasure or Erosion? Evaluating Compositional Degradation in Unlearned Text-To-Image Diffusion Models

本文系统评估了16种文本到图像扩散模型概念擦除(unlearning)方法在安全性(擦除成功率)与组合性生成能力之间的权衡,揭示了激进擦除策略在去除不良内容的同时严重破坏了模型的属性绑定、空间推理和计数能力,强调安全干预不应以牺牲模型语义逻辑为代价。

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

提出四阶段框架EVATok:先用proxy tokenizer估计每个视频的最优token分配方案,再训练轻量路由器一次前向预测这些分配,最终训练自适应tokenizer按内容复杂度灵活分配token数,在UCF-101上以24.4%的token节省达到SOTA生成质量。

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

提出 EVATok 四阶段框架,通过代理奖励(proxy reward)定义最优 token 分配,训练轻量路由器预测每段视频的最优 token 预算,实现内容自适应的可变长度视频 tokenization,在 UCF-101 上达到 SOTA 生成质量的同时节省至少 24.4% 的 token 用量。

Exploring Conditions for Diffusion Models in Robotic Control

本文探索了如何用预训练文本到图像扩散模型的条件机制为机器人控制生成任务自适应的视觉表示,发现文本条件在控制环境中因域差距而无效,提出 ORCA 框架通过可学习的任务提示词(task prompts)和逐帧视觉提示词(visual prompts)作为条件机制,在 DMC/MetaWorld/Adroit 三个基准的 12 个任务上达到 SOTA。

ExpPortrait: Expressive Portrait Generation via Personalized Representation

提出高保真度的个性化头部表征(静态身份偏移 + 动态表情偏移),解决 SMPL-X 等参数化模型表达力不足的问题,结合身份自适应表情迁移模块和 DiT 生成器,在人像视频自驱动和跨身份重演任务上取得 SOTA 表现。

ExpressEdit: Fast Editing of Stylized Facial Expressions with Diffusion Models in Photoshop

本文提出 ExpressEdit,一个完全开源的 Photoshop 插件,通过基于 SPICE 的扩散模型后端结合 Danbooru 表情标签数据库和 RAG 系统,在单个消费级 GPU 上 3 秒内完成风格化面部表情的无噪声编辑,显著优于 GPT/Grok/Nano Banana 2 等商业模型。

Face2Scene: Using Facial Degradation as an Oracle for Diffusion-Based Scene Restoration

提出 Face2Scene 两阶段框架:先用参考人脸复原模型(Ref-FR)获得 HQ-LQ 人脸对,从中提取退化编码作为"oracle",再以此条件化单步扩散模型完成包含身体与背景的全场景图像复原。

FDeID-Toolbox: Face De-Identification Toolbox

提出 FDeID-Toolbox,一个模块化的人脸去标识化工具箱,统一集成了 16 种去标识化方法(涵盖朴素/生成式/对抗式/K-Same 四大类)、6 个基准数据集和覆盖隐私保护/属性保持/视觉质量三维度的系统化评估协议,解决了该领域实现碎片化、评估不一致、结果不可比的问题。

FDeID-Toolbox: Face De-Identification Toolbox

提出 FDeID-Toolbox,一个模块化的人脸去标识化研究工具箱,通过标准化数据加载、统一方法实现、灵活推理流程和系统评估协议四大组件,首次实现了对多种去标识化方法在隐私保护、效用保持和视觉质量三个维度上的公平可复现对比。

Few-shot Acoustic Synthesis with Multimodal Flow Matching

提出 FLAC,首个基于 flow matching 的少样本房间脉冲响应(RIR)生成框架,仅凭单次录音即可在未见场景中合成空间一致的声学响应,并引入 AGREE 联合嵌入用于几何-声学一致性评估。

FG-Portrait: 3D Flow Guided Editable Portrait Animation

提出 FG-Portrait,通过引入基于 FLAME 参数化 3D 头部模型直接计算的「3D 光流」作为无需学习的几何驱动运动对应关系,结合深度引导采样的 3D 光流编码作为扩散模型 ControlNet 的运动条件,显著提升驱动运动迁移精度(APD 降低 22%+),还支持推理时的表情和头部姿态编辑。

Flash-Unified: Training-Free and Task-Aware Acceleration for Native Unified Models

FlashU 首次对原生统一多模态模型进行系统性冗余分析,发现参数特化和计算异质性现象,据此提出免训练任务感知加速框架,通过 FFN 剪枝、动态层跳过、自适应引导缩放和扩散头缓存,在 Show-o2 上实现 1.78x-2.01x 加速同时保持 SOTA 性能。

FontCrafter: High-Fidelity Element-Driven Artistic Font Creation with Visual In-Context Generation

FontCrafter 将艺术字体生成重新定义为视觉上下文生成任务,通过将参考元素图像与空白画布拼接并输入预训练修复模型(FLUX.1-Fill),实现高保真的元素驱动字体创建,在纹理和结构保真度上显著超越现有方法。

Fractals made Practical: Denoising Diffusion as Partitioned Iterated Function Systems

证明 DDIM 确定性反向链等价于分区迭代函数系统(PIFS),从分形几何推导出三个可计算量(收缩阈值 \(L_t^*\)、对角膨胀函数 \(f_t(\lambda)\)、全局膨胀阈值 \(\lambda^{**}\)),统一解释了余弦调度偏移、分辨率 logSNR 偏移、Min-SNR 损失加权和 Align Your Steps 采样调度四种经验设计选择。

Fractals made Practical: Denoising Diffusion as Partitioned Iterated Function Systems

证明了DDIM确定性反向链本质上是一个分区迭代函数系统(PIFS),并从该框架推导出三个无需模型评估的可计算几何量,从第一性原理统一解释了扩散模型的双阶段去噪动力学、自注意力的有效性,以及四种经验设计选择(cosine schedule offset、分辨率相关logSNR偏移、Min-SNR损失加权、Align Your Steps采样)。

FRAMER: Frequency-Aligned Self-Distillation with Adaptive Modulation Leveraging Diffusion Priors for Real-World Image Super-Resolution

FRAMER 提出频率对齐的自蒸馏训练框架,通过将最终层特征图作为教师监督中间层,并按低频/高频分别施加 IntraCL 和 InterCL 对比损失,配合自适应权重调节(FAW)和对齐门控(FAM),在不改变网络结构和推理流程的情况下,显著提升扩散模型在真实图像超分辨率任务的高频细节恢复能力。

Frequency-Aware Flow Matching for High-Quality Image Generation

FreqFlow 通过在流匹配框架中显式引入频域感知条件,采用双分支架构分别处理低频全局结构和高频细节信息,在 ImageNet-256 上以 1.38 FID 达到 SOTA。

From Inpainting to Layer Decomposition: Repurposing Generative Inpainting Models for Image Layer Decomposition

本文观察到图像图层分解(layer decomposition)与图像修复/外绘(inpainting/outpainting)任务之间的内在联系,提出 Outpaint-and-Remove 方法,通过轻量级 LoRA 微调将预训练的 inpainting DiT 模型(FLUX.1-Fill-dev)高效适配为图层分解模型,同时引入多模态上下文融合模块保留细节,仅用 10 万合成训练数据即达到 SOTA 性能。

Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

提出 Garments2Look,首个大规模多模态整套搭配级虚拟试穿数据集(80K 对,40 类,300+ 子类),每组包含 3-12 件参考服饰图、模特穿搭图和详细文本标注,揭示现有方法在多层搭配和配饰一致性上的重大不足。

Gaussian Shannon: High-Precision Diffusion Model Watermarking Based on Communication

将扩散模型的水印嵌入和提取过程建模为噪声信道通信,提出 Gaussian Shannon 框架,通过级联的多数投票和 LDPC 纠错码实现水印的比特精确恢复(而非仅阈值检测),在三种 Stable Diffusion 版本和七种扰动下达到 SOTA 的比特精度和检测率。

GIST: Towards Design Compositing

提出 GIST,一种免训练的身份保持图像合成方法,通过交叉注意力引导的 token 注入和 Flow Matched 潜空间初始化,在布局预测和排版生成之间作为即插即用的合成阶段,实现多来源视觉元素的风格协调。

gQIR: Generative Quanta Image Reconstruction

将大规模 text-to-image latent diffusion model 适配到单光子雪崩二极管(SPAD)的极端光子受限成像场景,通过三阶段框架(Quanta-aligned VAE → 对抗微调 LoRA U-Net → FusionViT 时空融合)实现从稀疏二值光子检测到高质量 RGB 图像的重建,在 10K-100K fps 极端条件下显著超越所有现有方法。

gQIR: Generative Quanta Image Reconstruction

提出 gQIR,一个模块化三阶段框架,将大规模 T2I 扩散模型适配到 SPAD 传感器的极端光子受限域,通过量子对齐 VAE(冻结编码器副本防坍缩)、对抗微调 LoRA U-Net(单步生成)和潜空间 FusionViT(时空融合),从极稀疏二值光子事件重建高质量彩色图像和视频。

GrOCE: Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models

GrOCE 提出基于动态语义图的免训练概念擦除框架,通过构建语义图→自适应聚类识别→选择性切除三个协同组件,实现对文本到图像扩散模型中目标概念的精确、上下文感知的在线移除。

Group Editing: Edit Multiple Images in One Go

本文提出 GroupEditing,将一组相关图像重构为伪视频帧,结合 VGGT 提供的显式几何对应和视频模型的隐式时序先验,通过 Ge-RoPE 和 Identity-RoPE 两种增强位置编码实现跨视角一致的群组图像编辑,在视觉质量、编辑一致性和语义对齐上显著优于现有方法。

Guiding a Diffusion Model by Swapping Its Tokens

本文提出 Self-Swap Guidance (SSG),一种无需条件信息的扩散模型采样引导方法,通过在模型中间表示空间中选择性地交换语义最不相似的 token 对来构造扰动版本,相比 SAG/PAG/SEG 等方法在更宽的引导强度范围内稳定生成高保真图像,在条件和无条件生成上均取得最优 FID。

Guiding a Diffusion Transformer with the Internal Dynamics of Itself

本文提出 Internal Guidance (IG),通过在 Diffusion Transformer 的中间层添加辅助监督损失使其产生较弱的生成输出,然后在采样时外推中间层和深层输出的差异来实现类似 Autoguidance 的引导效果,无需额外采样步骤或外部模型训练,在 ImageNet 256×256 上将 LightningDiT-XL/1 的 FID 推至 1.34(无 CFG)和 1.19(+CFG),达到同期 SOTA。

Guiding Diffusion Models with Semantically Degraded Conditions

提出 Condition-Degradation Guidance (CDG),用语义退化的条件 \(\boldsymbol{c}_{\text{deg}}\) 替代 CFG 中的空提示 \(\emptyset\),将引导从粗粒度"好 vs. 空"转变为细粒度"好 vs. 差一点"的对比,通过分层退化策略(先退化内容 token 再退化上下文聚合 token)构建自适应负样本,在 SD3/FLUX/Qwen-Image 等模型上即插即用地提升组合生成精度,几乎零额外开销。

HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation

提出层级导航框架 HaltNav,结合轻量文本拓扑图 (osmAG) 全局规划 + VLN 模型局部执行,并引入反应式视觉停止 (RVH) 机制在遇到未知障碍时实时中断、更新拓扑、重规划绕行,在仿真和真实机器人上均显著优于基线。

HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation

提出 HaltNav,一个层级化导航框架,结合轻量级文本拓扑先验(osmAG)做全局规划,用 VLN 模型做局部执行,并通过 Reactive Visual Halting 机制检测意外障碍、动态更新拓扑并重规划,在仿真和真机上均显著提升长程导航鲁棒性。

HAM: A Training-Free Style Transfer Approach via Heterogeneous Attention Modulation for Diffusion Models

提出 HAM,一种无需训练的风格迁移方法,通过对扩散模型中 self-attention 和 cross-attention 实施异构调制(GAR+LAT),并配合风格注入式噪声初始化,在不牺牲内容身份信息的前提下实现高质量风格迁移,在多项指标上达到 SOTA。

HazeMatching: Dehazing Light Microscopy Images with Guided Conditional Flow Matching

提出 HazeMatching,一种基于引导式条件流匹配(Guided CFM)的显微图像去雾方法,通过在速度场中引入退化观测条件,在不需要显式退化算子的前提下,同时实现高数据保真度和高感知质量,并能生成校准良好的不确定性估计。

Heterogeneous Decentralized Diffusion Models

提出异构去中心化扩散框架,允许不同专家使用不同扩散目标(DDPM ε-prediction 与 Flow Matching velocity-prediction)完全独立训练,在推理时通过确定性 schedule-aware 转换统一到速度空间进行融合,相比同构基线同时提升 FID 和生成多样性,并将计算量压缩 16 倍。

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

提出 HiFi-Inpaint 框架,通过共享增强注意力(SEA)利用高频信息增强产品细节特征,结合细节感知损失(DAL)实现像素级高频监督,在人-产品图像生成中达到 SOTA 的细节保真度。

High-Fidelity Diffusion Face Swapping with ID-Constrained Facial Conditioning

提出身份约束的属性调优框架用于扩散模型人脸替换:先约束身份解空间,再注入属性条件,最后端到端精炼身份损失和对抗损失,结合解耦条件注入设计,在 FFHQ 上实现 SOTA 的 FID(3.61)和身份检索准确率(97.9% Top-1)。

Image Diffusion Preview with Consistency Solver

本文提出 Diffusion Preview 范式和 ConsistencySolver——一个基于强化学习训练的轻量级高阶 ODE 求解器,在低步数采样时生成高质量预览图像并确保与全步数输出的一致性,用 47% 更少的步数达到与 Multistep DPM-Solver 相当的 FID,用户交互时间减少近 50%。

Image Generation as a Visual Planner for Robotic Manipulation

将预训练图像生成模型(DiT)通过 LoRA 微调适配为机器人操作的视觉规划器,以 3×3 网格图像形式生成时序连贯的操作序列,支持文本条件和轨迹条件两种控制模式。

Imagine Before Concentration: Diffusion-Guided Registers Enhance Partially Relevant Video Retrieval

本文提出 DreamPRVR,采用"先想象后集中"的粗到细策略:通过截断扩散模型在文本监督下生成全局语义注册令牌(registers),然后将其融合到细粒度视频表征中,有效抑制局部噪音响应,在三个 PRVR 基准上取得了 SOTA。

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

提出 SOLACE,一种利用文本-图像生成模型自身去噪自信度作为内在奖励的后训练框架,无需外部奖励模型即可在组合生成、文字渲染和文图对齐上获得一致提升,且可与外部奖励互补缓解 reward hacking。

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

提出 InnoAds-Composer,一个基于 MM-DiT 的单阶段电商海报生成框架,通过统一 token 化将商品主体、字形文本和背景风格三类条件映射到同一空间,结合文本特征增强模块(TFEM)和重要性感知条件注入策略,在保持高质量生成的同时显著降低推理开销。

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

提出 InterEdit,首个文本引导的多人3D运动编辑框架,通过语义感知 Plan Token 对齐和交互感知频域 Token 对齐两个机制,在条件扩散模型中实现对双人交互动作的精准编辑,同时保持源运动的一致性和交互协调性。

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

首次定义文本引导的多人3D运动编辑(TMME)任务,构建含5161个源-目标-指令三元组的InterEdit3D数据集,提出InterEdit条件扩散模型——通过语义感知规划Token对齐捕捉高层编辑意图、交互感知频域Token对齐建模周期性交互动态,在指令跟随(g2t R@1 30.82%)和源保持(g2s R@1 17.08%)上全面超越4个基线。

Interpretable and Steerable Concept Bottleneck Sparse Autoencoders

揭示了SAE中大多数神经元(~81%)的可解释性或可控性不足的问题,提出CB-SAE框架——通过裁剪低效用SAE神经元并增加概念瓶颈模块,在LVLM和图像生成任务上分别提升可解释性+32.1%和可控性+14.5%。

Intra-finger Variability of Diffusion-based Latent Fingerprint Generation

本文系统评估了扩散模型合成指纹的同指变异性,通过构建包含40种表面和15种处理技术的潜指纹风格库提升生成多样性,并量化了生成过程中引入的局部/全局身份不一致性。

Intrinsic Concept Extraction Based on Compositional Interpretability

HyperExpress 提出组合可解释本征概念提取(CI-ICE)新任务,利用双曲空间的层次建模能力和等球面投影模块,从单张图像中提取可组合的物体级和属性级概念,实现可逆的复杂视觉概念分解。

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

提出 Just-in-Time (JiT) 框架,通过在空间域动态选择稀疏 anchor token 驱动生成 ODE 演化,并设计确定性 micro-flow 保证新 token 无缝激活,在 FLUX.1-dev 上实现最高 7× 加速且几乎无损。

Language-Free Generative Editing from One Visual Example

揭示文本引导扩散模型在雨、雾、模糊等简单视觉变换上存在严重的文本-视觉对齐失败,提出VDC框架——仅需一对视觉示例(变换前后)学习纯视觉条件信号来引导扩散编辑,无需文本、无需训练,在去雨/去雾/去噪等任务上超越文本和微调方法。

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

发现真实图像在冻结CLIP ViT中间层的特征表示呈现稳定的层间过渡,而合成图像在中间层出现显著的注意力突变,提出Layer Transition Discrepancy (LTD) 方法建模该差异,在UFD上mean Acc达96.90%,DRCT-2M上达99.54%,GenImage上达91.62%,全面超越SOTA。

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

提出 LeapAlign,通过构建两步跳跃轨迹将长生成路径缩短为两步,使奖励梯度可直接反向传播到早期生成步骤,结合轨迹相似性加权和梯度折扣策略实现 flow matching 模型的高效后训练对齐。

Learnability-Guided Diffusion for Dataset Distillation

提出可学习性驱动的增量式数据集蒸馏框架LGD,将蒸馏数据集分阶段构建,每阶段条件化于当前模型状态生成互补而非冗余的训练样本,通过在扩散采样中注入可学习性梯度引导,将现有方法80-90%的样本间信息冗余降低39.1%,在ImageNet-1K上达60.1%(50 IPC)、ImageNette上达87.2%(100 IPC)。

Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition

Flora 通过邻居感知语义校准实现稳健的骨架-语义跨模态对齐,并利用无噪声流匹配构建分布感知的开放式分类器,在零样本骨架动作识别上取得 SOTA,尤其在低样本训练场景中表现突出。

Learning Latent Proxies for Controllable Single-Image Relighting

提出 LightCtrl,一个基于扩散模型的单图重光照框架,通过小样本潜在代理编码器(few-shot latent proxy)提供轻量材质-几何先验、光照感知掩码引导空间选择性去噪、DPO 后训练增强物理一致性,实现对光照方向/强度/色温的精确连续控制,在合成和真实场景上均优于现有方法。

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

提出 VeilGen + DeVeiler 框架,通过物理引导的 Stable Diffusion 生成模型学习潜在透射率和眩光图以合成逼真的复合退化训练数据,并用可逆约束训练修复网络,实现简化光学系统中像差与雾化眩光的联合去除。

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

提出 GvU,利用统一多模态模型(UMM)自身的视觉理解分支作为内在奖励信号,通过 token 级文图对齐概率构建自监督 RL 框架(基于 GRPO),在无外部监督下迭代提升 T2I 生成质量,GenEval++ 上实现 43.3% 提升,且生成增强反过来促进细粒度理解。

LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration

提出 LESA 框架,用 KAN(Kolmogorov-Arnold Network)作为可学习时序预测器,结合多阶段多专家架构和两阶段训练策略,在 FLUX 上实现 5× 加速仅 1.0% 质量下降,在 Qwen-Image 上 6.25× 加速比 TaylorSeer 质量提升 20.2%,在 HunyuanVideo 上 5× 加速 PSNR 提升 24.7%。

Leveraging Multispectral Sensors for Color Correction in Mobile Cameras

提出一个统一的端到端色彩校正框架,联合融合高分辨率RGB传感器和辅助低分辨率多光谱(MS)传感器的数据,将光源估计、光源补偿和色彩空间转换整合在单一模型中,色彩误差(\(\Delta E_{00}\))相比纯RGB和MS基线降低高达50%。

Low-Resolution Editing is All You Need for High-Resolution Editing

ScaleEdit 首次提出高分辨率图像编辑任务,通过在预训练生成模型的中间特征空间学习 1×1 卷积迁移函数来注入源图像的精细纹理细节,配合基于 Blended-Tweedie 的分块同步策略保证全局一致性,以测试时优化方式实现 2K 甚至 8K 分辨率的高质量编辑。

LumiCtrl: Learning Illuminant Prompts for Lighting Control in Personalized Text-to-Image Models

发现T2I模型文本编码器无法理解标准光照术语(如 tungsten、6500K)的语义鸿沟,提出 LumiCtrl 通过物理光照增强、边缘引导 prompt 解耦和掩码重建损失三个组件学习光照 prompt,在保持目标概念身份的同时实现精确的文本引导光照控制。

MAGIC: Few-Shot Mask-Guided Anomaly Inpainting with Prompt Perturbation, Spatially Adaptive Guidance, and Context Awareness

提出 MAGIC 框架,通过微调 inpainting 扩散模型,结合高斯 prompt 扰动、掩码引导空间噪声注入和上下文感知掩码对齐三个互补模块,在少样本条件下生成高保真、多样化、空间合理的工业异常图像,在 MVTec-AD 下游任务上达到 SOTA。

Match-and-Fuse: Consistent Generation from Unstructured Image Sets

提出 Match-and-Fuse,首个面向非结构化图像集合的训练无关一致性生成方法。以图为节点、图对为边建立成对一致性图,通过多视角特征融合(MFF)和特征引导在扩散推理中操控内部特征,实现集合级跨图一致性,DINO-MatchSim 达 0.80 远超所有基线。

Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping

提出 DiT-BlockSkip 框架,通过时间步感知的动态补丁采样(低分辨率训练但动态调整裁剪范围)和基于交叉注意力分析的关键块选择+残差特征预计算的块跳过策略,在 FLUX 上将 LoRA 微调显存减少约 50%,同时维持与标准 LoRA 可比的个性化生成质量。

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

提出 MICON-Bench,覆盖 6 项任务(1043 案例)的多图上下文生成基准,配合 MLLM 驱动的 Evaluation-by-Checkpoint 自动评估框架;同时提出 DAR(Dynamic Attention Rebalancing)训练无关机制,通过动态调整推理时注意力权重提升 UMM 的多图生成一致性和质量。

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

提出 Mixture of States (MoS)——一种基于可学习 token 级稀疏路由的多模态融合范式,使视觉 token 能在每个去噪步骤自适应地从文本编码器任意层选取隐藏状态,仅用 3-5B 参数即可匹敌或超越 20B 级模型。

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

提出 MorphAny3D,首个基于 Structured Latent(SLAT)表示的无训练 3D 变形框架,通过 Morphing Cross-Attention(MCA)融合源/目标信息保证结构合理、Temporal-Fused Self-Attention(TFSA)增强时序一致性、方向校正策略消除突变,在跨类别 3D 变形中实现了 SOTA 质量。

MOS: Mitigating Optical-SAR Modality Gap for Cross-Modal Ship Re-Identification

提出 MOS 框架解决光学-SAR 跨模态船舶重识别问题,包含两个核心模块:(1) MCRL 通过 SAR 图像去噪和类别级模态对齐损失在训练阶段缩小模态差距;(2) CDGF 利用布朗桥扩散模型在推理阶段从光学图像生成伪 SAR 样本并融合特征,在 HOSS ReID 数据集上 SAR→Optical 的 R1 提升 +16.4%。

MPDiT: Multi-Patch Global-to-Local Transformer Architecture for Efficient Flow Matching

提出 MPDiT,一个多尺度 patch 的全局到局部扩散 Transformer 架构,前期用大 patch(4×4)处理全局上下文仅需 64 个 token,后期上采样到小 patch(2×2)的 256 个 token 精修局部细节,将 GFLOPs 降低高达 50%,且 XL 模型在 240 epoch 即达到 FID 2.05(cfg)。

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

提出MultiBanana——首个系统评估多参考图像生成能力的大规模基准,包含3769个评测样本、最多8张参考图、5个难度维度(跨域/尺度/稀有概念/多语言),揭示了闭源模型"过拟合参考细节"和开源模型"忽略参考主体"的互补失败模式。

Neighbor-Aware Localized Concept Erasure in Text-to-Image Diffusion Models

提出 NLCE,一个 training-free 的三阶段概念擦除框架,通过谱加权表征调制、注意力引导空间门控和门控特征清理三步实现目标概念的精确局部擦除,同时显式保留语义邻近概念,在 Oxford Flowers、Stanford Dogs、名人身份和敏感内容擦除任务上均优于现有方法。

Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models

重新解释 SDE-based GRPO 为距离优化/对比学习,提出 Neighbor GRPO——完全绕过 SDE 转换,通过扰动 ODE 初始噪声构建邻域候选轨迹 + softmax 距离代理策略实现策略梯度优化,保留确定性 ODE 采样的所有优势。

OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution

提出 OARS 框架,通过基于 MLLM 的过程感知奖励模型 COMPASS 和渐进式在线强化学习(冷启动→有参考 RL→无参考 RL),首次系统解决生成式真实世界图像超分辨率中的人类偏好对齐问题,在保持保真度的同时显著提升感知质量。

OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution

提出了OARS框架,通过基于MLLM的过程感知奖励模型COMPASS和渐进式在线强化学习,将生成式真实世界超分辨率模型与人类视觉偏好对齐,在感知质量和保真度之间实现自适应平衡。

Object-WIPER: Training-Free Object and Associated Effect Removal in Videos

提出 Object-WIPER,首个无训练的视频物体及其关联效应(阴影、反射、镜像等)移除框架,利用 DiT 中的文本-视觉交叉注意力和视觉自注意力定位关联效应区域,通过前景重初始化和注意力缩放实现干净移除,并提出 TokSim 指标和 WIPER-Bench 真实世界基准。

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

提出ELIT(Elastic Latent Interface Transformer),通过在DiT中插入可变长度的潜在token接口和轻量级Read/Write交叉注意力层,将计算量与输入分辨率解耦,使单一模型支持多种推理预算,在ImageNet-1K 512px上FID和FDD分别提升35.3%和39.6%。

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

提出 ELIT(Elastic Latent Interface Transformer),在 DiT 中插入可变长度的潜变量接口(latent interface)和轻量 Read/Write 跨注意力层,使单一模型能在推理时动态调节计算预算,同时将计算非均匀地分配到图像中更难的区域,在 ImageNet 512px 上 FID 最高降低 53%。

OpenDPR: Open-Vocabulary Change Detection via Vision-Centric Diffusion-Guided Prototype Retrieval for Remote Sensing Imagery

OpenDPR 提出了一种免训练的视觉中心框架,利用扩散模型离线生成目标类别的多样化视觉原型,在推理时通过视觉空间的相似度检索来识别遥感图像中的开放词汇变化,在四个基准数据集上取得 SOTA 性能。

OPRO: Orthogonal Panel-Relative Operators for Panel-Aware In-Context Image Generation

提出 OPRO,一种基于正交矩阵的参数高效适配方法,通过在 frozen backbone 的位置感知 query/key 上施加可学习的面板特异性正交算子,在保持预训练同面板合成行为的同时显式调制跨面板注意力交互,仅增加 0.93M 参数即在 MagicBrush 上显著提升多种 SOTA 方法的编辑质量。

Organizing Unstructured Image Collections using Natural Language

本文定义了开放式语义多聚类(OpenSMC)新任务,并提出 X-Cluster 框架,利用 MLLM 将图像转为文本后通过 LLM 自动发现聚类标准和语义子结构,无需任何人类先验输入即可将大规模无标签图像集组织为多维度、多粒度、可解释的语义聚类。

PhysGen: Physically Grounded 3D Shape Generation for Industrial Design

本文提出 PhysGen,一个将物理约束(空气动力学效率)融入 3D 形状生成的统一框架:通过 Shape-and-Physics VAE 将几何和物理信息联合编码到统一潜空间,然后用交替更新的 Flow Matching 模型在速度更新和物理精炼之间迭代,生成既视觉逼真又物理高效的 3D 形状(如低阻力系数的汽车)。

Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction

提出 ReMD(Residual-Multigrid Diffusion),在扩散模型的每一步反向采样中嵌入多重网格残差修正,利用多小波基构建跨尺度层次结构,无需显式 PDE 即可实现物理一致的高效流体超分辨率。

Pixel Motion Diffusion Is What We Need for Robot Control

DAWN 提出两阶段全扩散框架——Motion Director 生成稠密像素运动场作为可解释中间表征,Action Expert 将其转化为可执行机器人动作序列,在 CALVIN(Avg Len 4.00)、MetaWorld(Overall 65.4%)和真实世界均达到 SOTA,且模型容量和训练数据远小于竞争方法。

PixelDiT: Pixel Diffusion Transformers for Image Generation

PixelDiT 提出完全基于Transformer的双层像素空间扩散模型:patch级DiT捕捉全局语义 + pixel级DiT细化纹理细节,无需VAE即可在ImageNet上达到1.61 FID,并直接在1024分辨率像素空间训练文本到图像模型。

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

提出 PixelRush,一种无需训练的高分辨率图像生成框架,通过部分反演(partial inversion)+ 少步扩散模型 + 高斯滤波拼接 + 噪声注入四大组件,将 4K 图像生成速度从数分钟压缩到约 20 秒(10×–35× 加速),同时在 FID/IS 指标上超越现有 SOTA。

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

PixelRush是首个将免训练高分辨率图像生成推入实用化的方法——通过部分DDIM反转跳过冗余的低频重建步骤,使少步扩散模型在patch精炼中可行,配合高斯滤波融合和噪声注入消除伪影,4秒生成2K图像、20秒生成4K图像,比SOTA快10-35倍且FID更优。

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

提出 PPCL 框架,通过线性探针检测 MMDiT 中连续冗余层区间,结合非顺序蒸馏实现深度剪枝(即插即用)和宽度剪枝(用线性投影替换文本流/FFN),将 Qwen-Image 从 20B 压缩到 10B 时性能仅下降 3.29%。

Pose-dIVE: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification

Pose-dIVE通过SMPL模型联合控制人体姿态和相机视角,利用扩散模型生成具有多样化姿态和视角的行人图像,系统性地弥补Re-ID训练数据中的分布偏差,在多个基准上持续提升任意Re-ID模型的泛化能力。

PosterIQ: A Design Perspective Benchmark for Poster Understanding and Generation

本文提出 PosterIQ,一个面向海报设计的综合基准,包含 7,765 条理解标注和 822 条生成提示,覆盖 OCR、字体感知、布局推理、设计意图理解和组合感知生成等 24 类任务,系统评估了 MLLM 和扩散模型在设计认知方面的差距。

Precise Object and Effect Removal with Adaptive Target-Aware Attention

提出 ObjectClear 框架,通过自适应目标感知注意力(ATA)将前景移除与背景重建解耦,配合注意力引导融合(AGF)和空间变化去噪强度(SVDS)策略,实现对目标物体及其阴影、反射等附带效果的精准移除,同时构建了首个大规模 Object-Effect Removal 数据集 OBER。

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

提出 LivingSwap,首个视频参考引导的人脸替换模型,通过关键帧身份注入 + 源视频参考补全 + 时序拼接的可控流水线,实现长视频中的高保真人脸替换,在保持源视频表情、光照、运动等细节的同时稳定注入目标身份,将人工编辑量减少 40 倍。

Probing and Bridging Geometry–Interaction Cues for Affordance Reasoning in Vision Foundation Models

系统性地探测视觉基础模型(VFM)中的可供性(affordance)能力,发现 DINO 编码了部件级几何结构、Flux 编码了动词条件化的交互先验,并通过 training-free 融合两者实现了可与弱监督方法竞争的零样本可供性估计。

PROMO: Promptable Outfitting for Efficient High-Fidelity Virtual Try-On

基于 Flow Matching DiT 的虚拟试穿框架,通过 latent 多模态条件拼接、时序自参考缓存机制和 3D-RoPE 分组条件注入,在保持高保真度的同时大幅降低推理开销,支持多件服装试穿和文本提示控制穿搭风格。

PROMO: Promptable Outfitting for Efficient High-Fidelity Virtual Try-On

PROMO基于FLUX Flow Matching DiT骨干,通过潜空间多模态条件拼接、时序自参考KV缓存、3D-RoPE分组条件、以及fine-tuned VLM风格提示系统,在去除传统参考网络的前提下实现了高保真且高效的多件服装虚拟试穿,推理速度比无加速版快2.4倍,在VITON-HD和DressCode上超越现有VTON和通用图像编辑方法。

Prototype-Guided Concept Erasure in Diffusion Models

针对扩散模型中宽泛概念(如暴力、色情)难以彻底擦除的问题,提出基于概念原型的 training-free 擦除方法:通过聚类 CLIP 嵌入空间中的概念差分方向获取图像原型,再优化迁移到文本原型空间,推理时选择最匹配的原型作为负引导信号进行 classifier-free guidance 式的概念抑制。

PSDesigner: Automated Graphic Design with a Human-Like Creative Workflow

本文提出PSDesigner,一个模拟人类设计师创意工作流的自动图形设计系统,通过AssetCollector(资源收集)、GraphicPlanner(规划工具调用)和ToolExecutor(执行PSD操作)三个模块协作,利用首个PSD格式设计数据集CreativePSD训练模型学习专业设计流程,能直接生成可编辑的PSD设计文件。

PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards

针对多主体个性化图像生成中主体一致性差和文本遵循不足的问题,提出可扩展的多主体数据构建管线和成对主体一致性奖励(PSR),通过两阶段训练(SFT + RL)在自建的 PSRBench 上全面超越现有 SOTA。

PureCC: Pure Learning for Text-to-Image Concept Customization

提出 PureCC 方法,通过分离"目标概念隐式引导"和"原始条件预测"的解耦学习目标,配合冻结表示提取器+可训练流模型的双分支训练管线和自适应引导缩放 \(\lambda^{\star}\),实现高保真概念定制的同时最小化对原始模型行为和能力的影响。

Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge

本文提出QUAD框架,将LoRA权重作为运行时输入而非编译到模型图中,结合跨LoRA共享量化参数的蒸馏微调策略,实现单个编译模型在移动端NPU上动态切换多个GenAI任务,达到6倍内存压缩和4倍延迟改善。

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

提出 RAISE 框架,将 T2I 生成建模为需求驱动的自适应进化过程:通过需求分析器将提示词分解为结构化检查清单,用多动作变异(提示重写+噪声重采样+指令编辑)并发进化候选群体,再通过工具增强的视觉验证逐轮淘汰不满足需求的候选,实现自适应推理时缩放——在 GenEval 上达到 0.94 SOTA,同时比反射微调基线减少 30-40% 生成样本和 80% VLM 调用。

RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models

提出 RAZOR,一种基于比率感知的多层/多头选择性编辑框架,可在 CLIP、Stable Diffusion 和 VLM 等 Transformer 视觉模型中高效精准地完成目标遗忘,同时保持模型整体性能与量化鲁棒性。

RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models

RAZOR通过比率感知的梯度评分联合衡量遗忘压力与保留对齐来选择最关键的层/注意力头,配合三部分约束损失和迭代扩展机制,在CLIP、Stable Diffusion和VLM上实现了精准高效的目标遗忘且量化后性能不退化。

RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark

本文提出 RealUnify,首个专门评估统一模型中理解与生成能力双向协同效果的基准,通过1000个人工标注实例和直接/分步双重评估协议,揭示了当前统一模型虽然具备理解和生成能力,但在端到端场景中仍无法实现真正的能力协同。

Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

提出 MVC-ZigAL 框架,通过多视图感知 MDP 建模、zigzag 自反思优势学习和 Lagrangian 对偶约束优化,有效提升少步文本到多视图扩散模型的单视图保真度和跨视图一致性。

Rel-Zero: Harnessing Patch-Pair Invariance for Robust Zero-Watermarking Against AI Editing

本文发现图像patch对之间的关系距离在AI编辑后保持不变,并利用该不变性构建了一种零水印框架Rel-Zero,无需修改原图即可实现对多种生成式编辑的鲁棒内容认证。

RenderFlow: Single-Step Neural Rendering via Flow Matching

提出 RenderFlow,将神经渲染重新建模为从 albedo 到全光照图像的单步条件流匹配问题,以 G-buffer 为条件、预训练视频 DiT 为骨干,实现了比扩散方法快 10 倍以上(~0.19s/帧)的确定性渲染,可选的稀疏关键帧引导进一步提升物理精度,还支持通过冻结骨干 + 轻量 adapter 实现逆渲染。

Resolving the Identity Crisis in Text-to-Image Generation

本文揭示了文本到图像模型在多人场景生成中的"身份危机"问题(重复面孔、身份合并),提出 DisCo 框架,通过组合式奖励函数和 GRPO 强化学习微调 flow-matching 模型,实现了 98.6% 的唯一面孔准确率,超越包括 GPT-Image-1 在内的闭源模型。

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

本文提出FCDM(Fully Convolutional Diffusion Model),将ConvNeXt架构适配为条件扩散模型backbone,仅用DiT-XL 50%的FLOPs即可在ImageNet上达到竞争性FID(2.03),且能在4块RTX 4090上训练XL模型,展示了全卷积架构在生成建模中被严重低估的效率优势。

RewardFlow: Generate Images by Optimizing What You Reward

RewardFlow 提出一种无需反转的推理时框架,通过多奖励 Langevin 动力学融合语义对齐、感知保真度、局部定位、物体一致性和人类偏好等多种可微分奖励信号,在图像编辑和组合式生成任务上实现 SOTA 的编辑保真度和组合对齐效果。

Score2Instruct: Scaling Up Video Quality-Centric Instructions via Automated Dimension Scoring

Score2Instruct 提出了一个无需人工标注和闭源 API 的自动化视频质量指令生成管线 SIG,通过自动评估 14 个质量维度并用层级 CoT 聚合为完整质量推理文本,构建了 320K+ 条指令数据集 S2I,配合两阶段渐进式微调策略,使多个视频 LMM 同时获得质量评分和质量推理能力,在 5 个 VQA 数据集上 SRCC 平均提升 26-31%。

SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

提出 SeaCache,一种基于频谱演化感知(SEA)滤波器的无训练动态缓存策略,通过在频域中分离信号与噪声分量来测量时间步间的冗余度,显著提升扩散模型推理的延迟-质量权衡。

SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models

提出 SegQuant 框架,通过基于静态计算图的语义分割量化(SegLinear)和硬件原生的双尺度极性保持量化(DualScale),在不依赖手工规则或运行时动态信息的前提下,实现了跨架构通用、部署管线兼容的扩散模型高保真后训练量化。

SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models

提出 SegQuant,一个面向部署的扩散模型后训练量化框架,通过基于计算图静态分析的语义感知分段量化(SegLinear)和硬件原生的双尺度极性保持量化(DualScale),在 SD3.5、FLUX、SDXL 上实现跨架构通用的高保真 W8A8/W4A8 量化,同时保持与 TensorRT 等工业推理引擎的兼容性。

Self-Corrected Image Generation with Explainable Latent Rewards

提出 xLARD 框架,在文生图生成过程中通过一个轻量残差修正器在潜空间进行语义自修正,利用可解释的潜空间奖励信号(计数/颜色/位置)引导生成,在 GenEval 上提升 +4.1%,DPGBench 上提升 +2.97%,且以即插即用方式适配多种 backbone。

SHOE: Semantic HOI Open-Vocabulary Evaluation Metric

提出SHOE评估框架,通过将HOI预测分解为动词和物体分别计算LLM驱动的语义相似度,替代传统mAP的精确匹配方式,在开放词汇HOI检测评估中达到85.73%的人类判断一致性,超过人类标注者之间78.61%的平均一致性。

ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

ShowTable 提出了"创意表格可视化"这一新任务(将数据表格生成为信息图),并设计了一个 MLLM(推理+反思)与扩散模型(生成+精修)协同的渐进式自纠错 pipeline,通过针对性训练的重写模块和用 RL 优化的精修模块,在自建的 TableVisBench 基准上显著提升所有基线模型的可视化质量。

SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images

本文提出SimLBR,通过在DINOv3潜空间中将少量假图信息混入真图嵌入作为正则化手段,迫使检测器学习真实图像分布的紧致决策边界,从而实现对未知生成器的强泛化能力,在GenImage上平均准确率达94.54%,在硬测试集Chameleon上比AIDE提升25%准确率和70%召回率。

SJD-PAC: Accelerating Speculative Jacobi Decoding via Proactive Drafting and Adaptive Continuation

本文分析了 Speculative Jacobi Decoding (SJD) 在文本到图像生成中接受长度分布严重偏斜的瓶颈,提出 SJD-PAC 框架,通过 Proactive Drafting (PD) 和 Adaptive Continuation (AC) 两项技术,在严格无损的前提下实现 3.8× 推理加速,显著超越原始 SJD 的约 2× 加速。

SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking

提出SLICE框架,将图像语义解耦为四个因子(主体/环境/动作/细节),各自锚定到扩散模型初始噪声的不同空间分区,实现细粒度语义感知水印——不仅能检测篡改,还能精确定位被篡改的语义因子,且完全无需训练。

SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking

提出 SLICE 语义水印框架,将图像语义分解为主体/环境/动作/细节四个因子并绑定到初始高斯噪声的不同空间分区,实现不仅可检测水印存在还可定位语义篡改的三状态验证机制,对最强 CSI 攻击的攻击成功率仅 19%(SEAL 为 81%)。

Smoothing the Score Function for Generalization in Diffusion Models: An Optimization-based Explanation Framework

从理论上证明扩散模型的记忆化源于经验得分函数的"尖锐性"(softmax 权重集中),提出噪声无条件化和温度平滑两种方法,通过平滑得分函数权重来提升泛化、减少记忆化,同时保持生成质量。

Smoothing the Score Function for Generalization in Diffusion Models: An Optimization-based Explanation Framework

本文从理论上证明扩散模型的记忆化问题源于经验得分函数中 softmax 权重的尖锐性(单个训练样本主导),并提出 Noise Unconditioning 和 Temperature Smoothing 两种平滑方法来缓解记忆化、增强泛化,同时保持生成质量。

SOLACE: Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

用T2I模型自身的去噪自信心(对注入噪声的恢复精度)作为内在奖励替代外部奖励模型做后训练,在组合生成、文字渲染、文图对齐上获一致提升,且与外部奖励互补可缓解reward hacking。

Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

本文提出Spatial-SSRL,一种自监督强化学习范式,通过从普通RGB/RGB-D图像自动构造五种pretext任务(patch重排、翻转识别、裁剪修补、深度排序、相对3D位置预测),利用GRPO优化LVLM的空间理解能力,在七个空间benchmark上平均提升3.89%-4.63%,且无需人工标注或外部工具。

SPDMark: Selective Parameter Displacement for Robust Video Watermarking

SPDMark 提出了一种基于选择性参数位移(SPD)的视频扩散模型内嵌水印框架,通过在解码器中学习低秩基 shift 字典并根据水印密钥选择组合,实现了逐帧水印嵌入、不可感知、高鲁棒性和低计算开销,同时支持时序篡改检测与定位。

StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars

提出两阶段自回归适配加速框架(自回归蒸馏 + 对抗精炼),将双向人体视频扩散模型转化为实时流式生成器,通过 Reference Sink、RAPR 位置重编码和一致性感知判别器保证长视频稳定性,实现首个支持说话和倾听交互的全身实时数字人。

TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

针对统一图像生成与编辑模型中严重的任务干扰问题,提出 TAG-MoE 框架,通过层次化任务语义标注方案和预测性对齐正则化将高层任务意图注入 MoE 局部路由决策,使门控网络从任务无关的执行器进化为语义感知的调度中心,在 ICE-Bench、EmuEdit、GEdit、DreamBench++ 等五个基准上取得开源模型最优综合性能。

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

提出 D2-Align 框架,通过在奖励模型嵌入空间中学习方向性修正向量来纠偏奖励信号,解决扩散模型 RLHF 对齐中的偏好模式坍塌(PMC)问题——即模型过度优化奖励导致生成多样性严重下降;同时提出 DivGenBench 基准用于量化评估生成多样性。

Taming Sampling Perturbations with Variance Expansion Loss for Latent Diffusion Models

揭示了潜在扩散模型中β-VAE tokenizer因方差坍缩导致潜空间过于紧凑、对扩散采样扰动极敏感的问题,提出Variance Expansion (VE) Loss通过重构与方差扩展的对抗式平衡来自适应学习鲁棒的潜空间方差,在多种扩散架构上一致提升生成质量(FID 1.18)。

Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework

提出 AC-DC 三阶段去噪器(自动校正 + 方向校正 + Score 去噪),解决 ADMM 迭代与 score 训练流形不匹配的问题,并首次为 ADMM-PnP + score denoiser 建立了收敛性保证,在多种逆问题上取得 SOTA。

Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework

提出ADMM-PnP with AC-DC去噪器,通过三阶段修正-去噪流程(自动修正+方向修正+基于分数的去噪)将扩散先验集成到ADMM原始-对偶框架中,解决了ADMM迭代与扩散训练流形的几何不匹配问题,同时在两种条件下建立了收敛保证,在7种逆问题上一致优于DAPS/DPS/DiffPIR等基线。

Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control

WorldForge 提出一个完全无训练的推理时引导框架,通过三个协同组件——步内递归精化(IRR)、光流门控潜变量融合(FLF)和双路径自校正引导(DSG)——将预训练视频扩散模型改造为精确相机轨迹可控的 3D/4D 生成工具,在轨迹精度和感知质量上同时超越训练式和推理式基线。

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

提出 TAP 框架,通过第一层探针(probe)为每个 token 在每一步自适应选择最优预测器(Taylor 展开族),实现无需训练的扩散模型加速,在 FLUX.1-dev 上以 6.24× 加速且无感知质量损失。

TAUE: Training-free Noise Transplant and Cultivation Diffusion Model

TAUE 提出一种免训练的分层图像生成框架,通过将去噪中间潜变量"移植"到新生成过程的初始噪声中,并结合跨层注意力共享,实现前景、背景和合成图像的三层一致生成,性能匹配甚至超越微调方法。

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

提出基于 Padé 有理函数近似的特征残差预测框架 TC-Padé,通过自适应系数调节和分阶段感知策略,在低步数(20-30步)扩散采样场景下实现轨迹一致的加速(FLUX.1-dev 2.88×、Wan2.1 1.72×),显著优于基于 Taylor 展开的现有方法。

Test-Time Instance-Specific Parameter Composition: A New Paradigm for Adaptive Generative Modeling

本文提出 Composer,一个即插即用的元生成器框架,在推理时根据每个输入条件动态生成低秩参数更新并注入预训练模型权重,以极低的计算开销(时间+0.2%、内存+3.6%)实现逐实例自适应的高质量图像生成,在类条件生成、文本到图像、后训练量化和测试时缩放等场景中均显著提升性能。

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

提出 TextPecker——一种即插即用的结构异常感知 RL 策略,通过构建字符级结构异常标注数据集训练结构感知识别器,替代传统 OCR 的噪声奖励信号,联合优化语义对齐和结构保真度,在多个文本到图像模型(FLUX、SD3.5、Qwen-Image)上显著提升视觉文本渲染质量。

The Universal Normal Embedding

提出 Universal Normal Embedding (UNE) 假说:生成模型(扩散模型)和视觉编码器(CLIP、DINO)的隐空间共享一个近似高斯的底层几何结构,二者可视为该共享空间的含噪线性投影;通过 NoiseZoo 数据集和大量实验验证了该假说,并展示了在 DDIM 反演噪声空间中直接进行线性语义编辑的能力。

TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models

提出 TINA(Text-free INversion Attack),通过在 null-text 条件下优化 DDIM 反演找到精确的初始噪声,绕过所有基于文本的概念擦除防御,证明当前擦除方法仅切断了文本-图像映射而未真正删除模型内部的视觉知识。

Tiny Inference-Time Scaling with Latent Verifiers

提出VHS(Verifier on Hidden States)——一种直接在DiT生成器中间层隐状态上工作的验证器,跳过解码-重编码开销,在单步图像生成的推理时扩展(inference-time scaling)场景下将联合生成-验证时间减少63.3%、FLOPs降低51%,同时在GenEval上相同时间预算下提升2.7%的性能。

TokenLight: Precise Lighting Control in Images using Attribute Tokens

提出 TokenLight,将图像重光照表述为以属性 token(强度、颜色、环境光、漫反射级别、3D 光源位置)为条件的端到端图像生成任务,在扩散 Transformer 框架中实现精确、连续、可解释的光照控制。

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

针对 T2I 模型生成图像"太鲜艳不像真实照片"的问题,提出 Color Fidelity Dataset (CFD, 130 万图像)、Color Fidelity Metric (CFM, 基于 Qwen2-VL + softrank loss) 和 Color Fidelity Refinement (CFR, 无训练的时空自适应 guidance 调制),形成评估-改善一体化框架。

Towards Robust Content Watermarking Against Removal and Forgery Attacks

提出实例特定双侧检测水印方法 ISTS,通过根据图像语义动态选择水印注入时间和位置来抵抗去除攻击和伪造攻击,并设计双侧检测机制抵御反向潜在表示攻击,在三种去除攻击和三种伪造攻击的平均和最坏情况下均达到 SOTA 鲁棒性。

TRACE: Structure-Aware Character Encoding for Robust and Generalizable Document Watermarking

提出 TRACE——基于字符结构编码的文档水印框架,利用扩散模型(DragDiffusion)精确移动字符骨架关键点来嵌入信息,通过自适应扩散初始化(ADI)、引导扩散编码(GDE)和掩码区域替换(MRR)三大组件,同时实现跨介质传输鲁棒性、多语言/多字体泛化性和高隐蔽性。

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

提出 STALL,一种无需训练的零样本生成视频检测器,通过在白化嵌入空间中联合建模逐帧空间似然和帧间时序似然,仅依赖真实视频校准即可实现对多种生成模型的鲁棒检测。

TriDF: Evaluating Perception, Detection, and Hallucination for Interpretable DeepFake Detection

提出TriDF——首个从感知 (Perception)、检测 (Detection) 和幻觉 (Hallucination) 三个维度综合评估可解释深度伪造检测的基准,包含55K高质量样本覆盖16种DeepFake类型和3种模态,揭示了准确感知是可靠检测的基础但幻觉会严重破坏决策的三方耦合关系。

Uni-DAD: Unified Distillation and Adaptation of Diffusion Models for Few-step Few-shot Image Generation

提出 Uni-DAD,首个将扩散模型蒸馏(distillation)与域适应(adaptation)统一为单阶段流程的方法,通过双域 DMD 损失和多头 GAN 损失,在仅 1–4 步采样下实现少样本域的高质量多样生成。

Unified Vector Floorplan Generation via Markup Representation

本文提出 Floorplan Markup Language (FML) 标记语言,将房间、门等户型元素编码为结构化 token 序列,用一个 LLaMA 风格的 Transformer 模型(FMLM)统一解决无条件/边界条件/图条件/补全等多种户型图生成任务,FID 指标比 HouseDiffusion 低 80%+。

V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

将图像修复重新定义为渐进式视频生成过程,利用预训练视频模型(Wan2.2-TI2V-5B)的丰富视觉先验,仅用 1,000 个多任务训练样本(不到现有方法的 2%)就实现了多种退化类型的全能修复,超越了在百万级数据上训练的专用架构。

VeCoR — Velocity Contrastive Regularization for Flow Matching

提出 VeCoR(速度对比正则化),在标准 Flow Matching 训练中引入"负速度"对比信号,通过同时指导模型"该往哪走"和"不该往哪走",实现更稳定的轨迹演化和更高的感知保真度——在 ImageNet-1K 上 SiT-XL/2 和 REPA-SiT-XL/2 分别获得 22% 和 35% 的 FID 相对降低。

Verify Claimed Text-to-Image Models via Boundary-Aware Prompt Optimization

BPO 提出一种无需参考模型的白盒 T2I 模型验证方法,通过三阶段流程(对抗锚点识别→二分搜索边界探索→目标优化)找到模型特有的语义边界区域,生成的验证 prompt 在 5 个 T2I 模型上达到平均 96% 准确率和 0.93 F1,比 TVN 方法快 2 倍。

ViHOI: Human-Object Interaction Synthesis with Visual Priors

提出ViHOI,一个即插即用框架,利用VLM从2D参考图像中提取解耦的视觉和文本先验,通过Q-Former压缩为紧凑条件token来增强扩散模型的HOI运动生成质量,推理时借助文生图模型合成参考图像实现对未见物体的强泛化。

Vinedresser3D: Agentic Text-guided 3D Editing

提出 Vinedresser3D,一个以多模态大语言模型(MLLM)为核心的 3D 编辑智能体,无需用户提供 3D 掩码,通过自动解析编辑意图、定位编辑区域、生成多模态引导,并在原生 3D 生成模型(Trellis)的潜空间中执行基于反演的修补编辑,实现高质量文本引导的 3D 资产编辑。

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

ViStoryBench 构建了一个包含 80 个多风格故事、344 个角色、1317 个镜头的综合基准,提出 12 项自动化评估指标(涵盖角色一致性、风格相似度、提示对齐、copy-paste 检测等),系统评估了超过 25 种开源/商业故事可视化方法,填补了该领域缺乏统一评估标准的空白。

VOSR: A Vision-Only Generative Model for Image Super-Resolution

提出 VOSR,首个证明纯视觉训练的生成式超分模型可以媲美甚至超越基于 T2I 预训练方法的工作,通过视觉语义条件和面向恢复的引导策略实现高质量 SR,训练成本仅为 T2I 方法的 1/10。

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

通过分析蒸馏过程中权重变化的范数-方向分解,发现方向变化是蒸馏的关键驱动因素(变化幅度比范数大 22×),提出 LoRaD(低秩权重方向旋转)适配器,集成到 VSD 框架中构成 WaDi,仅用 ~10% 可训练参数即在 COCO 上取得一步生成 SOTA FID。

When Identities Collapse: A Stress-Test Benchmark for Multi-Subject Personalization

本文揭示多主体个性化生成中的"身份坍塌"瓶颈——MOSAIC、XVerse、PSR 三个 SOTA 模型在 2 主体时 SCR 已达 ~50%,10 主体时飙升至 ~97%;提出基于 DINOv2 的 Subject Collapse Rate (SCR) 指标替代失效的 CLIP-I,并构建了覆盖 2-10 主体×3 种场景类型的系统化 benchmark。

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

提出 Conflict-aware Adaptive Safety Guidance (CASG),一种无训练的即插即用框架,通过动态识别与当前生成状态最对齐的有害类别并仅沿该方向施加安全引导,解决了现有安全引导方法在多类别聚合时因方向冲突导致的安全性退化问题。

When Understanding Becomes a Risk: Authenticity and Safety Risks in the Emerging Image Generation Paradigm

系统性对比分析了 MLLM(多模态大语言模型)与扩散模型在安全风险上的差异,发现 MLLM 因更强的语义理解能力而更容易生成不安全图像(抽象/非英语提示也能理解),且其生成的图像更难被现有假图检测器识别,即便针对性微调检测器也可通过丰富提示细节来规避。

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

提出 WISER,一个无训练的零样本组合图像检索(ZS-CIR)框架,通过"检索–验证–精化"迭代循环统一 T2I 和 I2I 双路径检索,利用 VLM 验证器显式建模意图感知和不确定性感知,实现自适应融合与结构化自反思精化。在 CIRCO mAP@5 上相对提升 45%,CIRR Recall@1 上相对提升 57%,甚至超越许多训练式方法。

YOEO: You Only Erase Once - Erasing Anything without Bringing Unexpected Content

YOEO 提出一个单次擦除框架,通过将多步扩散模型蒸馏为少步模型实现高效推理,并设计杂物抑制损失(基于实体分割检测新生成的不应出现的物体)和实体特征一致性损失(确保擦除区域与周围语义一致),解决扩散模型在目标擦除中的幻觉问题。