跳转至

🎨 图像生成

📷 CVPR2026 · 490 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (352) · 💬 ACL2026 (5) · 🧪 ICML2026 (141) · 🤖 AAAI2026 (79) · 🧠 NeurIPS2025 (221) · 📹 ICCV2025 (213)

🔥 高频主题: 扩散模型 ×151 · 文生图 ×42 · 图像编辑 ×30 · 对齐/RLHF ×25 · 布局/合成 ×23

2ndMatch: Finetuning Pruned Diffusion Models via Second-Order Jacobian Matching

提出2ndMatch微调框架,通过对齐剪枝模型与原始模型的二阶Jacobian矩阵 \(J^\top J\)(灵感来自有限时间Lyapunov指数),匹配两者对输入扰动的时间敏感性,从而显著缩小剪枝扩散模型与原始模型的生成质量差距。

3D Space as a Scratchpad for Editable Text-to-Image Generation

本文提出把一个可编辑的 3D 场景当作文生图的"空间草稿本":用一组 LLM 智能体把文本 prompt 解析成主体网格、在 3D 里规划摆放/朝向/相机,再用身份保持的深度可控生成把这个 3D 布局渲染成图,在 GenAI-Bench 上文本对齐 免训练提升 32%,且支持在 3D 里改一下就能一致地反映到成图。

A Self-Conditioned Representation Guided Diffusion Model for Realistic Text-to-LiDAR Scene Generation

T2LDM 用一个训练时辅助、推理时丢弃的"引导网络"给去噪网络注入几何重建监督(SCRG),再加一个方向位置编码(DPE)纠正环形投影带来的街道扭曲,在 Text-LiDAR 配对极度稀缺的条件下也能生成结构精细、可控的 LiDAR 场景,并配套提出可控性 benchmark T2nuScenes 和 TBR 指标。

A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

CoTyle 用一个纯数字 code 就能召唤出一种新颖且可复现的视觉风格:先训练一个离散风格码本把图像压成风格索引、再让一个 T2I 扩散模型以这些索引为条件出图,最后训练一个自回归生成器去"凭空造"新的风格索引序列,从而把"一个数字 = 一种风格"这件事在开源社区第一次实现。

A Temporal and Content Co-Awareness Latent Diffusion for Controllable Hand Image Generation

针对"可控手部图像生成里 pose/appearance 控制信号在所有去噪步用固定强度注入"这一痛点,本文提出 TCCA:用一组可学习 query 把噪声潜变量、3D 位姿、外观三类异构特征对齐到统一空间,据此逐时间步动态调整位姿与外观的注入强度,并配一个用 SVD 正交分解去掉位姿伪影的位姿不变外观编码器,在 InterHand2.6M 等数据上 FID/LPIPS/PCK 全面超过 FoundHand。

A Training-Free Style-Personalization via SVD-Based Feature Decomposition

基于尺度自回归模型 Infinity,本文发现生成过程第 3 个特征 \(F_3\)最大奇异值分量专门编码风格信息,于是免训练地用 SVD 把参考图风格注入这一步特征(Principal Feature Blending),再借内容分支的注意力图稳住结构(Structural Attention Correction),在 3.58 秒内做到与微调方法相当的风格保真度,速度快达 195 倍。

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

针对多 GPU 扩散推理"加速达不到线性、还掉画质"的痛点,本文把 Classifier-Free Guidance 天然的"条件/无条件双路"当成数据并行的切分维度(条件分区),再用一个度量两路噪声差异的指标(去噪差异 rel-MAE)自适应决定何时开/关流水线并行,在 2 张 RTX 3090 上对 SDXL / SD3 分别取得 2.31×/2.07× 加速且几乎不掉画质。

Adapter Shield: A Unified Framework with Built-in Authentication for Preventing Unauthorized Zero-Shot Image-to-Image Generation

针对 IP-Adapter / InstantID 这类「一张图就能克隆人脸或画风」的零样本图生图,本文提出 Adapter Shield:先用一对可训练的「加密器/解密器」把图像编码器输出的 embedding 按密码映射成乱码,再用多目标对抗扰动把原图「钉」向这些乱码 embedding,从而让未授权者生成失真结果,而持正确密码的授权者能解密复原正常使用——是该领域第一个把「防护」和「认证」合二为一的通用框架。

Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation

提出 Adaptive Auxiliary Prompt Blending (AAPB),通过 Tweedie 公式推导闭式自适应混合系数,在每个去噪步动态平衡辅助锚定提示与目标提示的贡献,无需训练即可显著改善稀有概念生成和零样本图像编辑的语义准确性与结构保真度。

Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration

提出 Spectrum,一种基于切比雪夫多项式的全局谱域特征预测方法,将扩散模型去噪器的中间特征视为时间函数并用岭回归拟合系数,实现误差不随步长增长的长程特征预测,在 FLUX.1 上达到 4.79× 加速、在 Wan2.1-14B 上达到 4.67× 加速而质量几乎无损。

Advancing Image Classification with Discrete Diffusion Classification Modeling

把图像分类从"一次性预测标签"改造成"在离散类标签空间里跑一个扩散过程来逼近后验 \(P(c\mid y)\)",用预测 Concrete Score 的方式迭代去噪,几步扩散就能在 ImageNet 上超过同等 ResNet,且输入越退化(低分辨率 / 少数据)领先越多。

AE2VID: Event-based Video Reconstruction via Aperture Modulation

针对事件相机视频重建只靠稀疏运动事件、静态区域和误差累积难以恢复的痛点,本文主动周期性开合光圈,让事件相机在静态区域也"被动触发"出密集事件,由此解析出密集强度参考图,再用双子网络(AENet 处理光圈事件、MENet 双向融合运动事件)重建出高速高动态范围视频,在 EvAid 上 MSE 较 SOTA 降低 27.4%。

Agentic Retoucher for Text-To-Image Generation

Agentic Retoucher 将 T2I 生成后的缺陷修复重构为"感知→推理→行动"的人类式闭环决策过程,用三个协作 agent 分别做上下文感知的扭曲检测、人类对齐的诊断推理和自适应局部修复,在 GenBlemish-27K 上 plausibility 提升 2.89 分,83.2% 的结果被人类评为优于原图。

AHS: Adaptive Head Synthesis via Synthetic Data Augmentations

AHS 通过使用头部重演模型(GAGAvatar)生成合成增强数据来克服自监督训练的局限性,结合双编码器注意力机制和自适应掩码策略,在全身图像的头部替换任务中实现了 SOTA 效果。

Align Images Before You Generate

作者发现多图扩散模型的中间噪声特征里"天生"就编码了跨图的对应关系,于是提出 CorrAdapter——一个无需任何外部几何/语义先验、训练自由、即插即用的旁路分支,在图像真正生成之前就用这些原生对应关系把匹配区域对齐,从而显著提升多视角生成和视频生成的时空一致性。

Aligning Multi-Character Narrative Image Generation with Multi-Aspect Human Preferences

针对多角色叙事图像生成中"语义不跟随、身份混淆、画质崩坏"这三大顽疾,本文先造一个带文字评论的细粒度偏好数据集 NI-RLHF,训出一个"先写评论再打分"的可解释奖励模型 NIReward,再用它驱动 ADPO 偏好优化算法,让生成模型在 prompt following / identity consistency / visual quality 三个维度上同步对齐人类偏好。

All-in-One Slider for Attribute Manipulation in Diffusion Models

提出 All-in-One Slider 框架,通过在文本嵌入空间上训练一个属性稀疏自编码器(Attribute Sparse Autoencoder),将多种人脸属性解耦为稀疏的语义方向,实现单一轻量模块对 52+ 种属性的细粒度连续控制,并支持多属性组合和未见属性的零样本操控。

Anchoring and Rescaling Attention for Semantically Coherent Inbetweening

提出 KAB(Keyframe-Anchored Attention Bias)和 ReTRo(Rescaled Temporal RoPE)两个无需训练的推理时方法,基于 Wan2.1 视频扩散模型解决稀疏关键帧下大运动生成式帧插值(GI)中的语义不忠、帧不一致和节奏不稳问题,并构建首个文本条件 GI 评估基准 TGI-Bench。

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

提出 Ani3DHuman 框架,将运动学驱动的网格动画与视频扩散先验相结合,通过自引导随机采样(Self-guided Stochastic Sampling)将低质量的刚体渲染恢复为高保真视频,从而实现逼真的非刚体服装动态建模。

Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation

Ar2Can 提出将多人图像生成分解为空间规划(Architect)和身份保留渲染(Artist)两阶段,通过 GRPO 强化学习配合基于匈牙利匹配的空间锚定人脸奖励函数训练 Artist 模型,在 MultiHuman-Testbench 上实现了 68.2 的身份保留分数和 90.2 的计数准确率,大幅超越所有基线。

Attention, May I Have Your Decision? Localizing Generative Choices in Diffusion Models

本文通过线性探针(linear probing)发现扩散模型中隐式决策(如未指定性别时默认生成男性)主要由自注意力层而非交叉注意力层控制,并基于此提出 ICM 方法,仅在少量关键自注意力层上进行干预即可实现 SOTA 的去偏见效果,同时最小化图像质量退化。

Attribute-Preserving Pseudo-Labeling for Diffusion-Based Face Swapping

APPLE 用一个"先训好教师、再用教师造高质量伪标签喂学生"的纯扩散教师-学生框架做换脸:教师靠条件去模糊(而非给整张脸打掩码)保住目标的肤色/光照/姿态,再用属性感知反演把目标的细粒度属性(妆容、眼镜)锚进噪声里,造出干净的伪标签;学生只看这些干净伪标签学习,最终在属性保持上达到 SOTA(FFHQ FID 2.18、Pose 1.85),同时 ID 相似度仍有竞争力。

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

将 AI 生成图像的归属问题从分类范式重新定义为实例检索范式,提出基于低位平面指纹的模型无关框架 LIDA,通过无监督预训练和少样本归属适应,在零样本和少样本设置下实现 SOTA 的 Deepfake 检测和图像归属性能。

Back to Basics: Let Denoising Generative Models Denoise

作者(Tianhong Li、Kaiming He)指出今天的扩散模型其实不"去噪"——它们预测的是噪声 \(\epsilon\) 或速度 \(v\) 这些"离流形"的量;本文回到第一性原理,让网络直接预测干净图像 \(x\),于是一个朴素的 ViT 直接吃大 patch 像素(无 tokenizer、无预训练、无额外 loss)就能在 ImageNet 256/512/1024 上做出有竞争力的生成(JiT-G/16 256 分辨率 FID 1.82),而同样网络用 \(\epsilon\)/\(v\)-prediction 会灾难性崩溃。

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

提出 BeautyGRPO,一个基于强化学习的人脸修图框架,通过构建细粒度偏好数据集 FRPref-10K 训练专用奖励模型,并设计动态路径引导(DPG)机制在随机探索与高保真之间取得平衡,实现与人类美学偏好对齐的自然修图效果。

Beyond Fixed Formulas: Data-Driven Linear Predictor for Efficient Diffusion Models

本文先证明 TaylorSeer、FoCa 等"预测式特征缓存"在数学上都退化成了对历史特征的固定系数线性组合,再用实测说明 DiT 特征轨迹本就高度线性可重建,于是提出 \(L^2P\)——用一组每个时间步可学习的线性权重替换手工推导的固定系数,仅用 50 张图、单卡 20 秒训练,就在 FLUX/Qwen-Image 上把扩散采样加速到 4.5–7.2× 的同时保持远高于现有方法的 PSNR。

Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

针对"用文生图模型造合成数据训分类器"在细粒度、少样本场景下容易过拟合的问题,BOB 把每张真实图的类无关上下文(背景、姿态)显式抽出来:微调时条件化进 prompt(保留多样性先验),生成时跨类随机配对采样(边缘化掉虚假关联),在 Aircraft 上把 CLIP 分类精度从 DataDream 的 50.0% 提到 57.4%。

Beyond Patches: Global-aware Autoregressive Model for Multimodal Few-Shot Font Generation

GAR-Font 用一个"全局感知 tokenizer + 自回归生成器 + 轻量语言适配器 + GRPO 后精修"的组合,把少样本汉字字体生成从只看图的 patch 级建模升级为兼顾局部笔画与全局风格、还能用一句文字描述补充风格意图的多模态自回归框架,用 4 张参考图 + 1 句文本就能匹配 8 张图的生成质量。

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

UniPath提出语义驱动的病理图像生成框架,通过多流控制(原始文本 + 从冻结病理MLLM蒸馏的诊断语义Token + 原型库形态控制)实现诊断级可控生成,Patho-FID达80.9,比第二名优51%。

Beyond Text Prompts: Precise Concept Erasure through Text–Image Collaboration

TICoE 用「连续凸概念流形(文本端)+ 多尺度层次视觉表征(图像端)」协同地从文生图扩散模型里精准擦除目标概念,既堵住文本擦除"换个说法就复活"的漏洞,又避免图像引导误伤形状/语境相似的无关概念,在 gun/nudity/Van Gogh 等任务上同时拿到更强擦除(UDA 0.02)和更好保真(FID 30.86)。

Beyond the Golden Data: Resolving the Motion-Vision Quality Dilemma via Timestep Selective Training

发现视频数据中运动质量(MQ)和视觉质量(VQ)呈负相关的"Motion-Vision Quality Dilemma",通过梯度分析揭示不平衡数据在适当时间步可产生等效学习信号,提出TQD框架使仅用不平衡数据训练即可超越黄金数据训练。

Bidirectional Normalizing Flow: From Data to Noise and Back

BiFlow 把标准 Normalizing Flow 里"反向过程必须是正向过程精确解析逆"的硬约束拆掉,改成单独训练一个反向模型去近似逆映射(用隐状态对齐做监督),从而让反向模型可以是双向注意力 Transformer,一次前向(1-NFE)就生成图像,在 ImageNet 256×256 上以 133M 的小模型拿到 FID 2.39,比同源的自回归 TARFlow 既更好又快上两个数量级。

BiFM: Bidirectional Flow Matching for Few-Step Image Editing and Generation

BiFM 让同一个 flow matching 模型在一次训练里同时学会"噪声→图像"的生成和"图像→噪声"的反演,靠一个共享的瞬时速度场约束两个方向的平均速度,从而在 1~4 步的少步预算下做出高保真的反演式图像编辑,效果稳定超过现有少步编辑方法。

BiGain: Unified Token Compression for Joint Generation and Classification

BiGain 提出频率感知的 token 压缩框架,通过拉普拉斯门控 token 合并和插值-外推 KV 下采样两个无训练算子,首次在扩散模型加速中同时保持生成质量并显著提升判别分类性能。

BiMotion: B-spline Motion for Text-guided Dynamic 3D Character Generation

提出 BiMotion,用连续可微的 B 样条曲线将变长运动序列压缩为固定数量控制点,配合专用 VAE 和 flow-matching 扩散模型,实现快速、高表达力、语义完整的文本引导动态 3D 角色生成,在质量和效率上均超越现有方法。

BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

提出 BioVITA 框架,包含百万级三模态(图像-文本-音频)生物数据集、两阶段对齐模型和六方向跨模态物种级检索基准,首次实现生物领域视觉-文本-声音统一表示学习。

Black-box Membership Inference Attacks on the Pre-training Data of Image-generation Models

针对闭源文生图扩散模型,本文提出 SD-MIA:不再像传统方法那样对图像加噪、看模型去噪能力,而是扰动文本指令、看重建图像是否稳定,借此判断某张图是否出现在模型的预训练数据里——在纯黑盒(只给文本进、出图)约束下,AUC 比能访问内部特征的灰盒最强基线还高出最多约 10 个点。

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

提出 BlackMirror 框架,通过细粒度的指令-响应语义偏差检测(MirrorMatch)和跨 prompt 稳定性验证(MirrorVerify)两阶段流程,在黑盒条件下实现对 T2I 模型多种后门攻击的通用检测,F1 平均达 89.46%,大幅超越已有黑盒方法 UFID。

Breaking Semantic Boundaries: Distribution-Guided Semantic Exploration for Creative Generation

把"生成全新概念"重新表述为"以类别分布为条件的图像合成",用一个轻量 encoder–decoder(DisTok)把任意类别分布或随机隐向量解码成可塞进 prompt 的"创意 token",统一了可控的条件探索与开放式的无条件探索,在创意生成的文图对齐与人类偏好上达到 SOTA,且比同类方法快 13–40 倍。

Bridging Fidelity-Reality with Controllable One-Step Diffusion for Image Super-Resolution

CODSR 用一步扩散做真实场景超分:先按梯度图给纹理区"定点注噪"激活生成先验,再用未压缩的 LQ 特征调制 U-Net 中间层补回保真信息,最后用 Grounded-SAM2 的名词掩码约束 cross-attention 对齐文本,在四个真实数据集上同时拿到更好的感知质量和有竞争力的保真度。

C\(^2\)FG: Control Classifier-Free Guidance via Score Discrepancy Analysis

本文用严格的 score 差距上界证明"条件与无条件分布在前向扩散中以指数速率收敛",据此把 CFG 里那个固定的引导权重 \(\omega\) 换成一个指数衰减的时变控制函数 \(\omega(t)\),无需训练、即插即用,在 DiT / SiT / Stable Diffusion / EDM2 等多种框架上把 FID/IS 都进一步刷到了 SOTA。

Camera Control for Text-to-Image Generation via Learning Viewpoint Tokens

本文给文生图模型加了一个把 5 维相机参数编码成 token 的轻量 MLP,并和文本 token 拼在一起联合微调,配合"3D 渲染图(几何监督)+ 真实感增强图(外观多样)"的两段式数据集,让模型能按 azimuth/elevation/距离/俯仰/偏航精确生成指定视角的图,且能泛化到训练时没见过的物体类别。

CARD: Correlation Aware Restoration with Diffusion

CARD 把 DDRM 这套扩散逆问题求解器从「i.i.d. 高斯噪声」假设推广到真实传感器的「空间相关噪声」——先用协方差矩阵的逆平方根 \(\Sigma^{-1/2}\) 把观测白化成 i.i.d.,再在白化后的测量空间里跑 DDRM 的闭式更新,全程免训练,在合成相关噪声和作者新采集的真实 rolling-shutter 数据集 CIN-D 上的去噪/去模糊/超分都稳定超过现有方法。

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

提出 CARE-Edit,一种条件感知的专家路由框架,通过异构专家(Text/Mask/Reference/Base)配合轻量级 latent-attention 路由器,在 DiT 骨干上实现动态计算分配,有效解决统一图像编辑器中多条件信号(文本、掩码、参考图)冲突导致的颜色溢出、身份漂移等问题。

CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

提出 CaReFlow,首次将 rectified flow 用于多模态分布映射以缩小模态间隙:通过 one-to-many mapping 让源模态数据点观测目标模态全局分布,adaptive relaxed alignment 对不同关联度的模态对施加不同对齐强度,cyclic rectified flow 保证映射后信息不丢失,即使用简单拼接融合也能在多个多模态情感计算 benchmark 上达到 SOTA。

CaricHarmony: Contrastive Diffusion Paths for Identity-Preserving Caricature Synthesis

CaricHarmony 把"既要夸张变形又要保住身份"这个老大难问题重新诊断为扩散去噪轨迹里的条件信号污染,提出一个免训练框架:推理时并行跑三条去噪路径(纯身份、纯草图、融合输出),用作用在 cross-attention 特征上的能量函数把融合路径拉回身份与形状之间的平衡区,在不微调任何参数、16 秒出图的前提下把 shape CLIP 提到 0.8615(DemoCaricature 0.8450),用户总体偏好 7.81(vs 6.06)。

CAST: Context-Aware Dynamic Latent Space Transformation for Interactive Text-to-Image Retrieval

针对交互式文本-图像检索(I-TIR)中"所有对话轮次共用一个静态特征空间"的痛点,CAST 用一个轻量模块 CASR 根据每轮对话上下文动态地把文本和图像特征所在的隐空间"变形"一下——低秩投影器(CLP)决定往哪个语义方向变、上下文调制器(CGM)决定变多大幅度——在 VisDial 上把 10 轮平均 R@1 从 ChatIR 的 48.44% 提到 51.85%,且越到后面轮次优势越大,几乎不增加参数量。

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

CaTok 用「在时间区间 \([r,t]\) 内选 1D token + 绑定 MeanFlow 平均速度场目标」训练一个扩散自编码器,让压缩出来的 1D 视觉 token 同时具备因果性和均衡性,既支持一步快速生成又支持多步高保真重建,在 ImageNet 重建上拿到 0.75 rFID / 22.53 PSNR / 0.674 SSIM,且训练 epoch 更少。

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

将 Classifier-Free Guidance (CFG) 重新解释为流匹配扩散模型中的反馈控制过程,提出统一框架 CFG-Ctrl,并基于滑模控制 (SMC) 设计非线性反馈引导机制 SMC-CFG,在大引导尺度下显著提升语义一致性和生成鲁棒性。

CG-Floor: Centroid-Guided Diffusion for Large-Scale Floorplan Generation

CG-Floor 用「先定位、后画形」的层级框架做大规模户型图生成:先用图 Transformer 一次性预测所有房间的质心与尺寸、编码成「尺寸感知语义质心热力图」(SASCH)锚定全局拓扑,再用 VQ-VAE 码本 + 向量量化扩散 Transformer 在 SASCH 引导下画出非曼哈顿(非矩形)房间形状,在大规模 MSD 数据集上把 FID 从 79.7 压到 16.0。

ChArtist: Generating Pictorial Charts with Unified Spatial and Subject Control

ChArtist 把"柱/线/饼"的数据结构抽象成极简的骨架(skeleton)作为空间条件、再叠加参考图的主体(subject)条件,用两个独立 LoRA 分别学这两种控制,并在推理时用空间门控注意力让主体服从于空间结构,从而自动生成既忠于数据又有视觉表现力的象形图表。

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

针对少样本/长尾场景缺数据的问题,ChimeraLoRA 把扩散模型的 LoRA 拆成「类共享的 A 编码类先验 + 每张图独占的 B 头编码实例细节」,再用 Dirichlet 权重把多个 B 头混合生成图像,同时用 Grounded-SAM 框约束裁剪保住目标物体,合成出的训练集既多样又细节丰富,9 个数据集下游分类平均比 SOTA 高 2.1 个点。

ChordEdit: One-Step Low-Energy Transport for Image Editing

基于动态最优传输理论,推导出低能量的 Chord 控制场,将不稳定的朴素编辑场平滑化,首次实现了对蒸馏单步 T2I 模型的无训练、无反演、高保真实时图像编辑。

Cinematic Audio Source Separation Using Visual Cues

提出首个音视频影视音频源分离(AV-CASS)框架,利用面部和场景双视频流的视觉线索,通过条件流匹配进行生成式三路音频分离(语音/音效/音乐),仅在合成数据上训练即可泛化到真实电影。

Circuit Mechanisms for Spatial Relation Generation in Diffusion Transformers

通过机械可解释性方法揭示了扩散Transformer(DiT)生成空间关系的内部电路机制:随机嵌入模型使用两阶段模块化电路(关系头+物体生成头),T5编码器模型则将关系信息融合到物体token中通过单token解码,两种机制的鲁棒性差异显著。

Closed-Form Concept Erasure via Double Projections

本文提出 Double Projections(DP),把扩散/流匹配模型的「概念擦除」改写成两步闭式投影——先把目标概念投影到「安全子空间」得到代理向量,再把权重更新约束在保留概念的左零空间里——从而在秒级、免训练的前提下既擦干净目标概念,又几乎不损伤无关概念。

CoD: A Diffusion Foundation Model for Image Compression

提出首个面向压缩的扩散基础模型 CoD,从零训练学习端到端的压缩-生成联合优化,替换 Stable Diffusion 后在下游扩散编解码器中实现超低码率(0.0039 bpp)下的 SOTA 性能,训练成本仅为 SD 的 0.3%。

CogniEdit: Dense Gradient Flow Optimization for Fine-Grained Image Editing

CogniEdit 用 MLLM 把复杂指令拆成可执行编辑指令、用动态 token focus 让不同网络层关注不同粒度的属性,再把 GRPO 从"单步独立优化"改成"跨连续去噪步累积梯度的轨迹级稠密优化",在 Kris-Bench / GEdit-Bench 上把颜色/数量/位置这类细粒度指令的执行做到了 SOTA,同时不牺牲通用编辑能力。

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

提出 CoLoGen,一个基于"概念-定位对偶性"(Concept-Localization Duality)的统一图像生成框架,通过渐进式分阶段训练和 Progressive Representation Weaving(PRW)动态专家路由架构,在指令编辑、可控生成和个性化生成三大任务上同时达到或超越专用模型水平。

CompBench: Benchmarking Complex Instruction-guided Image Editing

CompBench 是首个面向复杂真实场景的指令引导图像编辑评测基准,从视频对象分割数据集 MOSE 取高密度遮挡场景,用 MLLM-人类协作框架 + 指令解耦策略造出 3K+ 高保真编辑样本、覆盖 5 大类 9 项任务,系统揭示了当前编辑模型在多对象、空间推理和隐式推理上的根本性短板。

Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

针对文生图模型难以正确处理「多物体 + 属性绑定 + 空间关系」这类组合式 prompt 的问题,BIDPO 把 Diffusion DPO 扩展成「图像 + 文本」双模态偏好优化,并加一层基于 bounding box 的区域级 loss 加权,配合一条自动构建的 9.4 万对偏好数据管线,在 T2I-CompBench 上属性绑定平均涨约 17%、整体涨约 10%。

ConsistCompose: Unified Multimodal Layout Control for Image Composition

提出 ConsistCompose,通过将布局坐标直接嵌入语言prompt(LELG范式),在统一多模态框架中实现布局可控的多实例图像生成;构建340万样本的ConsistCompose3M数据集提供布局+身份监督;配合坐标感知CFG机制,在COCO-Position上实现布局IoU 7.2%提升和AP 13.7%提升,同时保持通用理解能力。

Correspondence-Attention Alignment for Multi-View Diffusion Models

作者先揭示多视角扩散模型的 3D 自注意力在深层会自发学到「跨视角几何对应」,但这个信号在大视角变化下会退化;据此提出 CAMEO——只用几何对应图直接监督单个深层注意力,让收敛速度翻倍、新视角合成质量更高,且对任意多视角扩散模型通用。

Coupled Diffusion Sampling for Training-Free Multi-View Image Editing

针对「2D 编辑模型逐张改图会跨视角不一致、而走 NeRF/3DGS 显式三维又慢又糊」的痛点,本文提出耦合扩散采样(coupled diffusion sampling):让一个现成 2D 编辑模型和一个多视角生成模型在去噪过程中并行各跑一条采样轨迹,再用一个耦合能量项把两条轨迹互相拉近,从而不训练任何新模型就得到既满足编辑目标、又跨视角一致的结果,在空间编辑、风格化、重光照三个任务上用户偏好率(80%/47%/46%)大幅领先。

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

CRAFT-LoRA 用「秩约束的骨干微调(造一个利于解耦的初始化)+ 专家编码器分支路由(按 prompt 标记把内容/风格 LoRA 装到不相交的层)+ 时序非对称 CFG(推理时免训练稳住融合)」三件套,让独立训练的内容 LoRA 和风格 LoRA 能干净地组合,在内容相似度、风格相似度和 GPT-4o 综合评分上都刷到 SOTA。

CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think

CRAFT 提出一种超轻量的扩散模型对齐方法:通过组合奖励过滤(CRF)策略自动构建高质量训练集,然后执行增强版 SFT,理论证明 CRAFT 实际优化的是分组强化学习的下界,仅用 100 个样本就超越了需要数千偏好对的 SOTA 方法,且训练速度快 11-220 倍。

CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

CREval 用「先生成带标准答案的是非题、再让 MLLM 逐题作答、答对才给分」的 VQA 范式取代「让 MLLM 直接打个分」的黑盒做法,配套一个覆盖 3 大类 9 维度、874 个创意编辑样本的 CREval-Bench,把指令遵循(IF)、视觉一致性(VC)、视觉质量(VQ)拆成可解释的三项指标,发现当前主流编辑模型在「自由创意编辑」上普遍仍吃力,尤其难保住原图关键元素。

Cross-Axis Feature Fusion with Joint-Wise Motion Difference Prediction for Text-Based 3D Human Motion Editing

针对文本驱动的 3D 人体动作编辑,本文用「关节锚定」和「时间锚定」两个 Transformer 分别在关节轴和时间轴上建模,再用跨轴融合块整合,并配一个回归源/目标旋转轨迹 Soft-DTW 距离的辅助任务,让模型不仅知道「何时」改、还知道「改哪些关节」,在 MotionFix 上全面刷到 SOTA。

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

提出 C-MET(Cross-Modal Emotion Transfer),通过建模语音和面部表情空间之间的情感语义向量映射,首次实现了基于语音驱动的扩展情感(如讽刺、魅力)说话人脸视频生成,情感准确率超越 SOTA 14%。

CSF: Black-box Fingerprinting via Compositional Semantics for Text-to-Image Models

CSF 把文生图模型当成"语义类别生成器",用一批在微调数据里极其罕见的组合语义提示词(如"一只危险的城市夜行动物")反复采样,提取模型对模糊提示的类别分布作为指纹,再用 Wasserstein 距离 + 贝叶斯归因判定一个只能 API 访问的可疑模型属于哪个受保护基座家族——在 6 个基座家族、13 个微调变体上全部通过"主导性"判据。

CTCal: Rethinking Text-to-Image Diffusion Models via Cross-Timestep Self-Calibration

提出 CTCal(Cross-Timestep Self-Calibration),利用扩散模型在小时间步(低噪声)下形成的可靠文本-图像对齐(cross-attention maps)来校准大时间步(高噪声)下的表征学习,为文本到图像生成提供显式的跨时间步自监督,在 T2I-CompBench++ 和 GenEval 上全面超越现有方法。

Curriculum Group Policy Optimization: Adaptive Sampling for Unleashing the Potential of Text-to-Image Generation

针对 GRPO 训练文生图时"均匀采样让一半 prompt 学不动也没增益"的问题,CGPO 用每个 prompt 一组图像的奖励方差当作"模型部分掌握但未稳定掌握"的在线信号,自适应地多采样这些处于学习甜区的 prompt,再配一个比例公平的类别校准,在 GenEval/T2I-CompBench++/DPG Bench 上既涨点又把训练速度提到 2 倍。

Cycle-Consistent Tuning for Layered Image Decomposition

提出基于扩散模型的循环一致性微调框架,通过联合训练分解模型和合成模型实现图像层分离(如logo-物体分解),并引入渐进式自改进数据扩增策略,在非线性层交互场景下实现鲁棒分解。

D2C: Accelerating Diffusion Model Training under Minimal Budgets via Condensation

首次将数据集压缩(Dataset Condensation)应用于扩散模型训练,提出D2C两阶段框架——Select阶段用扩散难度分数+区间采样选出紧凑子集、Attach阶段为每个样本附加文本和视觉表示——仅用0.8% ImageNet(10K图像)在40K步即达FID 4.3,比REPA快100×、比vanilla SiT快233×。

DA-VAE: Plug-in Latent Compression for Diffusion via Detail Alignment

提出 Detail-Aligned VAE (DA-VAE),通过在预训练 VAE 的潜空间中引入结构化的"细节通道"并施加对齐约束,在不重训扩散模型的前提下将 token 数压缩 4 倍,仅需 5 H100-days 微调即可实现 SD3.5 的 1024→2048 生成,加速 6 倍。

DBMSolver: A Training-free Diffusion Bridge Sampler for High-Quality Image-to-Image Translation

针对扩散桥模型(DBM)做图像到图像翻译时采样慢(动辄几十上百次网络评估)的问题,DBMSolver 不改网络、不训练,仅靠揭示 Bridge SDE/ODE 的「半线性结构」并用指数积分器(EI)推出闭式解,把采样步数(NFE)压到 6 步就超过此前 SOTA,在 DIODE 上 20 NFE 时 FID 比二阶基线降 53%。

DCoAR: Deep Concept Injection into Unified Autoregressive Models for Personalized Text-to-Image Generation

DCoAR 把"概念注入"从只在输入层插一次 token,升级成在统一自回归模型的多层 Transformer 中逐层注入可学习的多模态 token,并配上双重先验保持(DPP)与上下文自正则(CASR)两个正则项;在完全冻结骨干、可训练参数不到 0.1M 的前提下,主体保真度逼近需要训上百兆参数的微调类方法,还能免训练地把任意主体渲染成任意风格。

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

本文揭示了扩散模型中普遍存在的 SNR-t 偏差(逆过程样本的信噪比与时间步不匹配),并提出小波域动态差分校正方法(DCW),在不训练的情况下即插即用地提升多种扩散模型的生成质量。

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

DDiT 发现扩散 Transformer 在去噪早期只需粗粒度、晚期才需细粒度,于是给冻结的预训练 DiT 加一个轻量 LoRA 分支让它支持多种 patch size,再用一个训练无关的调度器按"潜变量演化的加速度"在每个时间步自动挑最大可用 patch,在 FLUX-1.Dev 上做到最高 3.52× 加速、FID 几乎不掉。

DDT: Decoupled Diffusion Transformer

DDT 把传统"只有解码器"的扩散 Transformer 拆成一个专职提语义的 condition encoder 和一个专职回归速度场的 velocity decoder,解开了"语义编码"与"高频解码"的优化矛盾,在 ImageNet 256×256 上仅用 256 epoch 就拿到 1.31 FID(比 REPA 快约 4×),并顺带利用相邻步自条件的高度相似性做动态规划共享,把推理再提速近 3×。

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

DeCo 提出频率解耦的像素扩散框架,用轻量像素解码器处理高频细节并让DiT专注低频语义建模,配合频率感知flow matching损失,在ImageNet上达到FID 1.62(256)和2.22(512),缩小了像素扩散与潜空间扩散的差距。

Decoupled Residual Denoising Diffusion Models for Unified and Data Efficient Image-to-Image Translation

DRDD 发现注入高斯噪声除了"流形抬升"还能隐式拉近不同域的特征分布("域调和器"),于是把传统耦合扩散拆成"先加噪声做域调和 + 再做确定性残差映射"两个独立阶段,让核心 source→target 映射全程在固定噪声域里完成,从而在多任务统一恢复和少配对数据场景下又稳又省数据。

Delta Rectified Flow Sampling for Text-to-Image Editing

DRFS 把 DDS「相减抵消共同信息」的思路搬进整流流(Rectified Flow)的速度场蒸馏采样,再加一个随时间衰减的偏移项把目标隐变量拉回正确轨迹,在不改架构、免反演、免训练的前提下解决了 RFDS 编辑时的过度平滑问题,并在 PIE 基准上取得最优的编辑保真度与可控性。

Denoising, Fast and Slow: Difficulty-Aware Adaptive Sampling for Image Generation

扩散/流匹配模型默认对所有 patch 用同一个时间步、均匀分配算力,本文提出 Patch Forcing (PF):训练时给每个 patch 独立的噪声水平、并学一个轻量的「patch 难度头」,让置信(简单)区域先去噪、为不确定(困难)区域提供"未来"上下文,配合两个难度感知采样器在 ImageNet 256² 上把 SiT 的 FID 从 17.2 降到 9.8(XL/2,固定算力)。

Design Your Ad: Personalized Advertising Image and Text Generation with Unified Autoregressive Models

针对电商广告"图像和文案各用一套模型、且只靠群体 CTR 反映平均偏好"的问题,本文用一个统一自回归模型 Uni-AdGen 把广告图和广告文案放进同一个 next-token 预测流程里联合生成,再配一个"粗到细偏好理解模块"从用户带噪的多模态历史点击中抽取个性化兴趣,并构建了首个大规模个性化广告图文数据集 PAd1M 和背景敏感的 PBS 评测指标,在通用和个性化两种设定下都优于基线。

Designing Instance-Level Sampling Schedules via REINFORCE with James-Stein Shrinkage

不动模型权重,只为冻结的文生图采样器学一个"按 prompt 和噪声定制的采样时间表"——用单次前向的 Dirichlet 策略一口气吐出整条 schedule,并用 James-Stein 收缩做 REINFORCE 的 reward baseline 来压低梯度方差,使得 SD/Flux 在相同步数下文图对齐更好、5 步就能逼近蒸馏过的 Flux-Schnell。

Diff-SemiER: Transparency-Aware Adaptive Fusion Diffusion Model with Generative Prior for Semi-Transparent Eyeglasses Removal

针对"半透明墨镜"这种镜片下既有残留可见信息、又被部分遮挡的难题,Diff-SemiER 用一条生成先验扩散分支(GPDM)先补出结构合理的无镜人脸,再用一条透明度感知融合扩散分支(TAFDM)配合软掩码把"生成内容"和"镜下真实细节"在通道+空间双维度上自适应融合,从而在不同遮挡程度下都能既保身份又保细节,在合成集和真实集上全面超过现有方法。

DiffGraph: An Automated Agent-driven Model Merging Framework for In-the-Wild Text-to-Image Generation

DiffGraph 把网上海量的扩散专家模型(checkpoint / LoRA)组织成一张"万能图",再用两个 LLM agent 解析用户 prompt、动态激活子图,并用一个变分图自编码器(VGAE)预测各专家的合并系数,从而免训练、免测试时优化地按需合并任意数量专家,在 DABench / DiffusionDB 上的人类偏好指标全面领先。

Diffusion-Based Makeup Transfer with Facial Region-Aware Makeup Features

针对扩散妆容迁移里"现成 CLIP 抓不住妆容、且妆容被整体注入丧失分区可控性"两大痛点,FRAM 先用合成数据微调出一个专门的"妆容 CLIP 编码器",再用可学习的人脸区域 query 从中抽出按区域分离的妆容特征、配合注意力损失注入扩散模型,首次让扩散方法支持把不同参考图的"皮肤/眼睛/嘴唇"妆容分区组合,同时在全局妆容迁移上取得身份保持与妆容一致性的更好平衡。

Diffusion Mental Averages

提出 Diffusion Mental Averages (DMA),通过在扩散模型的语义空间中对齐多个去噪轨迹,从预训练扩散模型中提取概念的"心理平均"原型图像——首次实现一致、逼真的概念平均可视化。

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

发现扩散模型早期去噪步骤的交叉注意力分布与最终图像质量高度相关,提出 Diffusion Probe——用轻量CNN从早期注意力图预测生成结果质量,实现在完成10%去噪即可预筛选低质量生成路径,加速 Prompt 优化、Seed 选择和 GRPO 训练。

Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering

本文发现扩散去噪轨迹中「条件分数与无条件分数的累积差异(ASD)」强相关于样本质量,据此提出 CFG-Rejection——一个无需外部奖励模型、不改架构、在去噪早期就能剪掉低质量轨迹的即插即用筛选策略,在 HPSv2/PickScore/GenEval/DPG-Bench 上一致提升生成质量。

DiP: Taming Diffusion Models in Pixel Space

提出 DiP,一个高效的像素空间扩散框架,通过将 DiT backbone 在大patch上建模全局结构 + 轻量 Patch Detailer Head 恢复局部细节,实现了与LDM可比的计算效率但无需VAE,在ImageNet 256×256上达到1.79 FID。

Disentangling to Re-couple: Resolving the Similarity-Controllability Paradox in Subject-Driven Text-to-Image Generation

提出 DisCo 框架,通过先解耦文本与视觉信息(用代词替换实体词消除文本对 subject 的干扰)、再用 GRPO + 专用 reward model 重新耦合二者,有效解决了 subject-driven 图像生成中"相似度-可控性"不可兼得的悖论。

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

DiT360 不在模型结构上做文章,而是用「透视图 + 全景图混合训练」补足真实全景数据稀缺的短板:在 VAE 前的图像层用透视图引导和全景图精修注入跨域知识,在 VAE 后的 token 层用循环填充 + yaw loss + cube loss 强化几何一致性,最终在 Matterport3D 上 11 项指标多数第一(FID 42.88)。

DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression

将预训练文生图DiT(SANA)适配为高效单步图像压缩解码器,通过方差引导重建流(像素级自适应去噪强度)、自蒸馏对齐(编码器潜变量做蒸馏目标)、潜空间条件引导(替代文本编码器)三种对齐机制,在32×下采样的深层潜空间中实现SOTA感知质量(BD-rate DISTS -87.88%),解码快30倍且16GB笔电显存可重建2K图像。

DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO

针对用 GRPO 对扩散模型做 RLHF 后出现的「生成模式坍缩」(脸都一样、构图都一样),DiverseGRPO 从奖励建模和去噪动力学两个角度下手——用谱聚类给同一 caption 的样本分组、按簇大小反比发"探索奖励",再把后期均匀的 KL 正则换成只压前期去噪步的 Wasserstein 约束,在质量持平的前提下把语义多样性提升 13%~18%,刷出新的质量-多样性 Pareto 前沿。

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

提出反特征坍塌学习框架 AFCL,通过信息瓶颈过滤无关特征并抑制不同伪造线索之间的过度重叠,保持判别表征的多样性和互补性,在跨模型生成图像检测上取得显著提升。

Do Less, Achieve More: Do We Need Every-Step Optimization for RL Fine-tuning of Diffusion Models?

针对扩散模型 RL 微调"把最终奖励平均回填到每一步去噪"导致的高方差与奖励黑客问题,本文提出 AdaScope——通过感知去噪过程中的语义结构演化与奖励增益趋势,自适应地只在"结构已成形、奖励仍在涨"的中段时间步上做 RL,相比 SOTA 性能提升 66% 同时计算成本砍掉 59%。

DPAR: Dynamic Patchification for Efficient Autoregressive Visual Generation

DPAR 用一个轻量熵模型算出每个图像 token 的「下一 token 预测熵」,把低信息区域(天空、墙面)的相邻 token 动态合并成变长 patch、高信息区域保留 token 级粒度,让 decoder-only 自回归 Transformer 在「更少的 patch」上做 next-patch 预测,从而在 ImageNet 256/384 上减少 1.81×/2.06× token 数、最高省 40.4% 训练 FLOPs,同时 FID 反而最高提升 29.6%。

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

将扩散模型采样加速形式化为全局路径规划问题,通过构建路径感知代价张量 (PACT) 并使用动态规划选择最优关键时间步序列,实现 training-free 的 4.87× 加速且生成质量超越全步基线。

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

DreamingComics 把一个预训练的视频 DiT(HunyuanVideo-I2V + FramePack)改造成单帧图像定制器,用 RegionalRoPE 和 masked condition loss 让多个角色参考图各自落到指定版面框里,再配一个微调过的 VLM 自动从剧本生成漫画版面,从而在保持角色身份和艺术风格一致的前提下做可控的故事/漫画可视化,角色一致性比此前最好方法提升 29.2%、风格相似度提升 36.2%。

DreamOmni2: Multimodal Instruction-based Generation and Editing

DreamOmni2 把"指令编辑"和"主体驱动生成"升级成带参考图的多模态指令任务,既能引用具体物体也能引用材质/姿态/发型/风格这类抽象属性;它用一套三阶段合成数据流水线造出训练对,再给统一编辑模型 Flux Kontext 加上 index encoding + 位置编码偏移和 VLM 联合训练,使其支持多参考图输入并读懂复杂口语指令,在自建 benchmark 上人评胜过 GPT-4o / Nano Banana。

DreamStereo: Towards Real-Time Stereo Inpainting for HD Videos

DreamStereo 把"单目视频转立体视频"建模成一个遮挡区域修补问题,用梯度感知的反向 warping 造出干净的训练数据、再用"只让遮挡区域的 token 参与扩散计算"的稀疏策略,把 768×1280 HD 立体修补做到单卡 A100 上 25 FPS 实时(NFE=1,PSNR 30.5 dB)。

DRiffusion: Draft-and-Refine Process Parallelizes Diffusion Models with Ease

DRiffusion 把扩散采样里"跳过中间时间步"这件事形式化成一个局部算子,先用它一次性草拟出未来 \(k\) 个时间步的近似状态、把这些草稿并行喂进原始去噪网络求噪声,再沿原轨迹精修,从而在不改预训练模型/采样器的前提下用 \(n\) 张卡换来 1.4×–3.7× 的墙钟加速,且 FID/CLIP 几乎不掉。

DTG-Restore: Training-Free Diffusion Refinement for Generative Video Super-Resolution

DTG-Restore 提出一种免训练、模型无关的视频超分框架:在扩散采样时把无条件分支挪到一个更干净(噪声更小)的时间步去评估,给当前步注入一个"前瞻先验",从而在修复低分/失真视频时既能抑制对扭曲几何的复制、又能保留外观细节,并可后接任意现成超分模块补高频,在感知质量与几何稳定性上显著优于近期扩散式视频恢复方法。

DUO-VSR: Dual-Stream Distillation for One-Step Video Super-Resolution

提出 DUO-VSR 三阶段蒸馏框架,通过渐进引导蒸馏初始化 + 双流蒸馏(DMD + RFS-GAN 联合优化)+ 偏好引导精调,将多步视频超分模型压缩为单步生成器,实现约 50× 加速且超越先前单步 VSR 方法的视觉质量。

Dynamic-eDiTor: Training-Free Text-Driven 4D Scene Editing with Multimodal Diffusion Transformer

把多视角视频排成「相机×时间」网格,借助 MM-DiT 的双流自注意力在局部子网格里同时融合相邻视角和相邻时刻的特征,再用 token 继承 + 光流引导的 token 替换把这种一致性传播到整张网格,从而免训练地完成文本驱动的 4D 场景编辑,编辑后的帧直接优化预训练 4DGS。

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

DynaVid 提出利用计算机图形学渲染的合成光流(而非合成视频)来训练视频扩散模型,通过运动生成器+运动引导视频生成器的两阶段框架,实现了高度动态运动的逼真视频合成和精细相机控制。

DynFusion: Rethinking Condition Fusion for Adaptive Multi-Conditional Text-to-Image Generation

DynFusion 给 DiT 的每个 MMDiT block 插一个轻量门控模块 CAM,让模型按"当前去噪步、任务、注入位置"自己决定激活哪几个视觉条件(深度/边缘/主体/背景…),把静态"无脑堆叠所有条件"换成动态稀疏融合,在多条件生成上同时把 FID、可控性和推理 FLOPs 都做得更好(Subject-Insertion FID 5.14→4.53,FLOPs 16.21T→7.76T)。

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

提出 EDA 框架,将 EDM 的设计空间从纯高斯噪声扩展至任意噪声模式,通过多元高斯分布和多独立维纳过程驱动的 SDE 实现灵活噪声扩散,且证明噪声复杂度的提升不引入额外采样开销;仅用 5 步采样即可在 MRI 偏置场矫正、CT 金属伪影去除和自然图像阴影去除三项任务上取得媲美或优于百步 Refusion 和专用方法的效果。

EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing

EditMGT 是首个基于掩码生成式 Transformer(MGT)的指令图像编辑模型,利用 MGT「逐 token 翻转」的局部解码特性,用多层注意力聚合定位编辑区域、再用区域保持采样把低注意力区域 token 翻回原图,从而从机制上杜绝扩散模型的「编辑泄漏」,仅 960M 参数就在四个基准上拿到图像相似度 SOTA,且编辑速度比同档模型快 6×。

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

提出 EffectErase 框架,将视频物体插入作为移除的逆辅助任务进行联合学习,并构建包含 60K 视频对的大规模 VOR 数据集,实现对物体及其遮挡、阴影、反射、光照、变形等视觉副效应的高质量擦除。

Efficient and Training-Free Single-Image Diffusion Models

把"单张图片里所有 patch"当成一个有限数据集,证明在这个数据集上的去噪 score 有解析闭式解(一个类 non-local-means 的加权去噪器),从而把单图扩散模型彻底变成零训练——质量/多样性追平甚至超过要训几小时的 SinDDM/SinFusion,还能一秒生成百万像素、几分钟生成十亿像素。

Efficient Real-Time Raw-to-Raw Denoising for Extreme Low-Light Ultra HD Video on Mobile Devices

针对手机在 <1lx 极暗光下拍 4K/8K 视频噪声大、又必须满足 <33ms 延迟和 <250mA 功耗的难题,三星这篇论文给出一套从「混合数据集构建 → 轻量 mRLFB 去噪网络 → 蒸馏/重参数化/量化部署优化」的端到端工程方案,做出一个能直接插进商用 ISP 管线(raw 进 raw 出、保留 CFA)的实时去噪器,在骁龙 NPU 上 4K@30fps 运行,PSNR 与重型 SOTA 持平但延迟/功耗低一个数量级。

Efficient Weighted Sampling via Score-based Generative Models

针对"从 \(w(x)p(x)\) 这类加权分布中采样"的需求,本文提出 LAGS:在预训练扩散模型的 score 上加一个不含二阶导/Hessian的一阶引导近似,再用一个由误差理论推出的单参数时间调度器动态调引导强度,做到完全 training-free,在 SDXL 上比 SOTA 重采样方法快 1.2–4.7×且 PickScore 还更高。

EgoFlow: Gradient-Guided Flow Matching for Egocentric 6DoF Object Motion Generation

EgoFlow 提出一种基于 Flow Matching 的生成框架,通过 Mamba-Transformer-Perceiver 混合架构融合多模态场景条件,并在推理时用梯度引导采样施加可微的物理约束(碰撞避免、运动平滑性),从第一人称视频生成物理合理的 6DoF 物体运动轨迹,碰撞率降低高达 79%。

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

首次将 MeanFlow 框架从类别标签条件扩展到文本条件图像生成,发现限制步数下文本表示的语义区分性和解耦性是关键瓶颈,基于 BLIP3o-NEXT 文本编码器实现了高质量的少步/单步 T2I 生成。

EMMA: Concept Erasure Benchmark with Comprehensive Semantic Metrics and Diverse Categories

提出 EMMA 基准,从五个维度(擦除能力、保留能力、效率、质量、偏见)共 12 个指标系统评估 T2I 模型的概念擦除方法,覆盖 206 个概念类别和 5 个领域,首次揭示现有方法在隐式提示下的浅层擦除本质和偏见放大问题。

EmoStyle: Emotion-Driven Image Stylization

EmoStyle 提出"情感驱动图像风格化(AIS)"新任务——只用一个情感词(如"恐惧""敬畏")就把内容图渲染成既保内容、又能激起目标情绪的艺术风格图,靠一个情感-内容推理器把情感和内容融成风格查询、再用风格量化器把连续特征离散成"每种情感一本"的风格码本,最终在 Emo-A 指标上从次优的约 24% 拉到 33.36%。

EMR-Diff: Edge-aware Multimodal Residual Diffusion Model for Hyperspectral Image Super-resolution

EMR-Diff 把"低分辨高光谱图 + 高分辨多光谱图"融合成"高分辨高光谱图"的任务重写成一个扩散过程:让马尔可夫链的起点和终点之间传递的不再是纯高斯噪声而是多模态残差(把采样步数从上千步压到 5 步),再用 HR-MSI 的边缘信息调制噪声让模型专注重建高频细节,配合双路 BAF-UNet,在 ICVL/Harvard/Chikusei 三个数据集的 PSNR、SAM 等指标上全面超过 10 个 SOTA。

Enhancing Spatial Understanding in Image Generation via Reward Modeling

构建 80K 对抗性偏好数据集 SpatialReward-Dataset,训练专门评估空间关系准确性的奖励模型 SpatialScore(准确率超越 GPT-5),并用 top-k 过滤策略结合 GRPO 在线 RL 显著提升 FLUX.1-dev 的空间生成能力。

Erasing Thousands of Concepts: Towards Scalable and Practical Concept Erasure for Text-to-Image Diffusion Models

ETC 把每个概念建模成文本嵌入上的 Student-t 混合分布,用仿射最优传输把目标概念映射到一个"匿名"分布、并从分布边界自动采样锚点(免去人工挑锚点),再用一个 MoE 擦除模块 MoEraser 配合"噪声注入-恢复"训练,在 SDv1.4 / SDv3.5-L 上一次性擦除 2000+ 个跨域概念且能抵抗"删模块"的白盒攻击,规模和精度都刷到 SOTA。

Evaluating Generative Models via One-Dimensional Code Distributions

把生成模型的评估战场从「连续识别特征」搬到「离散视觉 token」上——用 1D tokenizer 把图像量化成 token 序列,再在 token 统计空间里设计一个训练-free 的分布距离(CHD)和一个自监督学习的无参考质量分(CMMS),两者在多个人类偏好基准上都拿到了与人评最高的相关性。

Expand and Prune: Maximizing Trajectory Diversity for Effective GRPO in Generative Models

针对 GRPO 对齐生成模型时"大 group 才有效、但大 group 算不起"的两难,本文发现采样轨迹普遍向组均值奖励塌缩(reward clustering)导致优势信号失效,提出 Pro-GRPO:在去噪过程中用单步 ODE 预览提前估出每条轨迹的代理奖励,按"最大方差"准则动态剪枝早停,配合"先扩展再修剪"(Expand-and-Prune)的调度,在不付出大 group 计算代价的前提下最大化轨迹多样性,于扩散与流匹配两类 T2I 模型上同时取得更好的对齐效果和 1.26~1.41× 加速。

Exploring Conditions for Diffusion Models in Robotic Control

本文探索了如何用预训练文本到图像扩散模型的条件机制为机器人控制生成任务自适应的视觉表示,发现文本条件在控制环境中因域差距而无效,提出 ORCA 框架通过可学习的任务提示词(task prompts)和逐帧视觉提示词(visual prompts)作为条件机制,在 DMC/MetaWorld/Adroit 三个基准的 12 个任务上达到 SOTA。

Exploring Spatial Intelligence from a Generative Perspective

本文提出"生成式空间智能"(GSI)概念——统一多模态模型在生成图像时遵守并操控 3D 空间约束的能力,并构建首个量化基准 GSI-Bench(真实集 GSI-Real + 合成集 GSI-Syn),通过空间锚定的图像编辑任务来评测;进一步证明仅用合成编辑数据微调 BAGEL,不仅大幅提升生成侧空间编辑能力,还能反向迁移增强模型的空间"理解"能力。

ExpPortrait: Expressive Portrait Generation via Personalized Representation

提出高保真度的个性化头部表征(静态身份偏移 + 动态表情偏移),解决 SMPL-X 等参数化模型表达力不足的问题,结合身份自适应表情迁移模块和 DiT 生成器,在人像视频自驱动和跨身份重演任务上取得 SOTA 表现。

FabricGen: Microstructure-Aware Woven Fabric Generation

FabricGen 把织物材质的生成拆成「宏观纹理」和「微观织造结构」两路——前者用微结构-free 数据微调的扩散模型生成无微结构的 albedo 图,后者用一个 LLM(WeavingLLM)从文本直接设计织造草图与纱线参数、再驱动增强版程序化几何模型合成纱线级微结构,最终融合渲染出比以往方法细节远更丰富、且符合织造规则的逼真织物。

Face2Scene: Using Facial Degradation as an Oracle for Diffusion-Based Scene Restoration

提出 Face2Scene 两阶段框架:先用参考人脸复原模型(Ref-FR)获得 HQ-LQ 人脸对,从中提取退化编码作为"oracle",再以此条件化单步扩散模型完成包含身体与背景的全场景图像复原。

FailureAtlas: Mapping the Failure Landscape of T2I Models via Active Exploration

不再用固定 prompt 集被动给 T2I 模型打分,而是把"找错"形式化为在 entity×attribute 组合空间上的结构化树搜索,靠规则剪枝 + 学习型优先级两招把天文数字级搜索压到可行,自动挖出 SD1.5 上 24.7 万个此前未知的"最小失败切片",并首次大规模佐证这些失败与训练数据稀缺相关。

FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain

FaithFusion 把"该不该改、改多少"这个像素编辑决策重新表述成像素级期望信息增益(EIG),用同一个 EIG 信号既引导扩散只在高不确定区域生成、又作为像素级 loss 权重把生成内容回灌进 3DGS,从而在变道等大视角偏移下同时拿到几何保真和外观可控,在 Waymo 上 NTA-IoU / NTL-IoU / FID 三项 SOTA(6 米变道仍保持 FID 107.47)。

FARMER: Flow AutoRegressive Transformer over Pixels

FARMER 把可逆的自回归流(AF)和自回归 Transformer(AR)端到端拼成一个框架,直接在原始像素上做生成与精确似然估计——用 AF 把图像变成隐序列、再让 AR 隐式建模这个序列的分布,并辅以自监督维度约简、一步蒸馏和重采样式 CFG,在 ImageNet 256×256 上把最可比的 JetFormer 的 FID 从 6.64 降到 3.60。

FastHybrid: Accelerating Hybrid Autoregressive Image Generation with Lookahead and Guided Decoding

针对「自回归 + 扩散头」混合图像生成里扩散去噪太慢的瓶颈,FastHybrid 用一个前瞻分支并行预解码未来若干 token + 一个自回归分支按余弦相似度校验纠偏,再用引导扩散采样把校验后 token 的去噪步数从 100 步压到 10 步,免训练地把 MAR 推理最高加速 1.97×,FID 仅退化约 0.11。

FEAT: Fashion Editing and Try-On from Any Design

FEAT 把"从任意图片(艺术画、自然照、抽象图)取设计灵感 + 给整套穿搭(含配饰)做虚拟试穿"两件事合在一个扩散框架里完成:用 DDI 把图片提示里的内容(形状轮廓)和风格(颜色纹理)拆开、分别注入 U-Net 不同注意力块来抑制内容泄漏,再用无训练的 OGNF 通过正交投影抹掉原有衣物、并对三类区域施加不同的噪声策略来合成新单品,在草图保真度、提示一致性和真实感上全面超过现有方法。

Few-shot Acoustic Synthesis with Multimodal Flow Matching

提出 FLAC,首个基于 flow matching 的少样本房间脉冲响应(RIR)生成框架,仅凭单次录音即可在未见场景中合成空间一致的声学响应,并引入 AGREE 联合嵌入用于几何-声学一致性评估。

Few-Step Diffusion Sampling Through Instance-Aware Discretizations

针对扩散/Flow Matching 采样里"所有样本共用一套时间步离散"的次优问题,本文提出 INDIS:训练一个轻量网络 \(\phi(\mathbf{x}_T, \mathbf{c})\),为每个初始噪声和条件生成专属的时间步离散方案,在几乎零推理开销下把 3~7 步采样的 FID 显著拉低(CIFAR10 NFE=3 从 16.5 降到 9.3)。

FG-Portrait: 3D Flow Guided Editable Portrait Animation

提出 FG-Portrait,通过引入基于 FLAME 参数化 3D 头部模型直接计算的「3D 光流」作为无需学习的几何驱动运动对应关系,结合深度引导采样的 3D 光流编码作为扩散模型 ControlNet 的运动条件,显著提升驱动运动迁移精度(APD 降低 22%+),还支持推理时的表情和头部姿态编辑。

Fine-Grained GRPO for Precise Preference Alignment in Flow Models

G²RPO(Granular-GRPO)把 flow 模型 GRPO 训练里"每步都注入 SDE 噪声、再把终点奖励均摊回每步"的稀疏奖励范式,改成"只在单步注入随机、其余步骤走确定性 ODE",并对同一去噪方向用多种去噪粒度算优势再融合,从而给每个采样方向打出更准、更全面的奖励信号,在 Flux.1-dev 上把 HPS、ImageReward、Unified Reward 等多个 in-/out-domain 指标都刷过了 DanceGRPO 和 MixGRPO。

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

FINE 是一种扩散模型的预训练方法:它把每层权重写成 \(U_\star \Sigma^{(l)}_\star V_\star^\top\),让跨层共享的奇异向量 \(U_\star, V_\star\)(称作 learngene)承载与尺寸无关的知识,只用层专属的奇异值 \(\Sigma^{(l)}_\star\) 适配各层——于是面对任意目标尺寸时,只需冻结 learngene、轻量重训 \(\Sigma\)(约 0.3K 步 vs. 300K 步全量预训练)就能直接初始化,在 ImageNet 可变深度 DiT 上 FID 最多降低 4.89。

Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

Flash-DMD 把分布匹配蒸馏(DMD)的两个损失按时间步解耦——高噪声步用 DM loss 学全局结构、低噪声步用基于 SAM 的 Pixel-GAN 抠真实感纹理,再把一套专为少步模型设计的偏好强化学习和蒸馏同时进行,结果只用 DMD2 约 2.1% 的训练成本就把 SDXL 蒸成 4 步生成器,人类偏好分还反超教师模型。

FlashDecoder: Real-Time Latent-to-Pixel Streaming Decoder with Transformers

针对实时视频生成中"去噪已经够快、但卷积解码器把潜变量解回像素这一步反而成了瓶颈"的问题,FlashDecoder 用一个纯 Transformer 解码器逐帧把 latent 解码成像素,每帧只通过定长滚动 KV cache 看最近 \(W_{\text{frm}}\) 帧,从而做到恒定延迟、显存不随视频长度增长,在 1080p 上重建质量追平卷积解码器(41.55 vs. 41.49 dB PSNR)的同时吞吐快 3.6×–4.7×、显存省最多 11×。

FlashIn: Fast and Accurate Image Inversion for Real-time Image Editing

FlashIn 用一个可学习的神经网络把图像直接一步映射回它的种子噪声,配合"生成数据 + 循环一致损失"提供显式监督、再用对抗训练补回细节,从而把扩散图像反演从 30~50 步压到 1~4 步,在 PIE-Bench 上以约 1 秒/张的代价拿到 SOTA 的背景保持与编辑保真度。

Flow Map Distillation Without Data

把预训练 flow/扩散教师蒸馏成"一步出图"的 flow map,传统做法要从外部数据集采样,本文指出这会引入 Teacher-Data Mismatch(数据分布≠教师真实生成分布),改为只从先验噪声采样、用"预测+校正"双目标让学生骑在教师向量场上,在 ImageNet 256/512 上以 1-NFE 拿到 FID 1.45 / 1.49,超过所有用数据的蒸馏基线。

Flow Matching for Multimodal Distributions

当用视觉基础模型(DINOv2-B)当 tokenizer 时,潜空间天然呈"多个流形并集"的多峰结构;本文用拟合到目标分布的高斯混合(GMM)当源分布、再按"最近的模"做数据配对(mode coupling),让概率质量只在局部搬运,从而把流匹配训练收敛速度提了 30×、采样步数省到 1/5,在 ImageNet256 无条件生成上做到 FID=2.74(80 epoch)。

FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing

FlowDC 把含多个编辑目标的复杂文本拆成一串递进式子 prompt,沿平行编辑轨迹算出各目标的"编辑方向"并正交化成一组基,再把原始编辑速度投影到这组基上、保留落在子空间内的成分、衰减正交于编辑方向的成分,从而在单轮内同时做到多目标语义对齐与源图一致性。

FlowFixer: Towards Detail-Preserving Subject-Driven Generation

FlowFixer 是一个「模型无关、零文本提示」的精修器:它不重新生成场景,而是拿任意主体驱动生成(SDG)模型吐出的图当输入、原始主体图当参考,用纯图到图的双流扩散把丢失的 logo、文字、纹理这些高频细节补回来;训练数据靠「一步去噪」自监督地把干净图退化成「只坏细节、不坏布局」的伪配对,再配上基于关键点匹配的免真值评测指标(AKI / KGain),在三种主流 SDG 主干上把主体保真度刷到新高(平均 KGain 77.3%,人评胜率压倒一切对手)。

FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories

FlowSteer 通过让学生模型沿教师真实生成轨迹(而非线性插值)学习,给 ReFlow/PeRFlow 这条被忽视的少步蒸馏路线补上在线轨迹对齐(OTA)+ 轨迹级对抗蒸馏 + 修正调度器三块短板,在 SD3 上 4 步生成质量超过 PCM、Hyper-SD、Flash Diffusion 等主流蒸馏方法。

FontCrafter: High-Fidelity Element-Driven Artistic Font Creation with Visual In-Context Generation

FontCrafter 将艺术字体生成重新定义为视觉上下文生成任务,通过将参考元素图像与空白画布拼接并输入预训练修复模型(FLUX.1-Fill),实现高保真的元素驱动字体创建,在纹理和结构保真度上显著超越现有方法。

Forecast the Principal, Stabilize the Residual: Subspace-Aware Feature Caching for Diffusion Transformers

针对扩散 Transformer(DiT)的训练无关特征缓存做了一个关键观察——特征空间里只有低秩主子空间随时间平滑可预测、高频残差子空间则抖动难测,于是用 SVD 把特征拆成两部分、对主子空间做 EMA 外推、对残差直接复用,在 FLUX 和 HunyuanVideo 上做到近乎无损的 5.55× 加速。

FRAMER: Frequency-Aligned Self-Distillation with Adaptive Modulation Leveraging Diffusion Priors for Real-World Image Super-Resolution

FRAMER 提出频率对齐的自蒸馏训练框架,通过将最终层特征图作为教师监督中间层,并按低频/高频分别施加 IntraCL 和 InterCL 对比损失,配合自适应权重调节(FAW)和对齐门控(FAM),在不改变网络结构和推理流程的情况下,显著提升扩散模型在真实图像超分辨率任务的高频细节恢复能力。

FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing

FreqEdit 发现"多轮指令编辑会逐轮崩坏"的根因是高频信息在迭代中持续流失,于是在去噪早期用上下文图构造一条参考速度场、把它的高频小波分量按空间自适应地注入到编辑速度场里,再配上路径补偿和质量引导,做到一个免训练框架就能让 FLUX.1 Kontext / Qwen-Image 稳定编辑 10+ 轮而不变形。

Frequency-Aware Flow Matching for High-Quality Image Generation

FreqFlow 通过在流匹配框架中显式引入频域感知条件,采用双分支架构分别处理低频全局结构和高频细节信息,在 ImageNet-256 上以 1.38 FID 达到 SOTA。

From Inpainting to Layer Decomposition: Repurposing Generative Inpainting Models for Image Layer Decomposition

本文观察到图像图层分解(layer decomposition)与图像修复/外绘(inpainting/outpainting)任务之间的内在联系,提出 Outpaint-and-Remove 方法,通过轻量级 LoRA 微调将预训练的 inpainting DiT 模型(FLUX.1-Fill-dev)高效适配为图层分解模型,同时引入多模态上下文融合模块保留细节,仅用 10 万合成训练数据即达到 SOTA 性能。

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

针对"把面向文生图的 Image-CoT 直接搬到图像编辑会浪费算力"的问题,本文提出 ADE-CoT:用编辑难度动态分配采样预算、用"编辑区域+指令一致性"专用验证器替代笼统的 MLLM 打分做早期剪枝、再用深度优先的"够用即停"机制砍掉冗余采样,在三个 SOTA 编辑模型上相比 Best-of-N 拿到更好画质的同时提速 2× 以上。

From Sketch to Fresco: Efficient Diffusion Transformer with Progressive Resolution

Fresco 用一个「坐标绑定的统一噪声场」+「按 token 方差自适应渐进上采样」替换掉传统动态分辨率采样里那套割裂的逐阶段重加噪,让低分辨率草图和高分辨率精修朝同一个目标收敛,免训练地把 FLUX 加速 10×、HunyuanVideo 加速 5×,且和蒸馏/特征缓存正交、叠加后可达 22×。

Functional Mean Flow in Hilbert Space

把"一步生成"的 Mean Flow 从有限维欧氏空间搬到无限维 Hilbert(函数)空间,用两参数流的 Fréchet 导数重建了平均速度场的训练目标,并提出更稳定的 x1-prediction 变体,使时间序列、图像、PDE、3D 形状等各种函数型数据都能用单步采样高质量生成。

Fusion in Your Way: Aligning Image Fusion with Heterogeneous Demands via Direct Preference Optimization

DPOFusion 把 LLM 里的直接偏好优化(DPO)搬到红外-可见光图像融合上,先用一个属性对齐的潜空间扩散模型生成多样化融合候选,再用「实例级 DPO」只在感兴趣区域做偏好微调、区域外强制和参考模型保持一致,从而用一套框架同时满足人类、VLM、检测、分割四类异质偏好。

FVAR: Next-Focus Prediction for Visual Autoregressive Modeling

FVAR 把视觉自回归(VAR)的「next-scale prediction」改写成「next-focus prediction」——用物理一致的离焦核构建从模糊到清晰的金字塔,从源头消除均匀下采样带来的混叠(锯齿/摩尔纹),再用一个只在训练期存在的高频残差教师把混叠信息蒸馏给原版 VAR 学生网络,做到推理零额外开销且在 ImageNet 上把 FID 全面压过 VAR / M-VAR。

Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

提出 Garments2Look,首个大规模多模态整套搭配级虚拟试穿数据集(80K 对,40 类,300+ 子类),每组包含 3-12 件参考服饰图、模特穿搭图和详细文本标注,揭示现有方法在多层搭配和配饰一致性上的重大不足。

Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

针对线性注意力扩散模型(如 SANA)上做可控生成时 ControlNet 不适配非对齐条件、OminiControl 在空间对齐任务收敛极慢的问题,本文提出 GateControl——用「共享主干 + 块内统一交互 + 一个 0.09M 参数的 token 级门控」三件套,在仅增加约 1.18% 可训练参数的前提下,把空间任务的收敛提速 10× 以上,同时统一支持空间对齐(Canny/深度/上色)与非对齐(主体驱动)两类条件。

GDRO: Group-level Reward Post-training Suitable for Diffusion Models

GDRO 把 LLM 里的群组奖励(GRPO)对齐思路搬到 rectified flow 扩散模型上,但用 DPO 式的"隐式奖励函数"在任意噪声时间步直接计算奖励,从而做到完全离线训练(不用反复在线采样)和采样器无关(不用把 ODE 近似成 SDE),在 OCR / GenEval 文生图任务上以 2–3.7× 的效率逼近甚至超过 Flow-GRPO,同时显著缓解 reward hacking。

GenColorBench: A Color Evaluation Benchmark for Text-to-Image Generation

GenColorBench 是首个系统评测文生图(T2I)模型「颜色精确度」的基准,用 ISCC-NBS / CSS3-X11 色系和 RGB/hex 数值色构造了 4.4 万条提示词、5 类颜色任务,并用一条「不依赖 VLM、基于色彩科学主导色 + ΔE」的评测流水线,揭示出当前 SOTA 模型在精确控色上普遍很弱(多数任务 <50%)。

GenErase: Generalizable and Semantically-Aware Concept Erasure in Diffusion Models

GenErase 是一种训练无关、纯推理期的扩散模型概念擦除框架,它在跨注意力值(CA-V)空间里用「逐 token 保留投影 + 硬几何门控 + 正交擦除-回填」三件套,把目标概念(名人、版权角色、NSFW 等)从生成结果里精准抹掉,同时不伤无关内容,且对释义/别名/上下文变化的提示也能稳定生效。

GeoRelight: Learning Joint Geometrical Relighting and Reconstruction with Flexible Multi-Modal Diffusion Transformers

GeoRelight 把"人像重光照"和"3D 几何重建"塞进同一个多模态扩散 Transformer 里联合去噪——用一个 VAE 友好的无畸变深度表征 iNOD 让 3D 几何能进潜空间、再用合成+自动标注真实数据的混合训练弥合 sim-to-real gap,单图就能同时拿到照片级重光照、内在反照率、法线和高保真 3D 形状,且在重光照、几何、内在估计三项上全面超过各自的专用 SOTA。

GeoRK2: Geometry-Guided Runge-Kutta Integration for Diffusion Transformer Acceleration

GeoRK2 把扩散 Transformer 的少步采样重新建模为「在特征协方差诱导的黎曼流形上做二阶 Runge-Kutta 积分」,用免训练、即插即用的「预测-校正」模块替换原采样器的数值更新,在 ImageNet/FLUX/HunyuanVideo 上实现 4–5× 加速且 FID 几乎不掉(ΔFID≈0.81)。

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

提出 GlyphPrinter,通过构建区域级字形偏好数据集 GlyphCorrector 和区域分组 DPO(R-GDPO)目标函数,在不依赖显式奖励模型的情况下显著提升视觉文本渲染的字形准确度,并引入推理时 Regional Reward Guidance 实现可控生成。

Goal-Driven Reward by Video Diffusion Models for Reinforcement Learning

提出 GenReward 框架,利用预训练视频扩散模型生成目标条件视频,通过视频级和帧级两层目标驱动奖励信号引导强化学习智能体,无需手工设计奖励函数即可在 Meta-World 机器人操控任务上显著超越基线。

gQIR: Generative Quanta Image Reconstruction

将大规模 text-to-image latent diffusion model 适配到单光子雪崩二极管(SPAD)的极端光子受限成像场景,通过三阶段框架(Quanta-aligned VAE → 对抗微调 LoRA U-Net → FusionViT 时空融合)实现从稀疏二值光子检测到高质量 RGB 图像的重建,在 10K-100K fps 极端条件下显著超越所有现有方法。

GrOCE: Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models

GrOCE 提出基于动态语义图的免训练概念擦除框架,通过构建语义图→自适应聚类识别→选择性切除三个协同组件,实现对文本到图像扩散模型中目标概念的精确、上下文感知的在线移除。

Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration

扩散模型在推理时一直是逐张独立生成的,本文让一组语义相近的图像在去噪时通过跨样本注意力互相"参考"对方的 patch,仅靠重排 token 这一改动就在 ImageNet-256 上把 SiT-XL/2 的 FID 提升了 32.2%。

Group Editing: Edit Multiple Images in One Go

本文提出 GroupEditing,将一组相关图像重构为伪视频帧,结合 VGGT 提供的显式几何对应和视频模型的隐式时序先验,通过 Ge-RoPE 和 Identity-RoPE 两种增强位置编码实现跨视角一致的群组图像编辑,在视觉质量、编辑一致性和语义对齐上显著优于现有方法。

GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping

本文发现 FlowGRPO 在用 GRPO 微调流匹配模型时,重要性比率分布系统性左移且各去噪步方差不一致,导致 PPO 裁剪对"过自信的正样本"完全失效、模型陷入隐性奖励作弊;GRPO-Guard 用 RatioNorm 把比率标准化回均值 1、再用 \(1/dt\) 梯度重加权均衡各步梯度,在不依赖重 KL 正则的前提下显著缓解过优化、保住生成质量。

Guiding a Diffusion Model by Swapping Its Tokens

本文提出 Self-Swap Guidance (SSG),一种无需条件信息的扩散模型采样引导方法,通过在模型中间表示空间中选择性地交换语义最不相似的 token 对来构造扰动版本,相比 SAG/PAG/SEG 等方法在更宽的引导强度范围内稳定生成高保真图像,在条件和无条件生成上均取得最优 FID。

Guiding a Diffusion Transformer with the Internal Dynamics of Itself

本文提出 Internal Guidance (IG),通过在 Diffusion Transformer 的中间层添加辅助监督损失使其产生较弱的生成输出,然后在采样时外推中间层和深层输出的差异来实现类似 Autoguidance 的引导效果,无需额外采样步骤或外部模型训练,在 ImageNet 256×256 上将 LightningDiT-XL/1 的 FID 推至 1.34(无 CFG)和 1.19(+CFG),达到同期 SOTA。

Guiding Diffusion Models with Fine-Grained Conditions and Semantics-Preserving Sampling for One-Shot Federated Learning

针对"单轮联邦学习(OSFL)下用预训练扩散模型造数据,但条件太粗、合成数据保真度和多样性都不够"的问题,本文提出 Espresso:客户端先做类内聚类、为每个子模式直接学一个细粒度条件嵌入,再用 GMM 建模隐空间初始噪声分布 + Z-Sampling 自反思采样把条件语义更充分地注入生成过程,最终在 DomainNet/PACS/NICO++ 三个异构数据集上把全局模型精度刷到 SOTA。

Guiding Diffusion Models with Semantically Degraded Conditions

提出 Condition-Degradation Guidance (CDG),用语义退化的条件 \(\boldsymbol{c}_{\text{deg}}\) 替代 CFG 中的空提示 \(\emptyset\),将引导从粗粒度"好 vs. 空"转变为细粒度"好 vs. 差一点"的对比,通过分层退化策略(先退化内容 token 再退化上下文聚合 token)构建自适应负样本,在 SD3/FLUX/Qwen-Image 等模型上即插即用地提升组合生成精度,几乎零额外开销。

Guiding Token-Sparse Diffusion Models

针对"token 稀疏训练的扩散模型对 CFG 几乎不响应"这一痛点,本文提出 Sparse Guidance(SG):在推理时用两个不同的 token 稀疏率跑出一强一弱、都带条件的预测,靠两者的"容量差"取代 CFG 里的无条件分支来引导生成,无需任何 dense 微调即在 ImageNet-256 上拿到 1.58 FID 并省 25% FLOPs,且在 2.5B 文生图模型上同样有效。

Harmonic Canvas: Inversion-Free Editing for Visually-Guided Music Style Transfer

本文把"图像氛围"当作音乐风格的第三种条件,提出一个基于无反演(inversion-free)flow 编辑的多模态音乐风格迁移框架:用 CLIP+ViT 双编码器经 cross-adapter 把视觉/文本线索注入音频 DiT 骨架,再用可微的归一化 chroma 约束在 flow 轨迹上"拉回"音高结构,从而在大幅换风格的同时保住源曲旋律,FAD/IMSM 等指标全面超过现有文本/音频条件的方法。

Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Harmony 把"音频驱动视频 / 视频驱动音频"这两个单向干净信号的辅助任务和联合生成主任务一起训练,再配上一个把"时序对齐"和"全局风格"拆开处理的解耦交互模块、以及一个用"静音/静止"作负锚点专门放大同步信号的 SyncCFG,让开源音视频联合生成第一次在精细唇形/动作同步上稳定打过 Ovi、UniVerse-1。

Head-wise Adaptive Rotary Positional Encoding for Fine-Grained Image Generation

HARoPE 在 Transformer 旋转位置编码(RoPE)的旋转映射之前为每个注意力头插入一个用 SVD 参数化的可学习线性变换 \(A_h=U_h\Sigma_h V_h^\top\),在严格保留 RoPE「注意力只依赖相对偏移」性质的前提下,让旋转平面对齐语义子空间、允许跨轴耦合、并赋予每个头各自的位置感受野,作为即插即用替换显著提升细粒度图像生成(ImageNet、Flux、SD3)的空间关系、颜色与计数能力。

Heterogeneous Decentralized Diffusion Models

提出异构去中心化扩散框架,允许不同专家使用不同扩散目标(DDPM ε-prediction 与 Flow Matching velocity-prediction)完全独立训练,在推理时通过确定性 schedule-aware 转换统一到速度空间进行融合,相比同构基线同时提升 FID 和生成多样性,并将计算量压缩 16 倍。

HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning

面对"多主体 + 分层属性"的复杂 prompt,HiCoGen 不再让扩散模型一口气画完,而是用 LLM 把 prompt 拆成最小语义单元、按"合成链(Chain of Synthesis)"一个一个画并把已生成图当作下一步的视觉上下文逐步拼装,再配上分层奖励 + 衰减随机性调度的 GRPO 强化学习,把概念覆盖率(Acc\(_{exist}\) 0.71)和组合准确率显著拉到现有 T2I/主体驱动模型之上。

HierEdit: Region-Aware Hierarchical Diffusion for Efficient High-Resolution Editing

HierEdit 用"低分辨率先编辑、再把改动搬回高分辨率"的层级思路,只对被编辑的局部窗口做稀疏注意力,从而在 不需要任何 4K 训练数据 的情况下实现 4K 局部编辑,并在 1K 分辨率上比现有方法快 6 倍以上。

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

提出 HiFi-Inpaint 框架,通过共享增强注意力(SEA)利用高频信息增强产品细节特征,结合细节感知损失(DAL)实现像素级高频监督,在人-产品图像生成中达到 SOTA 的细节保真度。

High-Fidelity Diffusion Face Swapping with ID-Constrained Facial Conditioning

提出身份约束的属性调优框架用于扩散模型人脸替换:先约束身份解空间,再注入属性条件,最后端到端精炼身份损失和对抗损失,结合解耦条件注入设计,在 FFHQ 上实现 SOTA 的 FID(3.61)和身份检索准确率(97.9% Top-1)。

High-Fidelity Virtual Try-On beyond Paired Data Scarcity via Diffusion-based Cycle-Consistent Learning

CCVTON 用一个统一扩散 Transformer 同时学会"脱衣"(try-off)和"穿衣"(try-on),把海量无标注的真实人像照片组织成"脱了再穿回去"的重建循环来训练,从而摆脱对稀缺配对数据的依赖,并配套一个两阶段服装感知掩码机制抑制原服装泄漏,在 VITON-HD 和 DressCode 上取得 SOTA。

Hint2Gen: Bridging Understanding and Generation via Code-structured Hints

统一图文模型解不了走迷宫、拼七巧板这类推理任务,但 VLM/LLM 其实"会推理只是不会画";本文把 VLM/LLM 的推理结果写成 SVG/HTML 代码、渲染成叠在图上的"提示图",作为连接理解与生成的可执行桥梁,既能零训练地塞给现成模型涨点,也能微调出专门吃这种提示的 Hint2Gen 模型,并配套 Reason2Gen 基准(3300 样本 / 22 类 / 7 维度),在所有维度上超过 GPT-Image、Nano Banana Pro 等开闭源系统。

Hist2Style: Histogram-Guided Stylization with Bilateral Grids

Hist2Style 把一个大型图像编辑模型蒸馏进一个仅 1.5M 参数的轻量网络,用「双边网格 + 颜色直方图条件」把风格迁移限制成局部仿射的色调/色彩变换,从而在保住内容结构、杜绝幻觉的同时,做到高分辨率实时、且用户可以直接拖动直方图交互调色。

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

本文提出 HP-Edit——一套面向图像编辑的人类偏好后训练框架:用少量人工打分数据微调一个基于 VLM 的自动评分器 HP-Scorer,再用它构建偏好数据集并充当奖励模型,通过 Flow-GRPO 在线后训练把预训练编辑模型(如 Qwen-Image-Edit-2509)对齐到人类偏好,同时配套发布 RealPref-50K 数据集与 RealPref-Bench 基准。

Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization

本文提出 IPRO,通过强化学习和可微分人脸身份评分器直接优化视频扩散模型,在不修改模型架构的情况下显著提升图像到视频生成中的人脸身份一致性,在 Wan 2.2 上实现了 20%-45% 的 FaceSim 提升。

IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbations

提出 IDperturb,一种在单位超球面上对身份嵌入进行角度扰动的几何采样策略,无需修改生成模型即可显著增强合成人脸数据集的类内多样性,提升下游人脸识别性能。

Illustrator's Depth: Monocular Layer Index Prediction for Image Decomposition

本文提出"插画师深度"(Illustrator's Depth)——一种把每个像素映射到图层索引而非物理深度的新概念,用一个基于 Depth Pro 的网络从单张光栅图直接预测这种全局一致的分层排序,从而把平面图像分解成可编辑、有序的图层,并在图像矢量化上大幅超越 SOTA,同时解锁文生矢量图、自动 3D 浮雕、深度感知编辑等下游应用。

Image Diffusion Preview with Consistency Solver

本文提出 Diffusion Preview 范式和 ConsistencySolver——一个基于强化学习训练的轻量级高阶 ODE 求解器,在低步数采样时生成高质量预览图像并确保与全步数输出的一致性,用 47% 更少的步数达到与 Multistep DPM-Solver 相当的 FID,用户交互时间减少近 50%。

Image Generation from Contextually-Contradictory Prompts

文生图扩散模型在遇到"上下文矛盾"提示(如"蝴蝶在蜂巢里",蝴蝶被模型与花强绑定从而与蜂巢冲突)时常常画错,本文提出免训练的 Stage-Aware Prompting(SAP):用 LLM 把目标提示分解成一串"代理提示 + 时间步区间",按扩散去噪"由粗到细"的进程在不同阶段注入不同提示,从而在不重训的情况下显著提升语义对齐。

ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models

ImageRAGTurbo 把"检索增强生成(RAG)"搬进一步扩散模型:给定文本 prompt,先从数据库检索相关的"文本-图像对",再用一个轻量的 H-space cross-attention adapter 把检索内容融进 UNet 去噪器的深层特征空间,从而在几乎不增加延迟(116.7ms vs 113.8ms)的前提下,把一步生成的文本对齐度(TIFA 0.779→0.801、CLIP +1.37%)拉到接近 50 步教师模型的水平。

Imagine Before Concentration: Diffusion-Guided Registers Enhance Partially Relevant Video Retrieval

本文提出 DreamPRVR,采用"先想象后集中"的粗到细策略:通过截断扩散模型在文本监督下生成全局语义注册令牌(registers),然后将其融合到细粒度视频表征中,有效抑制局部噪音响应,在三个 PRVR 基准上取得了 SOTA。

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

iMontage 把预训练视频扩散模型(HunyuanVideo)改造成"接受任意张参考图、按指令吐出任意张高动态输出图"的统一生成器,靠一套几乎不动原网络的 Marginal RoPE(把输入/输出图当作视频序列两端的"伪帧")保住运动先验、又打破连续帧的动态局限,在图像编辑、多对一生成、故事板生成上拿到开源最优。

Improved Mean Flows: On the Challenges of Fastforward Generative Models

论文诊断出 MeanFlow(一步生成框架)的两个病根——训练目标依赖网络自身、CFG 引导尺度训练前被写死——并分别用"把目标重写成网络无关的 v-loss + 用预测的边际速度当 JVP 输入"和"把引导尺度当作可变条件 + 多 token in-context 条件注入"对症下药,得到的 iMF 在 ImageNet 256×256 上单次函数评估(1-NFE)从零训练拿到 1.72 FID,比原 MeanFlow 相对提升约 50%,逼近多步方法且全程不蒸馏。

Improving Controllable Generation: Faster Training and Better Performance via x0-Supervision

本文指出 ControlNet 这类可控生成方法沿用底模的 \(\epsilon\)-监督损失其实是次优的——因为 \(\epsilon\)-损失等价于按信噪比加权的 \(x_0\)-损失,会把决定全局布局的早期去噪步几乎压成零权重;改成直接监督干净图像 \(x_0\)(即去掉这个加权),在 ControlNet / T2I-Adapter / GLIGEN / OminiControl 上把收敛速度最高加快约 2×(用作者新提的 mAUCC 指标衡量),同时画质和控制保真度也一起提升。

Improving Diffusion Generalization with Weak-to-Strong Segmented Guidance

把扩散采样里的引导方法统一在"弱到强(weak-to-strong, W2S)"视角下分成"条件相关引导(CDG,如 CFG)"和"条件无关引导(CAG,如 AG/SLG)"两类,用合成实验刻画各自的有效区间,进而提出按噪声水平切换两类引导的 SGG(Segmented Guidance),并把这一原则进一步迁移进训练目标,让无引导模型本身的泛化能力变强。

IncreFA: Breaking the Static Wall of Generative Model Attribution

把"判断一张图由哪个生成模型产出"这个静态分类问题,重新定义成增量归因(incremental attribution):用层次正交先验编码生成模型的"家族血缘"、用潜空间记忆库做回放并混合出伪未见样本,让归因系统能随新模型不断涌现持续学习而不遗忘,在覆盖 28 个生成模型的新基准 IABench 上拿到 SOTA 归因精度与 98.93% 的未见检测率。

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

提出 InnoAds-Composer,一个基于 MM-DiT 的单阶段电商海报生成框架,通过统一 token 化将商品主体、字形文本和背景风格三类条件映射到同一空间,结合文本特征增强模块(TFEM)和重要性感知条件注入策略,在保持高质量生成的同时显著降低推理开销。

InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization

把单图指令编辑器(InstructPix2Pix)的编辑能力通过 SDS 蒸馏进一个预训练多视角扩散模型(SEVA)里,用后者自带的数据驱动 3D 先验当"整合器",从而在只有几张稀疏视角图的情况下也能做出跨视角一致的图像编辑。

Inter-Edit: First Benchmark for Interactive Instruction-Based Image Editing

针对"纯文本说不准位置、精确 mask 又太累"的图像编辑困境,本文提出 I3E 任务(简洁指令 + 不精确空间涂鸦),构建了百万级自动合成训练集 Inter-Edit、6,250 条人工标注测试集和一套位置感知评测指标,并给出 RNI/CIA/CJT 三个基线,在交互式编辑上大幅超越现有 SOTA(含闭源系统)。

Interpretable and Steerable Concept Bottleneck Sparse Autoencoders

揭示了SAE中大多数神经元(~81%)的可解释性或可控性不足的问题,提出CB-SAE框架——通过裁剪低效用SAE神经元并增加概念瓶颈模块,在LVLM和图像生成任务上分别提升可解释性+32.1%和可控性+14.5%。

Interpretable Prompts made Edit-Friendly: Token-to-Token Similarity Reduction in dLLMs for Edit-Friendly Hard Prompt Inversion

针对"从参考图像反推出文生图提示词"这一任务,本文用离散扩散语言模型(dLLM)替换自回归束搜索做提示生成,再在采样过程里同时注入 CLIP 对齐奖励和一个全新的 token-token 相似度(解耦)奖励,让反演出来的提示既可读、又对齐参考图、还能在"换词/加词"这类局部编辑下稳定地只改对应内容,速度比硬提示反演基线快约 10×。

Intrinsic Concept Extraction Based on Compositional Interpretability

HyperExpress 提出组合可解释本征概念提取(CI-ICE)新任务,利用双曲空间的层次建模能力和等球面投影模块,从单张图像中提取可组合的物体级和属性级概念,实现可逆的复杂视觉概念分解。

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

IntroSVG 把一个统一 VLM 同时当作"生成器"和"评论家",让它在推理时渲染自己写的 SVG 代码、用视觉反馈自评打分再修正,并配合"从错误样本中构造训练数据 + DPO 对齐"的训练流程,在多项 Text-to-SVG 指标上达到 SOTA(RSR 99.26%、FID 26.18、Aesthetic 4.89)。

InverFill: One-Step Inversion for Enhanced Few-Step Diffusion Inpainting

针对"少步扩散模型做 inpainting 时随机高斯噪声初始化导致语义错位、修复区域与背景不协调"的问题,InverFill 训练一个单步反演网络把已知的掩码图像映射成一个"语义对齐"的噪声潜变量来替换随机噪声,再喂进现成的 blended sampling 管线,在仅 2–4 步、几乎零额外开销(+0.06s)下显著提升少步 inpainting 质量,甚至追平需要真实图像监督的专用 inpainting 模型。

It's Never Too Late: Noise Optimization for Collapse Recovery in Trained Diffusion Models

针对文生图扩散模型"同一 prompt 反复采样却几乎一模一样"的模式坍缩问题,本文不改模型、不改 prompt,而是直接对初始噪声做端到端梯度优化、让一组样本互相推开,再配合一个把能量压向低频的"粉红噪声"初始化,在几乎不损失图像质量的前提下大幅提升生成多样性。

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

提出 Just-in-Time (JiT) 框架,通过在空间域动态选择稀疏 anchor token 驱动生成 ODE 演化,并设计确定性 micro-flow 保证新 token 无缝激活,在 FLUX.1-dev 上实现最高 7× 加速且几乎无损。

Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing

给指令式图像编辑模型(Flux Kontext)额外接入一个标量「编辑强度」输入,通过一个轻量投影网络把强度+指令映射成 DiT 调制空间里的偏移量,从而在不为每种属性单独训练的前提下,让任意编辑都能从「不改」平滑过渡到「全力改」。

LacTokGen: Latent Consistency Tokenizer for 1024-pixel Image Generation by 256 Tokens

提出 LacTok 分词器,把离散视觉 token 对齐到预训练 LDM 的紧凑潜在空间,用一致性模型把 LDM 解码器从多步采样压成 1-2 步以做像素级监督,从而只用 256 个 token 就能重建/生成 1024×1024 图像(比 VQGAN 压缩 16×);再接一个自回归 transformer 即得文生图模型 LacTokGen。

Language-Free Generative Editing from One Visual Example

揭示文本引导扩散模型在雨、雾、模糊等简单视觉变换上存在严重的文本-视觉对齐失败,提出VDC框架——仅需一对视觉示例(变换前后)学习纯视觉条件信号来引导扩散编辑,无需文本、无需训练,在去雨/去雾/去噪等任务上超越文本和微调方法。

LaRP: Efficient Multi-View Inpainting with Latent Reprojection Priors

LaRP 把预训练的 2D 扩散修复模型改造成"天生 3D 感知"的多视图修复器——克隆一份 UNet 编码器去吃干净的参考视图、再用 3D 基础模型估计的相机位姿把参考特征几何重投影到目标视图后注入解码器,从源头就保证修复结果跨视图一致;得到的图甚至能用最朴素的重建损失训练 NeRF,做到新视图合成质量与 SOTA 相当却快约 50×。

Latent Diffusion Inversion Requires Understanding the Latent Space

本文指出潜空间扩散模型(LDM)的记忆化在隐空间里是空间非均匀的——VAE 解码器拉回度量(pullback metric)局部畸变越大的样本/维度被记得越牢,据此提出一个只依赖 VAE 几何的"按维度打分 + 掩掉低记忆维度"的过滤法,在六个数据集、四种成员推断攻击上一致把 AUROC 提升 1–4%、TPR@1%FPR 提升 1–32%。

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

LayerBind 提出一种免训练、即插即用的策略,把文生图 DiT(FLUX、SD3.5)的每个区域实例当作独立"图层",先在去噪早期利用联合注意力的上下文共享机制并行初始化各实例分支、再按图层顺序融合确立布局与遮挡,随后用逐层注意力增强和"层透明度调度器"精修细节,从而在不损画质的前提下实现精确的区域控制和遮挡顺序控制,并天然支持可编辑生成。

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

发现真实图像在冻结CLIP ViT中间层的特征表示呈现稳定的层间过渡,而合成图像在中间层出现显著的注意力突变,提出Layer Transition Discrepancy (LTD) 方法建模该差异,在UFD上mean Acc达96.90%,DRCT-2M上达99.54%,GenImage上达91.62%,全面超越SOTA。

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

提出 LeapAlign,通过构建两步跳跃轨迹将长生成路径缩短为两步,使奖励梯度可直接反向传播到早期生成步骤,结合轨迹相似性加权和梯度折扣策略实现 flow matching 模型的高效后训练对齐。

Learnability-Guided Diffusion for Dataset Distillation

提出可学习性驱动的增量式数据集蒸馏框架LGD,将蒸馏数据集分阶段构建,每阶段条件化于当前模型状态生成互补而非冗余的训练样本,通过在扩散采样中注入可学习性梯度引导,将现有方法80-90%的样本间信息冗余降低39.1%,在ImageNet-1K上达60.1%(50 IPC)、ImageNette上达87.2%(100 IPC)。

Learning Latent Proxies for Controllable Single-Image Relighting

提出 LightCtrl,一个基于扩散模型的单图重光照框架,通过小样本潜在代理编码器(few-shot latent proxy)提供轻量材质-几何先验、光照感知掩码引导空间选择性去噪、DPO 后训练增强物理一致性,实现对光照方向/强度/色温的精确连续控制,在合成和真实场景上均优于现有方法。

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

提出 VeilGen + DeVeiler 框架,通过物理引导的 Stable Diffusion 生成模型学习潜在透射率和眩光图以合成逼真的复合退化训练数据,并用可逆约束训练修复网络,实现简化光学系统中像差与雾化眩光的联合去除。

Learning Straight Flows: Variational Flow Matching for Efficient Generation

针对 Flow Matching 因独立耦合导致插值线交叉、学到的生成轨迹弯曲、需要多步 ODE 积分的问题,本文提出 Straight Variational Flow Matching (S-VFM):给速度场注入一个 VAE 编码的变分隐码 \(z\)("生成全局观")来消解交叉处的方向歧义,再用一个"直化目标"惩罚速度场沿轨迹的时间导数,从而端到端学出近似直线的轨迹,在 CIFAR-10 / ImageNet 256 上以更少 NFE 拿到有竞争力甚至更优的 FID。

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

提出 GvU,利用统一多模态模型(UMM)自身的视觉理解分支作为内在奖励信号,通过 token 级文图对齐概率构建自监督 RL 框架(基于 GRPO),在无外部监督下迭代提升 T2I 生成质量,GenEval++ 上实现 43.3% 提升,且生成增强反过来促进细粒度理解。

Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation

BPGO 给视觉生成的 GRPO 后训练加了一个"语义先验锚",用观测奖励与先验的偏差当不确定性信号,在组间做贝叶斯信任分配(可靠组放大、模糊组压制)、在组内做先验锚定的奖励重归一化(拉开自信偏差、压缩模糊分数),在文/图、文/视频、图/视频生成上比标准 GRPO 和 DanceGRPO 收敛更快、语义对齐更强。

LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration

提出 LESA 框架,用 KAN(Kolmogorov-Arnold Network)作为可学习时序预测器,结合多阶段多专家架构和两阶段训练策略,在 FLUX 上实现 5× 加速仅 1.0% 质量下降,在 Qwen-Image 上 6.25× 加速比 TaylorSeer 质量提升 20.2%,在 HunyuanVideo 上 5× 加速 PSNR 提升 24.7%。

Leveraging Multispectral Sensors for Color Correction in Mobile Cameras

提出一个统一的端到端色彩校正框架,联合融合高分辨率RGB传感器和辅助低分辨率多光谱(MS)传感器的数据,将光源估计、光源补偿和色彩空间转换整合在单一模型中,色彩误差(\(\Delta E_{00}\))相比纯RGB和MS基线降低高达50%。

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Edit-R1 提出"验证器式推理奖励模型"(RRM)来替代图像编辑里粗糙的整体打分——把编辑指令拆成可验证的"保持/遵循/质量"原则、用思维链逐条核验再聚合成细粒度分数;再配上一套能用成对偏好数据优化"点式推理奖励"的新 RL 算法 GCPO,把 7B RRM 提到 82.2% 偏好预测精度,最后当作 GRPO 的奖励信号去优化 FLUX.Kontext / Qwen-Image-Edit 等编辑模型,带来一致的质量提升。

Linear Image Generation by Synthesizing Exposure Brackets

针对"现有生成模型只能产出被 ISP 压缩过的 sRGB 显示图、缺乏后期编辑空间"的痛点,本文提出文本到线性图像生成任务,把一张高动态范围线性图拆成 4 张不同曝光的"曝光括号"子图、用基于 Flux 的流匹配 DiT 联合生成括号序列与辐照尺度,再融合成场景指代的线性图,FID 28.29 全面超过各类改造基线。

LoFA: Learning to Predict Personalized Prior for Fast Adaptation of Visual Generative Models

LoFA 用一个超网络在几秒内直接预测出"完整不压缩"的个性化 LoRA 权重——它先发现 LoRA 相对基模型权重的变化存在结构化的「响应图」模式,再用两阶段超网络先预测响应图、再用响应图引导预测最终 LoRA,从而在文本/姿态/风格/人脸等多种条件下达到甚至超过需要数小时逐例微调的传统 LoRA。

LogCD: Local-to-global Consistency Distillation for Few-step Image Generation

LogCD 用"先局部、后全局"两阶段一致性蒸馏,把 SDXL / FLUX.1-dev 这类大扩散/整流流模型压成统一的 2–4 步采样模型,全程不需要任何训练图片,仅 70 A100 小时就让 SDXL 在 3 步采样下达到 33.5 的 CLIP score,逼近 25 步教师模型。

Low-Rank Residual Diffusion Models

LRDM 发现"近域图像恢复"(去雨/去模糊/去阴影等源域与目标域已高度相似的任务)里,退化残差天然是低秩的,于是把扩散的前向过程约束在低秩残差子空间、反向过程保持全秩,并按时间步自适应调整秩,从理论上收紧变分下界、用更少采样步换来更好的恢复保真度。

Low-Resolution Editing is All You Need for High-Resolution Editing

ScaleEdit 首次提出高分辨率图像编辑任务,通过在预训练生成模型的中间特征空间学习 1×1 卷积迁移函数来注入源图像的精细纹理细节,配合基于 Blended-Tweedie 的分块同步策略保证全局一致性,以测试时优化方式实现 2K 甚至 8K 分辨率的高质量编辑。

LumiX: Structured and Coherent Text-to-Intrinsic Generation

LumiX 在 FLUX 扩散模型上提出"文本→内在图"(text-to-intrinsic)这一新任务:只给一句文本,就联合生成一整套像素对齐的内在图(颜色、反照率、辐照度、深度、法线);它靠两个设计——把颜色分支的 query 广播给所有内在图来保证结构一致的 Query-Broadcast Attention,以及用张量分解高效建模跨图关系的 Tensor LoRA——在对齐度上比 SOTA 高 23%、偏好分从 -0.41 提升到 0.19,且同一框架还能反过来做图像条件下的内在分解。

MacTok: Robust Continuous Tokenization for Image Generation

MacTok 用「在图像 token 上做掩码 + DINOv2 引导的语义掩码 + 全局/局部表征对齐」三招,治住了强压缩下 KL-VAE 连续 tokenizer 的后验坍塌问题,在 ImageNet 上只用 64/128 个 1D token 就拿到了 256→256 gFID 1.44、512→512 gFID 1.52 的(接近)SOTA 生成质量。

MagicFuse: Single Image Fusion for Visual and Semantic Reinforcement

针对"现实中往往只有可见光相机、没有红外相机"的痛点,本文提出"单图融合 (Single Image Fusion, SIF)"新范式:用两条扩散流分别从一张低质可见光图里强化可见光内知识凭空生成红外光知识,再在噪声层面把两者融合,得到一张兼顾人眼观感与下游语义决策的 MagImg——在只用单张退化可见光图的条件下,视觉/语义指标可与用红外-可见光配对输入的 SOTA 融合方法持平甚至反超。

MagicQuill V2: Precise and Interactive Image Editing with Layered Visual Cues

MagicQuill V2 把"用一句话提示编辑整张图"的范式拆成内容层 / 空间层 / 结构层 / 颜色层四类可独立叠加的视觉线索,在 FLUX Kontext 基础上用一套统一控制模块 + 因果调制注意力把这些线索精确注入扩散过程,配上一套像 Photoshop 一样的图层式交互界面,让用户对"画什么、放哪里、长什么样、什么颜色"做到逐项精确控制。

MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation

MakeAnything 用 Flux(DiT)的 in-context 能力,通过把"绘画/手工/烹饪"等创作过程的多帧排成网格、再用非对称 LoRA 微调,第一次实现了跨 21 个领域的"分步教程"生成,既支持文本→过程,也支持上传成品图反推制作步骤(ReCraft)。

MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models

提出 MapReduce LoRA 和 RaTE 两种互补方法来推进多偏好优化的 Pareto 前沿:前者通过"Map(并行训偏好专家)+ Reduce(迭代合并)"的策略渐进推进 Pareto 前沿;后者通过学习奖励感知的 token embedding 实现推理时可组合的偏好控制。

MapRoute: Semantic Routing for Precise Concept Erasure with Mapper

MapRoute 在冻结文本编码器之后插入一组轻量"Mapper"模块——每个 Mapper 通过两阶段训练学会一个"条件恒等映射"(把待擦除目标概念的 embedding 映射到代理概念、对其余概念保持恒等),推理时再用 top-K 语义路由按输入提示动态选择并串行施加相关 Mapper,从而在彻底擦除指定概念的同时几乎不损伤无关概念,在物体/名人/艺术风格/混合概念擦除上全面超过 MACE、UCE 等 SOTA。

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

将视觉自回归模型 (VAR) 从全上下文依赖的 next-scale prediction 重构为基于马尔可夫过程的 Markovian scale prediction,通过滑动窗口历史补偿机制实现非全上下文建模,在 ImageNet 上 FID 降低 10.5%、峰值内存减少 83.8%。

MaskFocus: Focusing Policy Optimization on Critical Steps for Masked Image Generation

MaskFocus 给掩码生成模型(MGM)设计了一套强化学习后训练框架:先用「中间图嵌入与最终图嵌入的余弦相似度变化」识别出对成像最关键的少数采样步,只在这些步上做策略优化以省掉整轨迹估计的高成本;再用「基于熵的动态路由采样」分流高/低熵样本平衡探索与利用,最终把开源 MGM Meissonic 的 GenEval 从 0.54 推到 0.76,多项指标逼近 FLUX。

Match-and-Fuse: Consistent Generation from Unstructured Image Sets

提出 Match-and-Fuse,首个面向非结构化图像集合的训练无关一致性生成方法。以图为节点、图对为边建立成对一致性图,通过多视角特征融合(MFF)和特征引导在扩散推理中操控内部特征,实现集合级跨图一致性,DINO-MatchSim 达 0.80 远超所有基线。

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

MatPedia 把"贴图 RGB + 四张 PBR 贴图"编码成一段 5 帧序列、套用视频扩散架构来联合建模,从而用单一模型统一文本生材质、图像生材质、内在分解三类任务,并能借助海量纯 RGB 图片训练,在原生 1024×1024 分辨率上超越此前专用方法。

MeanFlow Transformers with Representation Autoencoders

MeanFlow-RAE 把少步生成模型 MeanFlow 从传统 SD-VAE 潜空间搬到"表示自编码器(RAE)"的语义潜空间里训练,用一致性中训练(CMT)做轨迹感知初始化稳住梯度爆炸、用流匹配蒸馏(MFD)替代从零训练、再用有限差分省掉 JVP,最终在 ImageNet 256 上把单步生成 FID 从 vanilla MF 的 3.43 压到 2.03,同时采样 GFLOPS 降 38%、总训练成本降约 83%。

Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping

提出 DiT-BlockSkip 框架,通过时间步感知的动态补丁采样(低分辨率训练但动态调整裁剪范围)和基于交叉注意力分析的关键块选择+残差特征预计算的块跳过策略,在 FLUX 上将 LoRA 微调显存减少约 50%,同时维持与标准 LoRA 可比的个性化生成质量。

MERIT: Multi-domain Efficient RAW Image Translation

MERIT 是首个用单一模型完成多相机域 RAW-to-RAW 翻译的统一框架:靠风格嵌入条件化实现任意源域到任意目标域的转换,用传感器感知噪声建模损失显式对齐 Poisson-Gaussian 噪声统计,配合多尺度大核注意力增强 RAW 特征建模,并发布首个多域 RAW 基准 MDRAW,在画质(+5.56 dB PSNR)和可扩展性(训练迭代减少约 80%)上同时超过此前方法。

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

针对统一多模态模型做指令图像编辑时「CoT 要么太泛、要么太专」的困境,Meta-CoT 把任意单图编辑显式拆成「(任务, 目标, 所需理解能力)」三元组、再把任务进一步拆成 5 个可组合的「元任务」基,并用一个「CoT-编辑一致性奖励」做 RL 对齐,在 21 类编辑基准上比同数据同参数的无-CoT 基线整体提升 15.8%,且只训练 5 个元任务就能泛化到大量未见编辑任务。

MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition

针对"把多张参考图里的人/物/服饰/场景合成进一张连贯图像"(Multi-Image Composition, MICo)缺高质量训练数据的问题,本文用专有模型 Nano-Banana 配合 Compose-by-Retrieval 检索式提示、人在回路过滤与"分解-重组"流程,构建了 15 万级、含身份一致性的 MICo-150K 数据集与 MICo-Bench 评测集,并提出 Weighted-Ref-VIEScore 指标,多个开源 T2I 模型微调后 MICo 能力显著提升、甚至逼近闭源模型。

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

提出 MICON-Bench,覆盖 6 项任务(1043 案例)的多图上下文生成基准,配合 MLLM 驱动的 Evaluation-by-Checkpoint 自动评估框架;同时提出 DAR(Dynamic Attention Rebalancing)训练无关机制,通过动态调整推理时注意力权重提升 UMM 的多图生成一致性和质量。

Mirai: Autoregressive Visual Generation Needs Foresight

自回归(AR)图像生成器逐 token 因果建模、只看"下一个 token",导致全局结构容易错乱、收敛慢;本文提出 Mirai,在训练时额外引入"前瞻(foresight)"信号——把 AR 模型的中间层表征在 2D 网格 上对齐到未来 token 的表征(来自 EMA 的显式前瞻 Mirai-E,或来自冻结双向编码器 DINOv2 的隐式前瞻 Mirai-I),不改架构、不增推理开销,就把 LlamaGen-B 的收敛加速最多 10×、FID 从 5.34 降到 4.34。

MixFlow Training: Alleviating Exposure Bias with Slowed Interpolation Mixture

针对扩散/流匹配模型「训练用真值插值、测试用自己生成的噪声数据」导致的曝光偏差,本文发现一个 Slow Flow 现象——采样时刻 \(t\) 生成的噪声数据最接近的真值插值其实对应一个更高噪声(更慢)的时刻 \(m_t \le t\),于是提出 MixFlow:训练时把输入插值换成「慢化时刻区间内的插值混合」,只改 5 行代码做后训练,就把 RAE 在 ImageNet 上做到 1.43 FID(无引导)/ 1.10 FID(有引导)。

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

提出 Mixture of States (MoS)——一种基于可学习 token 级稀疏路由的多模态融合范式,使视觉 token 能在每个去噪步骤自适应地从文本编码器任意层选取隐藏状态,仅用 3-5B 参数即可匹敌或超越 20B 级模型。

Mixture of Style Experts for Diverse Image Stylization

StyleExpert 用「对比学习预训练的风格编码器 + 相似度感知路由的 MoE-LoRA 适配器」改造扩散 Transformer,让风格迁移不再退化成简单的颜色搬运,而能真正迁移纹理、笔触、材质等语义级风格;并配套构建了一个 50 万级语义-颜色更均衡的 content-style-stylized 三元组数据集,在 Qwen 语义分等指标上大幅领先现有方法。

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

MMFace-DiT 用一个把"文本语义流"和"掩码/草图空间流"放在同一 Transformer 里并行、对等处理的双流 DiT,通过共享 RoPE 注意力做逐层深度融合,再配一个 Modality Embedder 让单个模型不重训就能切换掩码/草图条件,在文本+掩码、文本+草图两种可控人脸生成上相对 6 个 SOTA 把 FID 等指标整体拉高约 40%。

MoCoDiff: A Controllable Autoregressive Diffusion Model for Expressive Motion Generation

针对扩散式人体动作生成里「语义/风格/历史挤在一条条件通路里相互纠缠、导致长序列漂移和风格失控」的问题,MoCoDiff 用三个轻量的「注入调制控制器(IMC)」把文本、风格、历史分路注入冻结骨干,并用一个把历史当作「随时间步变化的纠偏信号、直接改写扩散转移动力学」的 Temporal IMC 驱动受控自回归扩散,在长序列风格化动作上同时拿到最高风格准确率、最低抖动和约 4.8×–一个数量级的推理加速。

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

提出 MorphAny3D,首个基于 Structured Latent(SLAT)表示的无训练 3D 变形框架,通过 Morphing Cross-Attention(MCA)融合源/目标信息保证结构合理、Temporal-Fused Self-Attention(TFSA)增强时序一致性、方向校正策略消除突变,在跨类别 3D 变形中实现了 SOTA 质量。

MOS: Mitigating Optical-SAR Modality Gap for Cross-Modal Ship Re-Identification

提出 MOS 框架解决光学-SAR 跨模态船舶重识别问题,包含两个核心模块:(1) MCRL 通过 SAR 图像去噪和类别级模态对齐损失在训练阶段缩小模态差距;(2) CDGF 利用布朗桥扩散模型在推理阶段从光学图像生成伪 SAR 样本并融合特征,在 HOSS ReID 数据集上 SAR→Optical 的 R1 提升 +16.4%。

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

这篇论文把"改主体动作/姿态/交互而不改外观"的运动图像编辑正式立成一个独立任务,从真实视频里挖出 10,157 对高质量"前后帧"三元组构建了 MotionEdit 数据集与基准,并提出 MotionNFT——一种用光流运动对齐分当奖励、扩展 DiffusionNFT 的后训练框架,让 FLUX.1 Kontext 和 Qwen-Image-Edit 在不损失通用编辑能力的前提下显著提升运动编辑保真度。

MPDiT: Multi-Patch Global-to-Local Transformer Architecture for Efficient Flow Matching

提出 MPDiT,一个多尺度 patch 的全局到局部扩散 Transformer 架构,前期用大 patch(4×4)处理全局上下文仅需 64 个 token,后期上采样到小 patch(2×2)的 256 个 token 精修局部细节,将 GFLOPs 降低高达 50%,且 XL 模型在 240 epoch 即达到 FID 2.05(cfg)。

MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale

MRT 把「文生图层 / 图生图层 / 图层生图层」三类分层图像任务统一进同一个 20B 掩码区域扩散 Transformer,靠「自适应掩码」决定每个图层从干净 latent 还是噪声出发,再用一个「溢出感知画布层」生成越过画布边界的完整可复用 RGBA 图层;在 10M 设计数据上训练后,分层质量全面超过 ART 与并发的 Qwen-Image-Layered,且推理快 \(10\sim100\times\)、激活显存省 \(50\%\sim90\%\)

Multi-Scale Local Speculative Decoding for Image Generation

MuLo-SD 把"低分辨率草稿 + 上采样 + 高分辨率并行验证"的多尺度思路引入投机解码,并用"只在被拒 token 的局部邻域里重采样"替代传统的 raster-scan 全序列回退,配合并行解码,在 Tar-1.5B/7B 上把自回归图像生成端到端加速到最高 \(5.33\times\),同时保持语义对齐与感知质量基本不掉。

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

提出MultiBanana——首个系统评估多参考图像生成能力的大规模基准,包含3769个评测样本、最多8张参考图、5个难度维度(跨域/尺度/稀有概念/多语言),揭示了闭源模型"过拟合参考细节"和开源模型"忽略参考主体"的互补失败模式。

MultiCrafter: High-Fidelity Multi-Subject Generation via Disentangled Attention and Identity-Aware Preference Alignment

MultiCrafter 把"多主体定制生成"拆成两个互不打架的训练阶段——预训练用显式位置监督把每个主体的注意力"框"到正确空间区域以根治属性串扰、用 MoE-LoRA 撑起复杂布局的容量,后训练再用一套以匈牙利匹配打分的在线强化学习把美学和文本对齐拉满,从而在主体保真度上大幅领先现有 In-Context-Learning(ICL)方法。

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

NAMI 把文生图的整流流(rectified flow)按分辨率切成多个时间窗,低分辨率阶段只用少量 Transformer 层快速画布局、高分辨率阶段才逐步堆满层数精修细节,并用一个可学习的 BridgeFlow 模块衔接相邻阶段的分布,在 2B 参数规模下把 1024×1024 图像的推理时间砍掉 64%,质量仍与同规模 SOTA 持平。

NEAF: Natural Image Editing with Attention Fusion for Generalizable Test-time Optimization in Text-Guided Image Editing

NEAF 提出一个零样本、免微调的测试时优化框架,给任意预训练 T2I 扩散模型加一个仅 0.08M 参数的可学习 XA-Conductor 模块,通过"源/编辑/重建"三路反馈循环动态融合交叉注意力图,从而在不重训、不构建数据集的前提下完成高保真文本编辑,尤其擅长其它方法做不好的非刚性(动作/姿态)编辑。

Neighbor-Aware Localized Concept Erasure in Text-to-Image Diffusion Models

提出 NLCE,一个 training-free 的三阶段概念擦除框架,通过谱加权表征调制、注意力引导空间门控和门控特征清理三步实现目标概念的精确局部擦除,同时显式保留语义邻近概念,在 Oxford Flowers、Stanford Dogs、名人身份和敏感内容擦除任务上均优于现有方法。

Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models

重新解释 SDE-based GRPO 为距离优化/对比学习,提出 Neighbor GRPO——完全绕过 SDE 转换,通过扰动 ODE 初始噪声构建邻域候选轨迹 + softmax 距离代理策略实现策略梯度优化,保留确定性 ODE 采样的所有优势。

Nonlinear Color Transfer via Learnable Bezier Flows

NCT 把基于流的色彩迁移中默认的「直线传输路径」换成可学习控制点的二次贝塞尔曲线,让 RGB 空间里源色到目标色的传输沿着平滑非线性轨迹走,再用 MoE 编码器预测这些贝塞尔流参数,在保持内容结构的同时显著降低伪影、提升重建精度(重建误差 71.9→30.6)。

Not All Birds Look The Same: Identity-Preserving Generation For Birds

针对细粒度鸟类缺乏"同一只鸟多视角"数据的困境,本文用 NABirds 的专家标注构建了 4759 对"长得像同一只"的鸟类图像对作为评测基准(NABLA),并提出用"同物种 / 同年龄 / 同性别 / 同繁殖期"作为身份代理来训练 OminiControl / Insert Anything 等可控扩散模型,在 MSE 上比基线降低约 41%,且能泛化到未见过的物种。

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

提出 NOVA,首次形式化"稀疏控制、密集合成"范式用于视频编辑:稀疏分支从用户编辑的多关键帧提供语义引导,密集分支从原始视频注入运动和纹理信息;配合退化模拟训练策略实现无需配对数据的学习,在编辑保真度、运动保持和时序一致性上全面超越现有方法。

Object-WIPER: Training-Free Object and Associated Effect Removal in Videos

提出 Object-WIPER,首个无训练的视频物体及其关联效应(阴影、反射、镜像等)移除框架,利用 DiT 中的文本-视觉交叉注意力和视觉自注意力定位关联效应区域,通过前景重初始化和注意力缩放实现干净移除,并提出 TokSim 指标和 WIPER-Bench 真实世界基准。

OctoT2I: A Self-Evolving Agentic Text-to-Image Router

OctoT2I 把"给定 prompt 该用哪个文生图模型"重构成"在满足质量阈值前提下挑成本最小的工具"的约束优化问题,用一个能多轮决策的路由智能体,配合一套无需人工标注、从零自建的工具知识库(PSEL 自进化循环),在 GenEval 上拿到 0.96 的综合分,同时相比最强基线 Flow-GRPO 提速 90.3%、能效提升 56.6%。

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

针对现有个性化方法用通用图像编码器(CLIP/DINOv2/VAE)提取的整体嵌入"什么都纠缠在一起"、容易把光照、衣着等无关信息一起搬过去(copy-and-paste 伪影)的问题,Omni-Attribute 让编码器同时吃「图像 + 一段文字属性描述」,专门学习只编码指定属性(身份/表情/光照/风格…)的开放词表嵌入;通过「正负属性配对数据 + 生成损失与对比损失双目标训练」,在属性检索、个性化、多属性组合三个任务上都取得 SOTA。

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

本文要训练一个单一模型同时干好 video-to-audio(V2A)、text-to-audio(T2A)和 video-text-to-audio(VT2A)三件事,但卡在"高质量 V-A-T 对齐字幕稀缺"和"任务间/任务内相互竞争"两道坎上;为此先用一条智能体标注流水线造出 47 万对紧对齐字幕数据集 SoundAtlas,再配一个解耦双分支 DiT + 三阶段渐进训练的 Omni2Sound 模型,最终用一个标准 DiT 骨干在三项任务上全部刷到 SOTA。

Omni IIE Bench: Benchmarking the Practical Capabilities of Image Editing Models

Omni IIE Bench 是一个专门诊断"指令式图像编辑模型在跨语义尺度任务上一致性"的高质量人工标注基准:用"单轮一致性 + 最长 16 轮多轮协调"双轨设计、12 数据集来源、三阶段(自动生成→自动 mask→多遍人工严审)构建出 2856 张样本,并提出解耦评估框架(全局质量 + 前/背景区域保真 + 指令合规),首次量化出"几乎所有主流编辑模型从低语义尺度切到高语义尺度时性能显著下滑、多轮中因误差累积进一步崩塌"这一普遍失效模式。

OmniGen2: Towards Instruction-Aligned Multimodal Generation

OmniGen2 用「解耦 VLM + 扩散」的统一架构(VLM 理解、扩散出图,靠 VLM 变长隐状态 + VAE 特征作条件)配上 Omni-RoPE 位置编码与一套「先建强基座、再渐进式 RL 对齐」的两阶段训练,让一个模型在文生图、图像编辑、上下文生成上都能精准跟随复杂指令,GenEval 拿到 0.95。

One Algorithm to Align Them All

提出一个只改采样循环、不改任何模型权重的通用算法,让任意在结构化隐空间上工作的 Rectified Flow 模型都能"成对联合生成"两个结构对齐的样本(同一姿态的不同物体),并在图像、视频、3D 三个模态上同时奏效,比基于 SDS 的 A3D 快一个数量级。

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

提出 ELIT(Elastic Latent Interface Transformer),在 DiT 中插入可变长度的潜变量接口(latent interface)和轻量 Read/Write 跨注意力层,使单一模型能在推理时动态调节计算预算,同时将计算非均匀地分配到图像中更难的区域,在 ImageNet 512px 上 FID 最高降低 53%。

OneHOI: Unifying Human-Object Interaction Generation and Editing

OneHOI 用一个扩散 Transformer(R-DiT)把「人-物交互(HOI)图像生成」和「HOI 图像编辑」统一成同一个条件去噪过程,通过 HOI 编码器、动词中介的结构化注意力和 HOI 专用 RoPE 显式建模交互结构,在编辑、布局可控生成和首次提出的多 HOI 编辑任务上都拿到 SOTA。

OntoAug: Rethinking Generative Data Augmentation via Ontology Guidance

OntoAug 把一张图显式拆成「本体部分」(前景主体)和「附属部分」(背景),用前景掩码作为扩散 inpainting 的硬约束只改背景、不动主体,再配上几何布局变换 + LVLM/LLM 扩充的背景词表,从而在生成增强样本时同时拿到「主体稳定、背景多样、整体协调」三者,在细粒度分类、小样本、WSOL、VLM 强化微调上均刷到 SOTA。

OpenDPR: Open-Vocabulary Change Detection via Vision-Centric Diffusion-Guided Prototype Retrieval for Remote Sensing Imagery

OpenDPR 提出了一种免训练的视觉中心框架,利用扩散模型离线生成目标类别的多样化视觉原型,在推理时通过视觉空间的相似度检索来识别遥感图像中的开放词汇变化,在四个基准数据集上取得 SOTA 性能。

OPRO: Orthogonal Panel-Relative Operators for Panel-Aware In-Context Image Generation

提出 OPRO,一种基于正交矩阵的参数高效适配方法,通过在 frozen backbone 的位置感知 query/key 上施加可学习的面板特异性正交算子,在保持预训练同面板合成行为的同时显式调制跨面板注意力交互,仅增加 0.93M 参数即在 MagicBrush 上显著提升多种 SOTA 方法的编辑质量。

OrionEdit: Bridging Reference and Source Images for Generalized Cross-Image Editing

OrionEdit 把"用一张图编辑另一张图"统一成跨图像编辑(Cross-Image Editing)范式——给定一张源图和一张或多张参考图,把参考的视觉属性(身份、纹理、风格)有选择地迁移到源图上,同时保住源图的结构与构图;它用对称正交子空间解耦让不同分支(源/参考/合成)各占互不干扰的低秩"房间",再用反向因果信息流掩码强制信息只能沿 参考→源→合成 单向流动,从而在标准扩散骨干上实现零样本多参考编辑,开源指标接近 GPT-4o 这类闭源模型。

OrthoFuse: Training-free Riemannian Fusion of Orthogonal Style-Concept Adapters for Diffusion Models

首个面向乘性正交适配器(OFT)的免训练融合方法:把 Group-and-Shuffle(GS)正交矩阵当成黎曼流形上的点,用块级测地线插值把"概念适配器"和"风格适配器"合成一个,再加一道谱恢复变换补回被插值压扁的特征值,从而在不重新训练的情况下把指定主体和指定艺术风格融到一张图里。

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

OSPO 让统一多模态大模型(Unified MLLM)自己造一批"全局语义相同、只在物体细节上有差异"的偏好图像对,再用注意力得到的物体掩码加权 SimPO 损失去训练,在不依赖任何外部数据或模型的前提下显著提升了文生图的细粒度物体级对齐、压住了物体幻觉。

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

PaCo-RL 把一致图像生成(图像编辑 + 文生图集)当成一个 RL 问题来做:先用自动子图配对造一个大规模一致性排序数据集训出专门评判"两张图是否一致"的成对奖励模型 PaCo-Reward,再用一个低分辨率训练 + log 抑制多奖励的高效 RL 算法 PaCo-GRPO 去优化生成模型,在两类任务上把一致性指标提升 10.3%–11.7%、训练效率近乎翻倍且更稳定。

Parallel Jacobi Decoding for Fast Autoregressive Image Generation

针对自回归(AR)图像生成"逐 token 串行、推理极慢"的瓶颈,本文提出训练无关的 Parallel Jacobi Decoding(PJD),把原来在一维序列上展开的 Jacobi 草稿改成沿图像二维网格"按行并行"展开,并配一个行因果注意力掩码抑制误差累积,在 Lumina-mGPT / LlamaGen 上实现 4.8×–6.4× 加速且画质几乎不掉。

ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction

在"理解-生成统一"多模态模型里,ParaUni 不再只拿 VLM 最后一层特征当扩散条件,而是把 VLM 所有层的视觉特征并行喂进一个层整合模块(LIM)做条件,再在 RL 阶段用层级动态调整机制(LDAM)按不同奖励有针对性地扰动不同层,从而既补全细节又对齐语义,GenEval 达 0.87、DPG-Bench 达 83.45。

PG-VTON: Single-Pass Training-Free Virtual Try-On via Patch-Guided Reference Alignment

PG-VTON 不训练、不做姿态估计、不做显式 warping,只靠在冻结的 MM-DiT 修复模型推理时插两个轻量控制器(早期注入小块衣服 patch 锚定身份 + 放大「人→衣」注意力),就在单次扩散里完成高保真虚拟试衣,在 DressCode / VITON-HD 上拿到免训练方法的 SOTA,还能直接迁移到主体插入任务。

PhotoFramer: Multi-modal Image Composition Instruction

PhotoFramer 把"怎么拍出构图更好的照片"做成一个统一理解-生成模型:给一张构图差的照片,它先用自然语言说清楚该怎么改(如"去掉栅栏、把主体居中"),再生成一张同场景、构图好的示例图,让业余拍照者照着文字+示例去重拍。

PhyCo: Learning Controllable Physical Priors for Generative Motion

PhyCo 通过「10万条物理仿真视频数据集 + 用 ControlNet 注入像素对齐的物理属性图做监督微调 + 用微调过的 VLM 对生成视频做物理问答打分提供可微奖励」三件套,让视频扩散模型能在推理时不依赖任何仿真器/几何重建,就连续可控地生成符合摩擦、回弹、形变、外力等物理规律的运动,在 Physics-IQ 基准上把 IQ Score 从 baseline 的 ~28 提到 43.6。

PhysGen: Physically Grounded 3D Shape Generation for Industrial Design

本文提出 PhysGen,一个将物理约束(空气动力学效率)融入 3D 形状生成的统一框架:通过 Shape-and-Physics VAE 将几何和物理信息联合编码到统一潜空间,然后用交替更新的 Flow Matching 模型在速度更新和物理精炼之间迭代,生成既视觉逼真又物理高效的 3D 形状(如低阻力系数的汽车)。

Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction

提出 ReMD(Residual-Multigrid Diffusion),在扩散模型的每一步反向采样中嵌入多重网格残差修正,利用多小波基构建跨尺度层次结构,无需显式 PDE 即可实现物理一致的高效流体超分辨率。

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

作者用 Nano-Banana(Gemini-2.5-Flash-Image)在真实照片(OpenImages)上批量生成约 40 万条指令式图像编辑样本,并用 Gemini-2.5-Pro 做自动质检,构建出一个覆盖 35 种编辑类型、同时支持单轮 SFT、偏好学习和多轮编辑研究的开源数据集 Pico-Banana-400K。

Pixel Motion Diffusion Is What We Need for Robot Control

DAWN 提出两阶段全扩散框架——Motion Director 生成稠密像素运动场作为可解释中间表征,Action Expert 将其转化为可执行机器人动作序列,在 CALVIN(Avg Len 4.00)、MetaWorld(Overall 65.4%)和真实世界均达到 SOTA,且模型容量和训练数据远小于竞争方法。

PixelDiT: Pixel Diffusion Transformers for Image Generation

PixelDiT 提出完全基于Transformer的双层像素空间扩散模型:patch级DiT捕捉全局语义 + pixel级DiT细化纹理细节,无需VAE即可在ImageNet上达到1.61 FID,并直接在1024分辨率像素空间训练文本到图像模型。

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

首个让免训练高分辨率生成进入实用化阶段的方法——通过部分反转策略使少步扩散模型在patch精炼中可行,20秒生成4K图像,比现有方法快10-35倍且质量更优。

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

提出 PPCL 框架,通过线性探针检测 MMDiT 中连续冗余层区间,结合非顺序蒸馏实现深度剪枝(即插即用)和宽度剪枝(用线性投影替换文本流/FFN),将 Qwen-Image 从 20B 压缩到 10B 时性能仅下降 3.29%。

POCA: Pareto-Optimal Curriculum Alignment for Visual Text Generation

针对视觉文字生成中「文字准确度」与「图像整体协调度/美学」难以兼顾的矛盾,POCA 把 GRPO 多奖励对齐重新建模成多目标优化问题:用双向帕累托排序在联合奖励空间里挑出非支配(好)/被支配(差)样本来做正负信号,再配一个基于 OCR 奖励 ECDF 的自适应课程,把训练数据按「由易到难」排布,在 AnyText-benchmark 上同时提升了 Sen.ACC、CLIP、HPS。

POLAR: A Portrait OLAT Dataset and Generative Framework for Illumination-Aware Face Modeling

作者一边采集了目前开源规模最大的人脸 OLAT(单光源逐一点亮)数据集 POLAR(220 人、156 个光源方向、32 视角、16 表情、4K),一边训练一个基于「latent bridge matching」的生成模型 POLARNet,从一张均匀打光的人像直接一步生成各方向的单光响应,再线性叠加成任意 HDR 环境光下的重光照,物理一致且能跨身份泛化。

PortraitDirector: A Hierarchical Disentanglement Framework for Controllable and Real-time Facial Reenactment

PortraitDirector 把人脸重演从"驱动一个纠缠的整体运动信号"重构为"分层组合任务",用空间层/语义层/组合层把头姿、局部表情(眼/嘴)、全局情绪分别解耦再重组,并配一个基于信息瓶颈的情绪过滤模块去除局部运动里的残留情绪,最后靠扩散蒸馏 + 因果注意力 + 轻量 VAE 在单张 5090 上实现 512×512、20 FPS、800 ms 延迟的可控实时重演。

PoseD-Flow: Versatile and Guided Flow Matching Model of Human Pose

本文提出 PoseD-Flow,第一个把黎曼流匹配(RFM)搬到人体姿态上的生成式先验 PoseRFM(直接定义在关节旋转的乘积流形 \(SO(3)^K\) 上),再配上一个无需任务训练的引导机制 Riemannian D-Flow(对黎曼 ODE 采样过程反传梯度、只优化源点),在姿态补全、去噪、逆运动学三类逆问题上、尤其在遮挡与噪声下达到新 SOTA。

PositionIC: Unified Position and Identity Consistency for Image Customization

PositionIC 用一条自动数据合成管线(BMPDS)造出带位置标注的多主体配对数据,再用一个 NeRF 体渲染启发的「可见性感知注意力」把每个参考主体的注意力范围锁死在指定 bounding box 内,从而在不加任何训练参数和推理开销的前提下,让多主体定制生成同时拿到 SOTA 的身份保真度和空间可控性。

PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

PosterOmni 把"图生海报"拆成局部编辑(扩展/填充/缩放/身份保持)与全局创作(版式迁移/风格迁移)两类共六个任务,先训局部与全局两个专家、再用任务蒸馏把它们融进单一学生模型,最后用统一奖励模型 + DiffusionNFT 强化学习对齐审美与指令,单模型在自建 PosterOmni-Bench 上超过所有开源编辑模型、逼近甚至超过 Seedream-4.0 等闭源商业系统。

PosterReward: Unlocking Accurate Evaluation for High-Quality Graphic Design Generation

PosterReward 用多个 MLLM 共识自动构建了 70K 海报偏好数据集,再用「图像分析驱动」的四阶段级联训练,得到首个专门评估海报/图形设计生成质量的奖励模型,在自建及公开偏好基准上把准确率从基线的 40%~53% 拉到 86%。

Precise Object and Effect Removal with Adaptive Target-Aware Attention

提出 ObjectClear 框架,通过自适应目标感知注意力(ATA)将前景移除与背景重建解耦,配合注意力引导融合(AGF)和空间变化去噪强度(SVDS)策略,实现对目标物体及其阴影、反射等附带效果的精准移除,同时构建了首个大规模 Object-Effect Removal 数据集 OBER。

Premier: Personalized Preference Modulation with Learnable User Embedding in Text-to-Image Generation

Premier 把每个用户的偏好表示成一个可学习嵌入,再用偏好适配器把它和文本提示融合、输出 per-token 调制方向注入 MM-DiT 的调制机制,配合一个离散损失(dispersion loss)拉开不同用户的偏好方向,并用「老用户嵌入的线性组合」解决新用户数据稀缺的冷启动,从而在不需要任何文字偏好描述、只给偏好图的前提下生成更贴合个人口味的图像。

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

提出 LivingSwap,首个视频参考引导的人脸替换模型,通过关键帧身份注入 + 源视频参考补全 + 时序拼接的可控流水线,实现长视频中的高保真人脸替换,在保持源视频表情、光照、运动等细节的同时稳定注入目标身份,将人工编辑量减少 40 倍。

Probing and Bridging Geometry–Interaction Cues for Affordance Reasoning in Vision Foundation Models

系统性地探测视觉基础模型(VFM)中的可供性(affordance)能力,发现 DINO 编码了部件级几何结构、Flux 编码了动词条件化的交互先验,并通过 training-free 融合两者实现了可与弱监督方法竞争的零样本可供性估计。

ProcessMaker: A Generalized Process Visualization Framework with Adaptive Sequence Steps on Diffusion Transformers

ProcessMaker 在 Flux.1(DiT)上,用「稀疏掩码 LoRA + 自监督表示对齐」实现跨领域的流程图序列生成,再用滑动窗口按帧差自适应增删步数,仅训练 7.3% 参数就在 21 个领域的对齐度与连贯性上超过 MakeAnything。

Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation

GridAR 提出一套面向视觉自回归(AR)模型的免训练测试时扩展框架:把画布按行分块、并行生成多个部分候选并尽早剪枝错误轨迹,再用"布局指定 prompt 重构"给后续解码补上一张全局蓝图,在 T2I-CompBench++ 上用 N=4 就反超 Best-of-N(N=8)14.4% 且省 25.6% 算力。

ProjFlow: Projection Sampling with Flow Matching for Zero-Shot Exact Spatial Motion Control

把一大类人体运动控制任务(轨迹跟随、2D→3D 抬升、运动补全、循环动作等)统一成线性逆问题,提出 ProjFlow——一个无需训练的流匹配采样器,在每一步去噪时用闭式投影把"干净运动估计"拉到约束集上,并用一个编码骨架拓扑的"运动学感知度量"让校正沿骨骼协调扩散,从而在零样本、无内层优化的条件下精确满足硬约束、同时保持运动自然度。

PROMO: Promptable Outfitting for Efficient High-Fidelity Virtual Try-On

PROMO基于FLUX Flow Matching DiT骨干,通过潜空间多模态条件拼接、时序自参考KV缓存、3D-RoPE分组条件、以及fine-tuned VLM风格提示系统,在去除传统参考网络的前提下实现了高保真且高效的多件服装虚拟试穿,推理速度比无加速版快2.4倍,在VITON-HD和DressCode上超越现有VTON和通用图像编辑方法。

Prompt Yourself: Awakening Textual Semantics in 1D Visual Tokenizers

VLTok 把 1D 视觉 token 序列功能性地切成"视觉 token + 文本 token"两段,训练时用自提示对齐(SPA)把预训练文本编码器的细粒度语义蒸馏进文本 token、推理时直接丢掉文本编码器保持纯图像流程,在 ImageNet 上同参数量下相对 GigaTok 把 rFID 降 11.1%、gFID 降 18.7%。

PromptEnhancer: Taming Your Rewriter for Text-to-Image Generation via Fine-Grained Reward

针对文生图模型"听不懂复杂 prompt"(属性绑定、否定、组合推理常出错)的问题,提出 PromptEnhancer——一个模型无关、不改 T2I 权重的 prompt 改写框架:先用思维链(CoT)改写数据做 SFT 初始化改写器,再用一个按 24 个细粒度关键点打分的专用奖励模型 AlignEvaluator 做 GRPO 强化对齐,让改写器把短而模糊的用户 prompt 重写成结构化、可被任意冻结 T2I 准确执行的详细描述,平均图文对齐准确率提升 5.1 个点。

PromptLoop: Plug-and-Play Prompt Refinement via Latent Feedback for Diffusion Model Alignment

PromptLoop 用一个 RL 训练的多模态大模型作策略,在扩散采样过程中逐步读取中间潜变量、迭代改写 prompt,让"只改 prompt 不改权重"的对齐方式获得与直接微调扩散模型权重同构的闭环结构,从而即插即用地提升奖励对齐、跨模型泛化并抑制 reward hacking,推理开销仅增加约 20%。

Property-Informed Diffusion-Based Text-to-Microstructure Generation

PropDiff-TMG 用一个自条件 3D 扩散模型,直接从自然语言描述(叠加杨氏模量、各向异性、体积分数等物理量)生成三维超材料微结构,再靠"训练期对比对齐 + 测试期奖励引导对齐"双对齐机制保证生成结构既符合文本语义又物理可行,在 Geometries 2000 上把 FID 从 72.08 压到 70.81、CLIP 从 0.56 提到 0.69、CD 从 0.093 降到 0.040。

Prototype-Guided Concept Erasure in Diffusion Models

针对扩散模型中宽泛概念(如暴力、色情)难以彻底擦除的问题,提出基于概念原型的 training-free 擦除方法:通过聚类 CLIP 嵌入空间中的概念差分方向获取图像原型,再优化迁移到文本原型空间,推理时选择最匹配的原型作为负引导信号进行 classifier-free guidance 式的概念抑制。

Proxy-Tuning: Tailoring Multimodal Autoregressive Models for Subject-Driven Image Generation

针对多模态自回归(AR)模型直接做 DreamBooth 式主体微调会"学不像 + 丢语义"的问题,本文提出 Proxy-Tuning:先用一个较弱的扩散模型在少量参考图上学会主体,再让它批量合成代理数据来监督 AR 学生模型,结果学生在主体保真度上反超教师,揭示了图像生成中的"弱到强泛化"现象。

PSDesigner: Automated Graphic Design with a Human-Like Creative Workflow

本文提出PSDesigner,一个模拟人类设计师创意工作流的自动图形设计系统,通过AssetCollector(资源收集)、GraphicPlanner(规划工具调用)和ToolExecutor(执行PSD操作)三个模块协作,利用首个PSD格式设计数据集CreativePSD训练模型学习专业设计流程,能直接生成可编辑的PSD设计文件。

PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards

针对多主体个性化图像生成中主体一致性差和文本遵循不足的问题,提出可扩展的多主体数据构建管线和成对主体一致性奖励(PSR),通过两阶段训练(SFT + RL)在自建的 PSRBench 上全面超越现有 SOTA。

PureCC: Pure Learning for Text-to-Image Concept Customization

提出 PureCC 方法,通过分离"目标概念隐式引导"和"原始条件预测"的解耦学习目标,配合冻结表示提取器+可训练流模型的双分支训练管线和自适应引导缩放 \(\lambda^{\star}\),实现高保真概念定制的同时最小化对原始模型行为和能力的影响。

Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

把一张 RGB 图直接端到端拆成多张语义解耦的 RGBA 图层,每层可独立编辑而不影响其他内容,从根上解决了栅格图编辑时的语义漂移和几何错位,分解质量显著超过此前递归式方法。

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

提出 RAISE 框架,将 T2I 生成建模为需求驱动的自适应进化过程:通过需求分析器将提示词分解为结构化检查清单,用多动作变异(提示重写+噪声重采样+指令编辑)并发进化候选群体,再通过工具增强的视觉验证逐轮淘汰不满足需求的候选,实现自适应推理时缩放——在 GenEval 上达到 0.94 SOTA,同时比反射微调基线减少 30-40% 生成样本和 80% VLM 调用。

RDF-MIG: A Robust Diffusion Framework for Masked Image Generation to Augment Semantic Segmentation and Change Detection

针对遥感里语义分割(SS)与变化检测(CD)标注稀缺、且现有生成方法各管一摊、不支持多光谱、对噪声样本不鲁棒的问题,本文提出 RDF-MIG:用特征压缩融合(FCF)把多光谱图像与掩码塞进一个三通道张量做联合扩散生成,同时用基于相关熵的 MCRD 鲁棒损失加 MSE 一致性校准来抑制重尾噪声,从而一套框架同时为 SS 和 CD 合成对齐的图像-掩码对并提升下游性能。

Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

针对统一多模态模型"会推理但推理用不上图像生成"的脱节问题,Re-Align 用结构化的 In-Context Chain-of-Thought(拆成语义引导 + 参考关联)把复杂图文交错任务部分降维成文生图,再用一个基于 CLIP 相似度的代理奖励做 GRPO 强化对齐,在 OmniContext 与 DreamOmni2Bench 上以可比规模刷到同档最优。

RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark

本文提出 RealUnify,首个专门评估统一模型中理解与生成能力双向协同效果的基准,通过1000个人工标注实例和直接/分步双重评估协议,揭示了当前统一模型虽然具备理解和生成能力,但在端到端场景中仍无法实现真正的能力协同。

ReasonEdit: Towards Reasoning-Enhanced Image Editing Models

现有"MLLM 编码器 + 扩散解码器"的指令编辑模型把 MLLM 冻住、推理能力没被用上,ReasonEdit 通过联合优化解锁 MLLM 的「思考」(把抽象指令翻成具体可执行步骤)与「反思」(多轮自审自纠并决定何时停),形成 thinking–editing–reflection 闭环,在 Step1X-Edit 与 Qwen-Image-Edit 两个基座上分别带来 ImgEdit/GEdit/Kris 多项一致提升。

RebRL: Reinforcing Discrete Visual Diffusion Models with Rebalanced Timestep Credits

针对离散扩散模型(DDM)用 GRPO 做强化学习时被忽视的「时间步信用分配严重失衡」问题,本文从策略梯度推导出失衡的数学根源,并提出即插即用的 RebRL——通过时间步级与 token 级两层重平衡因子拉平累积梯度,在 GenEval 上达到 SOTA,人类偏好分最高提升 3.40,同时训练步数减少约 40%。

RecTok: Reconstruction Distillation along Rectified Flow

针对高维视觉 tokenizer「隐空间维度越高、生成质量反而越差」的矛盾,本文提出 RecTok——不再像以往那样只给干净隐变量 \(x_0\) 注入语义,而是沿整条 rectified flow 的前向轨迹 \(\{x_t\}\) 做语义蒸馏(FSD)并叠加掩码重建对齐(RAD),从而打破维度瓶颈,让重建/生成/判别性能随维度提升而一致变好,在 ImageNet 256 上无 CFG 即取得 gFID 1.34 的 SOTA,且收敛比以往快 7.75 倍。

Refaçade: Editing Object with Given Reference Texture

Refaçade 把"物体重纹理"(用参考图的局部纹理重绘目标物体、但保住它原本的几何)从图像扩展到视频,核心是两招解耦——训练一个"纹理擦除器"把源物体退化成只剩几何的无纹理视频、再用"拼图置换"把参考图打散成无全局结构的纹理碎片,从而在图像和视频上都做到精准、可控的纹理迁移,定量与人工评测全面超过一众强 baseline。

Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

提出 MVC-ZigAL 框架,通过多视图感知 MDP 建模、zigzag 自反思优势学习和 Lagrangian 对偶约束优化,有效提升少步文本到多视图扩散模型的单视图保真度和跨视图一致性。

Refracting Reality: Generating Images with Realistic Transparent Objects

针对文生图模型画不对透明物体折射的老毛病,本文提出训练无关的 Snellcaster:在 FLUX 生成轨迹的每一步用斯涅尔定律对折射光线做"自变形",再借一张以透明物体为中心的全景图补上相机看不到的被折射表面,把折射/反射严格约束到物理正确,masked PSNR 从 ~12.7 提到 16.5、LPIPS 从 0.47 降到 0.24。

Region-Adaptive Sampling for Diffusion Transformers

RAS 是一个免训练的采样策略:每一步只把模型当前关注的「快更新区域」送进 DiT 去噪、其余「慢更新区域」直接复用上一步缓存的噪声,靠这种空间上非均匀的计算分配在 Stable Diffusion 3 和 Lumina-Next-T2I 上拿到 2.36×/2.51× 加速,质量几乎无损。

RegionRoute: Regional Style Transfer with Diffusion Model

RegionRoute 在训练阶段用目标物体的二值掩码去监督扩散模型里「风格词」对应的注意力图,把风格 token 和具体物体区域绑定起来,从而在推理时不需要任何掩码就能把风格只施加到单个物体上,实现真正的局部风格迁移,并配套提出了 RSE-Score 来同时衡量「区域内风格对不对」和「区域外有没有被破坏」。

Rel-Zero: Harnessing Patch-Pair Invariance for Robust Zero-Watermarking Against AI Editing

本文发现图像patch对之间的关系距离在AI编辑后保持不变,并利用该不变性构建了一种零水印框架Rel-Zero,无需修改原图即可实现对多种生成式编辑的鲁棒内容认证。

RenderFlow: Single-Step Neural Rendering via Flow Matching

提出 RenderFlow,将神经渲染重新建模为从 albedo 到全光照图像的单步条件流匹配问题,以 G-buffer 为条件、预训练视频 DiT 为骨干,实现了比扩散方法快 10 倍以上(~0.19s/帧)的确定性渲染,可选的稀疏关键帧引导进一步提升物理精度,还支持通过冻结骨干 + 轻量 adapter 实现逆渲染。

ResCa: Residual Caching for Diffusion Transformers Acceleration

ResCa 是一个免训练的扩散 Transformer 加速框架,把每个轨迹簇里只对一个"代理 token"做真去噪、再用它的多阶残差去"模拟"同簇其它 token 的去噪方向,从而在 FLUX 上做到 5.5× GFLOPs 加速且画质几乎无损。

ResDiT: Evoking the Intrinsic Resolution Scalability in Diffusion Transformers

ResDiT 通过机制分析发现 DiT 在超分辨率推理时「位置编码决定布局、注意力感受野决定细节」,据此把原始注意力拆成「缩放位置编码的全局分支 + patch 级局部分支」并在频域融合二者,免训练、不依赖低分图引导就能让 FLUX/SD3 直出 3K–4K 高保真图像。

Residual Decoder Adapter: ID-Preserving Tokenizer Adaption for Autoregressive Text Rendering

针对自回归(AR)图像生成在"画字"时笔画模糊、字形扭曲的老毛病,本文把根因定位到视觉 tokenizer 的重建能力不足,提出 Residual Decoder Adapter (RDA):冻结原 tokenizer 和 AR 模型,外挂一个共享 token-ID 的 Hint 码本 + 一条像素级残差解码支路,在不改 token 空间、不重训任何模型的前提下把文字重建质量补回来——Janus-Pro 1B 的 OCR 准确率从 24.52% 飙到 58.26%。

Residual Diffusion Bridge Model for Image Restoration

本文把扩散桥重新推导成由「均值回归 OU 过程 + Doob h-变换」统一刻画的随机插值,并用配对图像的残差 \(\boldsymbol{\pi}=\mathbf{x}_0-\boldsymbol{\mu}\) 去调制噪声的注入与去除,让模型只在退化区域施加扰动、保护干净区域不被反复重建,从而在去雨/低光/去雪/去雾/去模糊五类通用恢复任务上平均涨 1.55 dB PSNR,同时把现有各种桥模型证明为本框架的特例。

Resolving Endpoint Underfitting in Diffusion Bridges via Noise Alignment

作者发现以 I2SB 为代表的扩散桥模型在靠近目标端点(\(t\to0\))时会出现"端点欠拟合"——预测方差崩塌、方向错乱,根因是网络输入与回归目标的噪声幅度趋势相互矛盾;他们提出 NADB,用一个"幅度对齐的随机插值"修方差、用一个均值网络拉近桥的两端来修方向,在 ImageNet 多个复原/翻译任务上稳定超过 I2SB。

Resolving the Identity Crisis in Text-to-Image Generation

本文揭示了文本到图像模型在多人场景生成中的"身份危机"问题(重复面孔、身份合并),提出 DisCo 框架,通过组合式奖励函数和 GRPO 强化学习微调 flow-matching 模型,实现了 98.6% 的唯一面孔准确率,超越包括 GPT-Image-1 在内的闭源模型。

Rethinking Glyph Spatial Information in Font Generation

针对少样本中文字体生成(FFG),本文指出现有方法忽略了"字形空间信息",既在数据管线层面用失真渲染破坏了控制点坐标、又在模型层面把字形的"形状"和"位置"隐式耦合在一起优化;为此提出一套保空间渲染方案 SPR(配 OFL 中文字体数据集与归一化指标)打通栅格↔矢量的可逆映射,并设计两阶段的 GlyphSpatialNet(形位解耦 SPD + 梯度广播 GBM + 风格细节增强 SDE)在像素空间显式建模空间变换,无需任何部件/笔画标签即在统一基准上刷新 SOTA。

Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

本文提出 PRIS:在文生图/文生视频的推理时扩展里,不再只把算力堆在「多采几张图」,而是用一个细粒度验证器(EFC)找出多张生成图里反复出现的「共性失败元素」,据此改写 prompt 再重生成,让 prompt 和 visual 一起随算力扩展,从而在 GenAI-Bench 上 +7%、VBench 2.0 上 +15%。

Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

针对统一多模态模型(UMM)视觉生成部分「依赖稀缺图文对、训练又低效」两大瓶颈,本文提出两阶段框架 IOMM:先用海量无标注图像、以图像自身语义当条件做掩码重建预训练,再用少量高质量图文对混合微调,仅 ~1050 H800 GPU 小时从头训出 3.6B 模型,GenEval 达 0.89、WISE 0.55,超过 BAGEL-7B、BLIP3-o 等强基线。

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

本文提出FCDM(Fully Convolutional Diffusion Model),将ConvNeXt架构适配为条件扩散模型backbone,仅用DiT-XL 50%的FLOPs即可在ImageNet上达到竞争性FID(2.03),且能在4块RTX 4090上训练XL模型,展示了全卷积架构在生成建模中被严重低估的效率优势。

Reward Sharpness-Aware Fine-Tuning for Diffusion Models

本文把扩散模型奖励微调(RDRL)中的"奖励黑客"(reward hacking,奖励分涨但画质不升)诊断为一种"对抗攻击"——奖励模型在其损失面陡峭的方向上不鲁棒;据此提出 RSA-FT,不重训奖励模型,而是改用一个"被抹平"的奖励模型的梯度,做法是在图像空间(对抗式输入扰动)和参数空间(SAM 式权重扰动)同时施加扰动取局部最差奖励,二者联合即可显著缓解奖励黑客,且能即插即用地嵌进 ReFL / DRaFT-K / AlignProp / DRTune 等各种 RDRL 框架与多种扩散骨干。

RewardFlow: Generate Images by Optimizing What You Reward

RewardFlow 提出一种无需反转的推理时框架,通过多奖励 Langevin 动力学融合语义对齐、感知保真度、局部定位、物体一致性和人类偏好等多种可微分奖励信号,在图像编辑和组合式生成任务上实现 SOTA 的编辑保真度和组合对齐效果。

Say Cheese! Detail-Preserving Portrait Collection Generation via Natural Language Edits

本文提出"肖像合集生成(PCG)"新任务——给一张参考肖像和自然语言编辑指令,生成一组身份/细节一致但姿态、视角、构图各异的写真;为此构建了首个大规模数据集 CHEESE(约 24K 合集、576K 三元组,用大视觉语言模型标注 + 反演验证),并设计 SCheese 框架(Fusion IP-Adapter 管身份、ConsistencyNet + 解耦注意力管细节),在指令遵循(PF)和细节保持(DP)上达到 SOTA。

Scale Space Diffusion:把尺度空间塞进扩散过程

这篇论文指出"扩散加噪"和"尺度空间下采样"在信息退化上几乎等价——高噪声状态携带的信息量不比一张小图多,于是把"逐步下采样"当作扩散的退化算子,推导出一族广义线性退化扩散(Scale Space Diffusion, SSD),让模型在低分辨率上跑高噪声步、在高分辨率上跑低噪声步,并配套提出只激活相关网络层的 Flexi-UNet,在 CelebA / ImageNet 上以 FID 略升的代价把训练时间和 FLOPs 砍掉一半以上。

Scaling Multi-Identity Consistency for Image Customization via Multi-to-Multi Matching Paradigm

UMO 把"多人身份定制"重新表述成多参考图与多生成人脸之间的全局指派问题,用一套即插即用的奖励反馈学习(ReReFL)+ 匈牙利匹配奖励(MIMR),在不重训基座的前提下显著提升身份相似度并压住身份混淆。

ScenDi: 3D-to-2D Scene Diffusion Cascades for Urban Generation

ScenDi 把城市场景生成拆成「3D 粗生成 → 2D 细化」的级联扩散:先用 3D 隐扩散生成带粗糙外观的 3D 高斯场景(保证相机可控),再用视频扩散模型在渲染图上补细节、画远景,从而在 Waymo / KITTI-360 上同时拿到高保真画质和精确相机轨迹。

SCIEval: Evaluating and Benchmarking the Faithfulness of Scientific Image Generation and Interpretation with Large Multimodal Models

针对"科学图像"(折线图、二叉树、分子式等带精确数值/属性的图)专门设计的忠实度评测器 SCIEval,把忠实度拆成相关性、准确性、可解释性三个维度,用 CLIP 对比学习训练两个打分子模块 + 微调一个轻量 LMM 产出错因说明,并配套 6,000 样本的人工标注 benchmark SCIEval-Bench,在和 GPT-4o 等 24 个对手的对比中与人类判断的相关性显著最高。

Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling

Scone 在统一理解-生成模型 BAGEL 上,把"理解专家"改造成一座语义桥——通过早期多模态对齐和注意力掩码筛除参考图中的无关主体,再端到端引导"生成专家",从而在一张参考图含多个候选主体时也能准确"认对人再画对人",在 OmniContext 上拿到开源模型第一。

Score2Instruct: Scaling Up Video Quality-Centric Instructions via Automated Dimension Scoring

Score2Instruct 提出了一个无需人工标注和闭源 API 的自动化视频质量指令生成管线 SIG,通过自动评估 14 个质量维度并用层级 CoT 聚合为完整质量推理文本,构建了 320K+ 条指令数据集 S2I,配合两阶段渐进式微调策略,使多个视频 LMM 同时获得质量评分和质量推理能力,在 5 个 VQA 数据集上 SRCC 平均提升 26-31%。

SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

提出 SeaCache,一种基于频谱演化感知(SEA)滤波器的无训练动态缓存策略,通过在频域中分离信号与噪声分量来测量时间步间的冗余度,显著提升扩散模型推理的延迟-质量权衡。

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

ViPO 把 GRPO 里每个样本一个标量优势的「整图打分」改造成像素级、感知感知的结构化优势——用一个免训练的感知结构化模块(PSM)从预训练视觉骨干里提取偏好分配图,乘到标量优势上,让优化压力流向人眼真正在意的区域,从而在图像和视频生成上同时打败原版 GRPO(DanceGRPO)。

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

提出 SeeThrough3D,通过半透明 3D 包围盒渲染的遮挡感知场景表示(OSCR)来条件化 FLUX 模型,实现了精确的 3D 布局控制与遮挡一致的文本到图像生成。

SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models

提出 SegQuant 框架,通过基于静态计算图的语义分割量化(SegLinear)和硬件原生的双尺度极性保持量化(DualScale),在不依赖手工规则或运行时动态信息的前提下,实现了跨架构通用、部署管线兼容的扩散模型高保真后训练量化。

Selectively Extracting and Injecting Visual Attributes into Text-to-Image Models

这篇论文提出从单张参考图里只把「指定的某一种视觉属性」(如颜色、材质、姿态、拍摄角度)抽出来、再注入文生图模型的方法:通过 VLM 自动构造「描述非目标属性」的训练 prompt,配合两个新嵌入——蒸馏嵌入(借文本 Transformer 把目标特征从 token 里隔离出来)和残差嵌入(吸收剩余属性、稳定优化),让优化出的文本 token 只代表目标概念,在自建数据集上的属性选择性优于 TokenVerse、U-VAP、ProSpect 等方法。

Self-Corrected Image Generation with Explainable Latent Rewards

提出 xLARD 框架,在文生图生成过程中通过一个轻量残差修正器在潜空间进行语义自修正,利用可解释的潜空间奖励信号(计数/颜色/位置)引导生成,在 GenEval 上提升 +4.1%,DPGBench 上提升 +2.97%,且以即插即用方式适配多种 backbone。

Self-Evaluation Unlocks Any-Step Text-to-Image Generation

本文提出 Self-Evaluating Model(Self-E),让一个文生图模型在从零训练时一边像流匹配那样从数据学局部速度场、一边用自己当前的打分给自己生成的图打分作为"动态自教师",从而无需预训练教师、无需蒸馏就能训出一个支持任意步数推理的模型——2 步就能出高质量图、50 步又能与顶级流匹配模型掰手腕。

Semantic Alignment for Pose-Invariant Identity Preserving Diffusion

SeAl 提出一个训练自由的文生图框架,用"几何预对齐 + 自注意力 K/V 特征注入 + 文本-外观差分校正"三个模块,把参考图的细粒度身份注入(infuse)到任意结构条件里,而不是像现有方法那样把主体"重新想象(re-imagine)"一遍,从而在动物纹理、人脸服饰等高难度场景把身份保持指标 DINO-I 大幅拉高。

Semantic Context Matters: Improving Conditioning for Autoregressive Models

SCAR 把自回归图像编辑的"前缀条件"从冗长、语义稀疏的 VQ token 换成由冻结视觉基础模型抽取、再经可学习模块压缩 4× 的稠密语义前缀(Compressed Semantic Prefilling),并在解码时用一项辅助损失把模型对源图的"内部隐状态"对齐到目标图语义(Semantic Alignment Guidance),从而在 next-token 与 next-set 两种 AR 范式上都拿到更高的视觉质量与指令一致性,同时把训练显存降约 24%、速度提升约 1.4×。

Semantic Derivative Flow: Graph-Guided Diffusion for Controllable Instance Interactions

把"主语→谓词→宾语"的交互关系建成一张有向无环交互图,提出"派生注意力"强制让谓词语义从主语派生、宾语语义从谓词派生,再用区域细化模块把视觉特征实时回灌图节点,从而在 HICODet 上生成语义连贯、空间合理的人-物交互图像,FID 与 HOI 检测 mAP 同时刷到 SOTA。

Semantic Scale Space: A Framework for Controllable Image Abstraction

本文把"图像抽象"重新表述成一个由平滑强度 \(t\)语义粒度 \(g\) 张成的二维空间(Semantic Scale Space, SSS),用一个可控边界检测器把"该保留哪些结构"这件事从平滑过程里外化出来,并给出一个具体的遍历策略 AGSS(单边 donor-gated 扩散 + 细到粗粒度调度),在等量平滑下比经典基线保留更多语义边界、几何漂移更小,下游 NPR 风格化结果也被用户显著更偏好。

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

SFD 把潜在扩散里的语义和纹理拆成两路 latent,用各自独立的噪声调度让语义比纹理"早一步"去噪、充当结构蓝图来引导纹理细化,在 ImageNet 256×256 上把 FID 推到 1.04,并把训练收敛速度相比 DiT 加快约 100×。

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

SenCache 把扩散模型的"哪一步可以复用缓存"这件事,从过去靠经验启发式的拍脑袋,换成对去噪网络局部敏感度(输出对 latent 和 timestep 扰动的雅可比范数)的一阶估计:只有当预测的输出变化低于容差 \(\varepsilon\) 时才复用缓存,从而在不重训、不改架构的前提下逐样本自适应地跳过冗余的网络前向,在 Wan 2.1 / CogVideoX / LTX-Video 上以相同算力换得更高的视觉质量。

ShadowDraw: From Any Object to Shadow-Drawing Compositional Art

ShadowDraw 把任意 3D 物体变成"影子-线稿"合成艺术:系统联合优化光照/物体姿态以投出"有意思"的影子,再用阴影轮廓 + VLM 文本提示去条件化一个线稿扩散模型,让投影的影子刚好补全画家手绘的局部线稿成一幅完整图画,并用自动评估筛掉影子贡献不足的结果。

ShapeAR: Generating Editable Shape Layers via Autoregressive Diffusion

ShapeAR 把"栅格图 → 可编辑矢量图"重新表述为一个生成式的分层堆叠任务:用潜空间的 flow-matching 扩散,在原图(全局上下文)和已生成图层的部分合成图(局部上下文)双重条件下,自回归地一次生成一组互不重叠的 RGBA 形状图层,从而恢复出"艺术家手画风格"的、完整且可重排的闭合形状,在多个矢量化指标上超过此前 SOTA。

ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

ShowTable 提出了"创意表格可视化"这一新任务(将数据表格生成为信息图),并设计了一个 MLLM(推理+反思)与扩散模型(生成+精修)协同的渐进式自纠错 pipeline,通过针对性训练的重写模块和用 RL 优化的精修模块,在自建的 TableVisBench 基准上显著提升所有基线模型的可视化质量。

ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands

ShowUI-π 把机器人里用来做灵巧操作的「流匹配 VLA」搬到 GUI 上,用一个 450M 的轻量动作专家,把点击和拖拽统一成连续坐标轨迹来生成,从而让智能体能完成旋转、绘画、解滑块验证码这类需要边看边调的高自由度拖拽,并配套发布了 ScreenDrag 数据集与在线/离线评测基准。

SIGMA: Selective-Interleaved Generation with Multi-Attribute Tokens

SIGMA 在统一扩散 Transformer(Bagel)上做后训练,给每张参考图打上「风格 / 主体 / 身份 / 布局」等专门的属性 token,把多张参考图和文本以「文本-图像交错」序列喂进模型,再用「组内注意力掩码」防止不同参考图之间串味,从而第一次让统一生成模型支持多条件、多参考图的组合式可控生成。

SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images

本文提出SimLBR,通过在DINOv3潜空间中将少量假图信息混入真图嵌入作为正则化手段,迫使检测器学习真实图像分布的紧致决策边界,从而实现对未知生成器的强泛化能力,在GenImage上平均准确率达94.54%,在硬测试集Chameleon上比AIDE提升25%准确率和70%召回率。

SimplePoster: A Simple Baseline for Product Poster Generation

针对电商商品海报生成的两大刚需——主体不能变形、多行文字要落到指定位置,SimplePoster 把现有方法堆叠的 ControlNet / OCR 编码器全部砍掉,只靠「对 FLUX-Fill 做全参数微调」消除主体外延、靠「零成本的字符级位置编码」实现版面可控文字,主体保持率从 PosterMaker 的 85.3% 提到 98.7%,文字准确率也全面领先。

SJD-PAC: Accelerating Speculative Jacobi Decoding via Proactive Drafting and Adaptive Continuation

本文分析了 Speculative Jacobi Decoding (SJD) 在文本到图像生成中接受长度分布严重偏斜的瓶颈,提出 SJD-PAC 框架,通过 Proactive Drafting (PD) 和 Adaptive Continuation (AC) 两项技术,在严格无损的前提下实现 3.8× 推理加速,显著超越原始 SJD 的约 2× 加速。

SketchAssist: A Practical Assistant for Semantic Edits and Precise Local Redrawing

SketchAssist 把"按文字指令改线稿"和"按手绘线条局部重绘"两件事统一进一个 DiT 框架里——靠一条可控数据合成管线造出结构对齐的成对训练样本,再用 3 通道统一输入表示 + 任务路由 MoE(T-MoE)让同一个模型在两种编辑模式间无缝切换,两个任务都拿到 SOTA。

SketchDeco: Training-Free Latent Composition for Precise Sketch Colourisation

提出SketchDeco,一种无需训练的线稿上色方法,通过全局-局部两阶段策略将区域蒙版和调色板作为精确控制信号,利用扩散模型反演和自注意力注入在隐空间中实现区域精准着色与全局和谐过渡,在消费级GPU上15-20步即可完成。

SketchRevive: Fine-Grained Pixel-to-Vector Sketch Completion with Diffusion-Prior-Guided Multimodal LLMs

SketchRevive 提出"细粒度像素到矢量草图补全"新任务,用一个两阶段框架(扩散模型先在像素层做结构一致的补全,再由 MLLM 做结构感知的精修与矢量化),并通过把扩散中间特征注入 MLLM 视觉流来打通两阶段,在 FID/IoU/SRR 等指标上大幅超过把 ControlNeXt 直接拼 GPT-5/Gemini 的朴素级联。

SkyReels-Text: Fine-Grained Font-Controllable Text Editing for Poster Design

SkyReels-Text 把"换字"建模成区域级编辑任务,用一张用户裁剪的字形参考图(glyph patch)作为显式视觉条件,通过双流 VAE 注入实现零样本字体迁移——既准确替换文字内容,又精确复刻任意字体(包括手写、艺术体),在多个 benchmark 上文字保真度和字体一致性同时拿到 SOTA。

SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

SliderEdit 给指令式图像编辑模型(FLUX-Kontext、Qwen-Image-Edit)的每条子指令配一个"滑块",通过一组共享低秩适配器加部分提示抑制损失,让用户连续、解耦地调节每个编辑的强度——从完全不施加到加倍夸张,而无需为每个属性单独训练。

Smoothing the Score Function to Enhance Generalization in Diffusion Models

本文从理论上证明扩散模型的记忆化(生成样本逐字复制训练样本)源于经验 score function 是一个"尖锐 softmax 加权"的高斯分量和,单个训练点会主导采样导致塌缩;据此提出两种让权重变平滑的方法——噪声去条件化(Noise Unconditioning)和温度平滑(Temperature Smoothing),在几乎不损失生成质量的前提下显著提升泛化、缓解记忆化。

SOLACE: Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

用T2I模型自身的去噪自信心(对注入噪声的恢复精度)作为内在奖励替代外部奖励模型做后训练,在组合生成、文字渲染、文图对齐上获一致提升,且与外部奖励互补可缓解reward hacking。

SounDiT: Geo-Contextual Soundscape-to-Landscape Generation

这篇论文提出了"地理情境下的声景到景观生成"(GeoS2L)这一新任务——从环境声景(而非单个发声物体)合成地理上真实的景观图像,并配套构建了两个大规模声景-景观配对数据集(SoundingSVI 16.9 万对、SonicUrban 23.7 万对)、一个在 DiT 基础上注入声景与场景上下文的 SounDiT 模型,以及一个衡量"地理一致性"的 Place Similarity Score(PSS)评测框架,在 FID 等指标上大幅超越现有音频到图像方法(FID 从 34→16、41→11)。

SparVAR: Exploring Sparsity in Visual Autoregressive Modeling for Training-Free Acceleration

对VAR模型注意力激活模式进行系统分析,揭示三大稀疏特性(注意力汇、跨尺度相似性、空间局部性),并提出SparVAR无训练加速框架,通过跨尺度自相似稀疏注意力(CS⁴A)和跨尺度局部稀疏注意力(CSLA)两个即插即用模块,实现8B模型1024×1024生成降至1秒级(1.57×加速),且几乎不损失高频细节。

Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

本文提出Spatial-SSRL,一种自监督强化学习范式,通过从普通RGB/RGB-D图像自动构造五种pretext任务(patch重排、翻转识别、裁剪修补、深度排序、相对3D位置预测),利用GRPO优化LVLM的空间理解能力,在七个空间benchmark上平均提升3.89%-4.63%,且无需人工标注或外部工具。

SpatialDiff: 3D-Aware Object Movement via Implicit Spatial Modeling

SpatialDiff 在不做显式 3D 重建的前提下,用一个 3D 几何编码器把单图的隐式空间先验注入扩散 Transformer,并辅以潜空间深度监督,从而让指令驱动的图像编辑能在带遮挡、跨深度层的复杂场景里把物体"挪到对的位置"。

SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation

SpatialReward 是一个面向文生图(T2I)的"可验证"空间奖励模型:它先把自由文本拆成结构化约束,再用目标检测/OCR 等专家模型对生成图做客观核验,最后让视觉语言模型基于这些已核验的事实做思维链推理给出空间奖励分;接入 Flow-GRPO 强化训练后,SD3.5-M 和 FLUX 在空间一致性上大幅提升(SpatRelBench overall 从 0.23→0.42、0.28→0.46)。

Spatiotemporal Pyramid Flow Matching for Climate Emulation

把"由粗到细"的金字塔流匹配同时拓展到空间和时间两个维度,提出 Spatiotemporal Pyramid Flow(SPF),用一个 DiT 网络在像素空间并行采样十年/逐年/逐月的气候场,既比自回归气候代理模型快 15–28 倍,又在 ClimateBench 上取得更好的 CRPS/RMSE。

SPDMark: Selective Parameter Displacement for Robust Video Watermarking

SPDMark 提出了一种基于选择性参数位移(SPD)的视频扩散模型内嵌水印框架,通过在解码器中学习低秩基 shift 字典并根据水印密钥选择组合,实现了逐帧水印嵌入、不可感知、高鲁棒性和低计算开销,同时支持时序篡改检测与定位。

SpeeDiff: Scalable Pixel-Anchored End-to-End Latent Diffusion Model

SpeeDiff 把潜在扩散模型里"先训 VAE 再冻结、再训扩散"的两阶段流程拆掉,让 VAE 和扩散模型从头联合训练且不加 stop-gradient——关键是用一个 Tweedie 像素重建(TPR)损失把扩散梯度"锚"回像素空间,防止潜空间塌缩,在 ImageNet 256×256 上无引导达到 FID 1.50,训练速度比 Vanilla SiT 快 140×、比 REPA 快 61×。

Spherical Leech Quantization for Visual Tokenization and Generation

本文把 LFQ / FSQ / BSQ 等无查表(non-parametric)量化统一成「格码(lattice code)」语言,指出熵正则项本质是在做格点重定位,进而用「最密超球堆叠」原则导出基于 24 维 Leech 格的球面量化 \(\Lambda_{24}\)-SQ,把视觉码本规模一举推到约 20 万,既不需要任何熵/commitment 正则就能训 tokenizer,又首次让离散视觉自回归模型在 ImageNet-1k 上用约 20 万码本达到接近 oracle 的 1.82 gFID。

Spk2VidNet: A Hierarchical Recurrent Architecture for High-Fidelity Video Reconstruction from Long Spike-Camera Streams

针对脉冲相机超分(SCSR)只能处理固定短序列、且脉冲信号有波动的两大痛点,Spk2VidNet 用「逐层放大时间感受野的两层递归传播 + 多帧一致性对齐 + 内容感知调制融合 + 分段训练状态传递」从任意长脉冲流重建高分辨率图像序列,在合成与真实数据上以更快速度刷新 SOTA(REDS-LSSR ×4 PSNR 29.92dB、推理仅 43ms)。

SplitFlux: Learning to Decouple Content and Style from a Single Image

本文系统剖析了 FLUX 模型中各 block 的功能分工,发现 single stream block 才是图像生成的关键、且前段控内容后段控风格,据此用 LoRA 只微调这些 block 实现单图内容/风格解耦,并配合 Rank-Constrained Adaptation 保身份、Visual-Gated LoRA 让解耦内容能重新嵌入新场景,在内容保真度上大幅超过 SDXL/FLUX 基线方法。

SpotEdit: Selective Region Editing in Diffusion Transformers

SpotEdit 是一个无需训练的 DiT 图像编辑框架,利用"非编辑区域在去噪早期就快速收敛"这一现象,用感知相似度自动找出稳定 token 并把它们移出 DiT 计算、直接复用条件图特征,配合一个随时间退火的 KV 融合机制保住上下文,从而在 FLUX.1-Kontext 上做到 1.7×–1.95× 加速且编辑质量几乎不掉。

SPREAD: Spatial-Physical REasoning via geometry Aware Diffusion

SPREAD 把"物体怎么摆才符合物理"做成一个引导扩散框架:用图 transformer 同时编码空间关系图和物理关系图,在每一步去噪时通过几何感知 Perceiver 直接"看"到带噪网格之间的碰撞与穿插,并在推理阶段用碰撞 / 重力 / 支撑三路可微引导把物体推到物理一致的位姿,从而生成在 Isaac Sim 里仿真也几乎不塌的、可直接用于具身 AI 的 3D 室内场景。

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

SRA 2 直接拿 latent diffusion 第一阶段那个现成的 SD-VAE 编码特征当监督信号,用一个轻量 MLP 把 SiT 中间层特征投影过去做对齐,不引入任何外部表征编码器、也不维护双模型 teacher,就把扩散 Transformer 的训练收敛加速了最多 7×,且只多了 4% 的 GFLOPs。

Stability-Driven Motion Generation for Object-Guided Human-Human Co-Manipulation

给定一个物体的网格和它的运动轨迹,本文用 flow matching 框架生成两个人协同搬运这个物体的全身动作,并通过「affordance 引导的接触策略 + 对抗交互先验 + 基于采样的稳定性仿真」三个模块,让生成动作同时满足意图正确(手抓对地方)、姿态自然、物理稳定(不漂浮、不穿模),在 Core4D 上接触准确率、穿模、分布保真度都显著超过现有 HOI 基线。

Stable Mean Flow: Lyapunov-Inspired One-Step Flow Matching

给当前最强的一步生成方法 Mean Flow 加一项受 Lyapunov 稳定性启发的"非膨胀"正则,强制单步传输映射不放大邻域扰动,从而消除训练中 JVP 爆 NaN/Inf 的失稳问题,并在 CIFAR-10 上把单步 FID 从 2.92 压到 2.86、收敛明显更快。

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

StableMaterials 是一个基于潜在扩散模型的 PBR 材质生成方法,通过"半监督对抗蒸馏"把大规模图像模型 SDXL 的多样性知识迁移进材质域——在只有约 6,200 个有标注材质的窘境下,用 SDXL 生成的无标注纹理补足训练分布,再配合少步 LCM 蒸馏、特征滚动平铺和扩散精修,做到了快速、可平铺、高分辨率且多样的材质生成。

STCDiT: Spatio-Temporally Consistent Diffusion Transformer for High-Quality Video Super-Resolution

STCDiT 在预训练视频扩散模型(Wan2.1)之上做真实世界视频超分:用"运动感知 VAE 分段重建"解决复杂相机运动下 VAE 重建失真,再用"锚帧引导增强"把每个片段首帧潜变量里保存完好的空间结构信息注入生成过程,只增加约 LoRA 参数 7% 的可训练量就在结构保真度与时序一致性上全面超过 SeedVR、STAR 等 SOTA。

Steering Where to Diffuse: Generative Modeling of Phenotypic Response Simulation with Steered Diffusion Bridge

SimuSDB 把"给定一张未扰动细胞图、预测它在某种药物/基因扰动下会变成什么形态"这件事建模成一条从源细胞分布到扰动后分布的随机扩散桥:用条件布朗桥让轨迹在确定性主干周围发散以覆盖表型多样性,再把"生成结果要符合特定扰动表型"这个约束转写成随机最优控制问题来引导漂移项,在 BBBC021、RxRx1、JUMP 等基准上的 FID/KID 全面超过扩散、flow matching 和 GAN 基线。

Stepwise-Flow-GRPO:给流匹配模型的去噪步逐步分配信用

针对 Flow-GRPO 把"最终图像的同一个优势"平摊给所有去噪步这一缺陷,本文用 Tweedie 公式估计每一步的中间奖励、再以"相邻步奖励增益"作为逐步优势来做 GRPO,并配一个 DDIM 式 SDE 提升采样质量,在文生图 RL 上拿到更高的样本效率和更快的收敛。

StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars

提出两阶段自回归适配加速框架(自回归蒸馏 + 对抗精炼),将双向人体视频扩散模型转化为实时流式生成器,通过 Reference Sink、RAPR 位置重编码和一致性感知判别器保证长视频稳定性,实现首个支持说话和倾听交互的全身实时数字人。

StreamDiT: Real-Time Streaming Text-to-Video Generation

StreamDiT 提出了一套完整的流式视频生成方案(包括训练、建模和蒸馏),通过在 Flow Matching 中引入带渐进去噪的移动缓冲区和混合分区训练策略,结合时变 DiT 架构和窗口注意力,以及定制化的多步蒸馏方法,使 4B 参数模型在单 GPU 上达到 512p@16FPS 的实时流式视频生成。

Streaming Diffusion Model for Fast Infrared and Visible Video Fusion

SDMFusion 把预训练扩散模型蒸成「一步采样 + 流式记忆」的框架来做红外-可见光视频融合:用单步残差采样换取实时速度、用光流对齐的记忆单元加门控时序聚合 adapter 保证帧间连贯,并配一个时序一致性损失抑制闪烁与拖影,在四个 benchmark 上同时拿到 SOTA 质量和最快推理。

Style-GRPO: Semantic-Aware Preference Optimization for Image Style Transfer Guided by Reward Modeling

针对扩散编辑模型做风格迁移时"风格泄漏 + 语义漂移"的老问题,本文造了一个 30 万对抗图像对的偏好数据集 StyleReward-Dataset,训出一个能同时打分风格一致性与内容保真度的多模态奖励模型 StyleScore,再用「SFT 域适配 + GRPO 偏好优化」两阶段把 FLUX.1[Kontext] 调成 SOTA,在 ImgEdit / AnyEdit 上风格保真和内容保留双双领先,用户研究中 87.5% 被选为第一。

StyleDoctor: Towards Specialist Reward Model for Style-centric Generation Tasks

StyleDoctor 用一个基于多模态大模型(Qwen2.5-VL-3B)的「风格专用奖励模型」替代通用的人类偏好奖励模型——先构建 40 万条「四元组」风格偏好数据集 SPRData,再三阶段训练让模型同时会读图像风格和文本风格语义,最终作为奖励信号去强化微调扩散模型,把风格生成/迁移的风格一致性显著拉高。

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

StyleGallery 是一个训练免的语义感知风格迁移框架:它先用扩散模型的中间特征对内容图做无监督语义聚类,再用统计/语义/几何三个维度把内容区域与任意张参考风格图中最相关的区域自适应匹配,最后用区域风格损失引导扩散采样,从而在不要外部掩码的前提下实现可解释、可个性化定制的细粒度风格迁移。

StyleTextGen: Style-Conditioned Multilingual Scene Text Generation

StyleTextGen 把"按参考图风格生成场景文字"建模成 DiT 扩散修复(inpainting)任务,用双分支风格编码器(文字分支抠字形纹理 + 视觉分支补全局基调)提取与背景解耦的风格嵌入,再配一个只在文字区域算的风格一致性损失和只在前 10 步注入参考 KV的推理策略,在中英文单语和跨语言场景文字生成上都刷新了风格相似度与文字正确率的 SOTA。

Synthetic Curriculum Reinforces Compositional Text-to-Image Generation

CompGen 用场景图的结构复杂度定义"组合难度",再用自适应 MCMC 在指定难度区间内采样场景图、拼成训练 prompt,最后把"由易到难"的课程权重塞进 GRPO 的奖励里——全程不需要任何 ground-truth 图像,就把扩散模型和自回归 T2I 模型的组合生成能力平均提升了 7~12 个点。

SynthRGB-T: Language-Vision Guided Image Translation for Diversity Synthesis

SynthRGB-T 把红外↔可见光图像翻译重新表述为「视觉-语言引导的去噪扩散」,用基础模型自动抠出前景语义先验、再把前景/内容/文本三路条件解耦地注入 U-Net 不同分辨率层,实现一个模型既能双向翻译又能按文本提示生成多样化结果,在 I2V 和 V2I 两个方向多个真实基准上都拿到 SOTA。

TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

针对统一图像生成与编辑模型中严重的任务干扰问题,提出 TAG-MoE 框架,通过层次化任务语义标注方案和预测性对齐正则化将高层任务意图注入 MoE 局部路由决策,使门控网络从任务无关的执行器进化为语义感知的调度中心,在 ICE-Bench、EmuEdit、GEdit、DreamBench++ 等五个基准上取得开源模型最优综合性能。

Taming Generative Diffusion Model for Task-Oriented Infrared Imaging

把红外图像恢复重写成「单步扩散」——用一个轻量预测器把退化输入对齐到扩散轨迹上的最优时间步 \(\hat t\),再配上波域光谱正则保住热辐射特性、任务感知低秩适配让一套模型靠优化几百维 prompt 就能切换到检测/分割等下游任务,在恢复质量、语义保持和效率上同时超过现有方法。

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

提出 D2-Align 框架,通过在奖励模型嵌入空间中学习方向性修正向量来纠偏奖励信号,解决扩散模型 RLHF 对齐中的偏好模式坍塌(PMC)问题——即模型过度优化奖励导致生成多样性严重下降;同时提出 DivGenBench 基准用于量化评估生成多样性。

Taming Sampling Perturbations with Variance Expansion Loss for Latent Diffusion Models

揭示了潜在扩散模型中β-VAE tokenizer因方差坍缩导致潜空间过于紧凑、对扩散采样扰动极敏感的问题,提出Variance Expansion (VE) Loss通过重构与方差扩展的对抗式平衡来自适应学习鲁棒的潜空间方差,在多种扩散架构上一致提升生成质量(FID 1.18)。

Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control

WorldForge 提出一个完全无训练的推理时引导框架,通过三个协同组件——步内递归精化(IRR)、光流门控潜变量融合(FLF)和双路径自校正引导(DSG)——将预训练视频扩散模型改造为精确相机轨迹可控的 3D/4D 生成工具,在轨迹精度和感知质量上同时超越训练式和推理式基线。

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

提出 TAP 框架,通过第一层探针(probe)为每个 token 在每一步自适应选择最优预测器(Taylor 展开族),实现无需训练的扩散模型加速,在 FLUX.1-dev 上以 6.24× 加速且无感知质量损失。

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

提出基于 Padé 有理函数近似的特征残差预测框架 TC-Padé,通过自适应系数调节和分阶段感知策略,在低步数(20-30步)扩散采样场景下实现轨迹一致的加速(FLUX.1-dev 2.88×、Wan2.1 1.72×),显著优于基于 Taylor 展开的现有方法。

Temporal Equilibrium MeanFlow: Bridging the Scale Gap for One-Step Generation

针对 MeanFlow 一步生成在加大"轨迹样本"比例时训练崩坏的问题,本文诊断出根因是不同时间尺度的梯度方差严重失衡,提出"时间均衡加权 + 动态边界调度"两个零额外推理开销的改动,把 ImageNet 256×256 的 1-NFE FID 刷到 2.62,超过所有扩散/流式一步方法。

Test-Time Alignment of Text-to-Image Diffusion Models via Null-Text Embedding Optimisation

不改模型权重、也不去拧噪声/latent,而是只优化 Classifier-Free Guidance 里那个"空文本嵌入"(null-text embedding),让扩散模型在推理阶段对齐目标奖励——因为文本嵌入空间是结构化语义流形,这样既能把奖励顶到 SOTA,又不会靠非语义噪声"作弊"(reward hacking)。

Test-Time Instance-Specific Parameter Composition: A New Paradigm for Adaptive Generative Modeling

本文提出 Composer,一个即插即用的元生成器框架,在推理时根据每个输入条件动态生成低秩参数更新并注入预训练模型权重,以极低的计算开销(时间+0.2%、内存+3.6%)实现逐实例自适应的高质量图像生成,在类条件生成、文本到图像、后训练量化和测试时缩放等场景中均显著提升性能。

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

提出 TextPecker——一种即插即用的结构异常感知 RL 策略,通过构建字符级结构异常标注数据集训练结构感知识别器,替代传统 OCR 的噪声奖励信号,联合优化语义对齐和结构保真度,在多个文本到图像模型(FLUX、SD3.5、Qwen-Image)上显著提升视觉文本渲染质量。

Texvent: Asynchronous Event Data Simulation via Text Prompt

Texvent 用文本提示直接生成异步事件相机数据——先用多模态大模型(如 Cosmos)把文本渲染成视频,再用一个全新的免训练物理仿真器把视频转成事件流,靠「亮度感知插帧 + 平衡对数强度对比 + 亮度缓存」三招同时拿到比级联式 baseline 高一截的保真度和接近最快的速度。

The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

ImageCritic 把"修复定制化生成图里的细节不一致"做成一个参考引导的后编辑任务:先用 VLM 筛选 + Flux-Fill 主动退化构造出 10k 参考-退化-目标三元组数据,再在 Flux Kontext 上引入注意力对齐损失和细节编码器,让模型精准定位并对齐文字、logo 等小细节,并用一套 Agent 链实现一键自动化多轮修正。

The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy

针对免训练非刚性图像编辑中「注意力坍塌」的问题,本文提出 SynPS:先用图像相似度/文本相似度之比量化每步该编多少,再据此动态缩放注意力共享里 RoPE 的相对距离,在「保留原图结构」与「跟随目标语义」之间逐步自适应平衡,在 PIE-Bench 与自建基准上把 MLLM 评分大幅刷到新 SOTA。

The Drift Kernel: Why Diffusion Models Change Even When Told Not To

当你让扩散模型「什么都别改」时它仍会悄悄改动输入,本文把这种「空操作漂移」量化成一个随噪声强度 \(\sigma\) 二次增长的 Drift Kernel \(K_M(\sigma)\approx k_M\sigma^2+c_M\),并从解码器雅可比的一阶 Taylor 展开给出理论根因、在 12 万对图像上实测验证,证明漂移是解码器结构属性而非 prompt 措辞问题。

The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation

针对文生图 RL 里标量偏好奖励容易被「刷分」(reward hacking)的问题,本文提出 Adv-GRPO:把奖励模型当判别器、用高质量参考图当正样本与生成图对抗共训,并进一步把冻结的视觉基础模型(DINO)当作密集奖励,在不牺牲基准分的前提下显著提升画质、美学与文图对齐,人评胜率最高 85%+。

The Universal Normal Embedding

提出 Universal Normal Embedding (UNE) 假说:生成模型(扩散模型)和视觉编码器(CLIP、DINO)的隐空间共享一个近似高斯的底层几何结构,二者可视为该共享空间的含噪线性投影;通过 NoiseZoo 数据集和大量实验验证了该假说,并展示了在 DDIM 反演噪声空间中直接进行线性语义编辑的能力。

TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

TherA 用一个"热感知"视觉语言模型(TherA-VLM)从 RGB 图推断出场景/物体/材质/发热状态的结构化热语义嵌入,再把这个嵌入注入潜空间扩散模型来条件生成 TIR 图,从而把 RGB→热红外翻译从"风格迁移"升级为"符合热物理"的可控合成,零样本翻译平均指标比 SOTA 高出最多 33%。

ThinkGen: Generalized Thinking for Visual Generation

ThinkGen 把 MLLM 的 <think> 思维链显式接进图像生成:用一个解耦的「MLLM 想 + DiT 画」架构,再配上交替强化 MLLM 与 DiT 的 SepGRPO 训练,让同一个模型在文生图、文字渲染、图像编辑、推理生成等多种场景里自动触发 CoT 推理,并在 GenEval (0.89)、CVTG (0.84)、ImgEdit (4.21) 等多个 benchmark 上达到 SOTA。

Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

本文提出 TWIG(Thinking-while-Generating),第一个让文本推理"边生成边介入"的文生图框架——在自回归图像生成的过程中按区域插入文本思考,既为下一块画面提供局部指引、又对刚画完的区域打分纠错,并用 zero-shot / SFT / RL 三条路线验证;在 Janus-Pro-7B 上把 T2I-CompBench 的颜色绑定从 63.6 提到 82.5。

TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models

提出 TINA(Text-free INversion Attack),通过在 null-text 条件下优化 DDIM 反演找到精确的初始噪声,绕过所有基于文本的概念擦除防御,证明当前擦除方法仅切断了文本-图像映射而未真正删除模型内部的视觉知识。

TokenLight: Precise Lighting Control in Images using Attribute Tokens

提出 TokenLight,将图像重光照表述为以属性 token(强度、颜色、环境光、漫反射级别、3D 光源位置)为条件的端到端图像生成任务,在扩散 Transformer 框架中实现精确、连续、可解释的光照控制。

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

针对 T2I 模型生成图像"太鲜艳不像真实照片"的问题,提出 Color Fidelity Dataset (CFD, 130 万图像)、Color Fidelity Metric (CFM, 基于 Qwen2-VL + softrank loss) 和 Color Fidelity Refinement (CFR, 无训练的时空自适应 guidance 调制),形成评估-改善一体化框架。

Toward Diffusible High-Dimensional Latent Spaces: A Frequency Perspective

作者用频率扰动实验拆开了潜在扩散里"重建越好、生成反而越差"的高维 trade-off——根因是解码器极度依赖高频潜在分量、而编码器恰恰会丢掉高频——并据此提出 FreqWarm:训练早期先用低通滤波后的图像喂扩散模型做高频"热身"、再切回全频微调,不动任何自编码器就把多个高维 VAE 的 gFID 降了 4~14 分。

Toward Early Quality Assessment of Text-to-Image Diffusion Models

本文提出 Probe-Select,一个挂在扩散去噪器中间激活上的轻量探针:只跑到生成轨迹的 20% 就能预测一张图最终的质量分,从而提前砍掉没希望的随机种子,把"先生成一堆再挑"流程的采样开销砍掉约 64%,同时被保留图像的质量反而更高。

Towards Fine-Grained Attribution: Instance-Aware Preference Optimization for Aligning Diffusion Models

针对扩散模型 DPO 对齐里「一张图只有一个偏好标签」导致的空间稀疏奖励问题,IAPO 用 VLM + 检测器自动标注出实例级偏好数据集,再用一个带动态重加权掩码的实例对齐损失,把信用分配从整图粒度细化到单个物体粒度,在多个 benchmark 上达到 SOTA 且训练效率比 InPO 高 3.27 倍。

Towards High-resolution and Disentangled Reference-based Sketch Colorization

针对"参考图引导线稿上色"中训练/推理分布不一致导致的空间纠缠(模型把参考图的空间结构错误地搬进结果),本文用一个共享权重的双分支特征对齐(DBFA) 架构显式建模训练态和推理态,并用一个Gram 正则损失强制两支的空间相关性一致,从根上把"几何来自线稿、颜色风格来自参考"解耦;再配合 anime 专用 WD-Tagger 编码器和低层 Plugin 模块,在 1024~1280px 高分辨率下做到 SOTA 的上色质量与可控性。

Towards Photorealistic and Efficient Bokeh Rendering via Diffusion Framework

MagicBokeh 用一个单步扩散框架把"高倍数字变焦下的超分辨率"和"散景(虚化)渲染"统一在同一个模型里,通过交替训练策略 + 焦点感知掩码注意力解决两任务的优化冲突,再配一个退化感知深度模块从低质输入估出可靠视差图,在低分辨率真实手机照片上以 0.1s 级速度做出比"先超分再虚化"两阶段流水线更逼真的散景。

Towards Robust Sequential Decomposition for Complex Image Editing

针对"一条指令里塞了多个编辑操作还互相依赖"的复杂图像编辑,本文把"序列分解"放进 in-context editing 框架里研究,用 Blender 合成出带分解标注的高质量编辑链来微调 BAGEL,并设计了一个能调节"历史编辑结果影响力"的 Context-Guided Sequential Editing 范式,使得分解步数越多反而越稳,并能通过和真实数据共训迁移到真实图像。

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

提出 STALL,一种无需训练的零样本生成视频检测器,通过在白化嵌入空间中联合建模逐帧空间似然和帧间时序似然,仅依赖真实视频校准即可实现对多种生成模型的鲁棒检测。

Training-free Mixed-Resolution Latent Upsampling for Spatially Accelerated Diffusion Transformers

针对扩散 Transformer(DiT)推理慢的问题,本文提出免训练的 RALU(Region-Adaptive Latent Upsampling):先在 1/4 token 的低分辨率潜空间去噪,再只对易出走样的边缘区域提前上采样、用 NT-Matching 把上采样后偏离的噪声/时间步分布拉回原轨迹,最终在 FLUX 上拿到 7.0× 加速、与时序加速及蒸馏模型叠加可达 15.9×,且画质几乎不掉。

Training-free Motion Factorization for Compositional Video Generation

提出一个运动分解框架,将场景中多实例的运动分解为静止、刚体运动和非刚体运动三类,通过结构化运动图推理(SMR)解决 prompt 的语义歧义,通过解耦运动引导(DMG)在扩散过程中针对性地调控三类运动的生成,无需额外训练即可在 VideoCrafter-v2.0 和 CogVideoX-2B 上显著提升运动多样性和保真度。

Training-free, Perceptually Consistent Low-Resolution Previews with High-Resolution Image for Efficient Workflows of Diffusion Models

为了让用户在"撞种子/调 prompt"的反复试错阶段不必每次都付出高分辨率(HR)出图的算力,本文提出一种免训练的低分辨率(LR)"预览图"生成法:把"LR 要和 HR 在感知上一致"这一目标,重新表述成 flow matching 模型与下采样算子之间的对易子为零(commutator-zero)条件,并用"下采样矩阵择优 + 对易子归零引导"两步在采样中近似满足它,在最多省 33% 算力的同时保住 LR↔HR 的构图与色彩一致性,叠加时间轴加速后可达 3.05× 提速。

Transition Models: Rethinking the Generative Learning Objective

TiM 把扩散模型"无穷小步"的 PF-ODE 监督推广成一个对任意时间间隔 \(\Delta t\) 都精确成立的状态转移恒等式,让一个 865M 的小模型既能 1 步出图、又能随采样步数单调变好,在 GenEval 上以远小于 SD3.5(8B)/FLUX.1(12B)的体量反超它们。

Ultra Diffusion Poser: Diffusion-Based Human Motion Tracking From Sparse Inertial Sensors and Ranging-Based Between-Sensor Distances

把 6 个 IMU 之间的 UWB 测距从"额外特征"升级为"几何约束"——先用多维标度(MDS)从两两距离解析重建 3D 传感器布局当作扩散条件,再在去噪采样时用前向运动学把预测姿态映回传感器距离做引导对齐,使稀疏惯性人体姿态估计的关节位置误差最多降低 22%。

UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios

UltraFlux 从"数据-模型协同设计"角度把 Flux DiT 原生训到 4K:先造一个百万级、覆盖多宽高比、带 VLM/IQA 元数据的 4K 数据集 MultiAspect-4K-1M,再在模型侧同时改造位置编码(Resonance 2D RoPE + YaRN)、VAE(非对抗后训练)、训练目标(SNR-Aware Huber 小波损失)和训练课程(分阶段美学课程学习),从而在 Aesthetic-Eval@4096 等基准上稳定超过开源 4K 基线,配上 LLM 提示词改写器后逼近甚至部分超过闭源 Seedream 4.0。

Understanding, Accelerating, and Improving MeanFlow Training

本文通过受控实验拆解 MeanFlow 同时学习"瞬时速度 \(v\) 与平均速度 \(u\)"时的训练动力学,发现 \(v\) 必须先建立、且小时间间隔 \(\Delta t\)\(u\) 监督有利而大间隔有害,据此设计了"先加速 \(v\) 形成 + 渐进式 \(L_u\) 加权(小间隔优先逐步过渡到全间隔均衡)"的训练方案,在同样 DiT-XL 骨干上把 1-NFE ImageNet 256×256 的 FID 从 3.43 降到 2.87,并实现约 2.5× 的收敛加速。

Uni-DAD: Unified Distillation and Adaptation of Diffusion Models for Few-step Few-shot Image Generation

提出 Uni-DAD,首个将扩散模型蒸馏(distillation)与域适应(adaptation)统一为单阶段流程的方法,通过双域 DMD 损失和多头 GAN 损失,在仅 1–4 步采样下实现少样本域的高质量多样生成。

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

作者用「端到端编辑 + 统一后验证」的轻量管线造出 1000 万级(实际约 1158 万)指令式图像编辑数据集 UnicEdit-10M,并训练一个 7B 双任务专家模型 Qwen-Verify 在低成本下做失败过滤与指令重述,同时配套提出覆盖基础编辑与复杂推理编辑的基准 UnicBench 及一组细粒度指标,系统诊断主流编辑模型的短板。

UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying

UniEdit-I 把统一视觉-语言模型(VLM)自己的语义潜空间(CLIP 特征)当作可编辑画布,引入「理解—编辑—验证」(UEV)闭环:用 VLM 解析指令、在 CLIP 空间走 FlowEdit 轨迹、再用 VLM 实时打分动态调节编辑强度并决定早停/重试,从而无需任何微调或改结构就在 GEdit-Bench 上做到开源最优、逼近 GPT-4o。

Unified Customized Generation by Disentangled Reward Modeling

USO(Unified Simultaneous Optimization)把"主体驱动生成"和"风格驱动生成"当作互补任务统一进一个 DiT 模型,先用两个专家模型构造跨任务三元组数据、再用解耦编码 + 随机条件丢弃 + 辅助风格奖励联合训练,在主体一致性、风格相似度、文本可控性三方面同时刷到开源 SOTA。

Unified Latent Space for Understanding and Generation via Semantic Auto-encoder

针对"语义编码器潜空间有语义但丢几何、重建 VAE 潜空间有几何但没语义"这一根本权衡,本文用冻结的 DINOv3 当编码器、配两阶段渐进训练和一个把学生编码器拉回教师特征的语义正则化损失,得到一个同时支持高保真重建(rFID 0.06)和线性探测分类(ImageNet 81.9%)的统一潜空间 Semantic Auto-encoder(S-AE)。

Unified Vector Floorplan Generation via Markup Representation

本文提出 Floorplan Markup Language (FML) 标记语言,将房间、门等户型元素编码为结构化 token 序列,用一个 LLaMA 风格的 Transformer 模型(FMLM)统一解决无条件/边界条件/图条件/补全等多种户型图生成任务,FID 指标比 HouseDiffusion 低 80%+。

UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in RL

UniGen-1.5 把图像理解、文生图和图像编辑塞进同一个 7B 多模态大模型,关键创新是把"图像编辑"重写成"普通图像生成",从而让文生图和编辑共用同一套奖励模型做统一 RL(GRPO),再配一个轻量的 Edit Instruction Alignment 阶段补齐指令理解,最终在 GenEval(0.89)、DPG-Bench(86.83)和 ImgEdit(4.31)上超过 BAGEL 等开源模型、逼近 GPT-Image-1。

UniGenDet: 面向生成-检测协同进化的统一生成-判别框架

UniGenDet 把"造假"(图像生成)和"打假"(生成图像检测)塞进同一个统一多模态模型里两阶段联合训练——先用共生自注意力把生成器对图像分布的理解注入检测器、再用冻结检测器当"真实性教师"反向对齐生成器特征,让两者在一个闭环里互相喂招,最终检测精度(FakeClue 98.0% Acc)和生成保真度(FID 22.9→17.5)同时提升。

UniPercept: A Unified Diffusion Model for Generalizable Visual Perception

UniPercept 把一个 DiT 扩散模型改造成「共享基座 + 轻量适配器」的通用视觉感知框架:基座在深度、法线、反照率、分割等 7 个感知任务上联合训练学到通用感知先验,新任务只需训练 <1% 参数的小适配器、1000 张样本就能高效适配,在 14 个感知任务上多数超过统一型生成模型、逼近专用模型。

UniVerse: A Unified Modulation Framework for Segmentation-Free, Disentangled Multi-Concept Personalization

UniVerse 用一个统一的「参考条件提取器(RCE)」从未经分割的真实照片里,依据参考 prompt 同时抽出视觉条件隐变量和文本调制偏移量,在 Diffusion Transformer 上实现免分割、可解耦、可组合的多概念个性化生成,在 XVerseBench 与新提出的 UniVerseBench 上全面超过现有方法。

UniVerse: Empower Unified Generation with Reasoning and Knowledge

针对统一多模态模型「能看懂复杂提示却画不对」的痛点,本文构造了一个 120k 规模、由「隐式提示→推理链→显式提示」三元组配真值图像组成的数据集 UniVerse,并提出 CoT 注入训练把推理过程显式接进生成链路,让 Bagel 在 WISE / R2I-Bench 上的推理与知识类生成显著且一致地提升。

VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

自回归(AR)图像生成里 tokenizer 和生成器的训练目标是脱节的(一个学像素重建、一个只学 token 似然),VA-π 把二者的对齐写成一个变分目标(ELBO),再用强化学习把"解码回去能不能重建出原图"当作像素级奖励来微调 AR 生成器——只用 1% 的 ImageNet 数据、25 分钟,就把 LlamaGen-XXL 的 FID 从 14.36 降到 7.65。

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

针对视觉自回归(VAR)模型逐尺度生成时各步「query token 数量」剧烈波动、直接套 GRPO 会产生异步策略冲突的问题,本文用「中间回报分段(VMR)+ 按 token 数归一化加权(PANW)+ 时空掩码传播(MP)」三件套改造 GRPO,在文本渲染任务上把 Nextflow 的词准确率从 0.55 拉到 0.78,并在扩散类基线中拿到 HPSv3 SOTA。

VDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation

针对整流流(Rectified Flow)生成模型采样慢的问题,本文提出 VDE:把每步预测的速度沿当前输入分解为平行分量和正交分量,利用这两个分量"标量系数随时间近似线性、正交方向短期几乎不变"的规律,在大部分步骤上用线性外推 + 方向复用直接从当前输入估计速度、跳过模型前向,从而在 FLUX/Qwen-Image/Wan2.1 上取得 2.04–3.22× 加速且画质几乎无损(Qwen-Image 上 LPIPS 比最强基线再降 52.2%)。

VecGlypher: Unified Vector Glyph Generation with Language Models

提出VecGlypher——首个统一文本和图像引导的矢量字形生成语言模型,通过两阶段训练(大规模SVG语法学习+专家标注对齐)直接自回归生成可编辑SVG路径,无需光栅中间步骤或向量化后处理。

VectorArk: Learning Practical Image Vectorization with Rounded Polygon Representation

VectorArk 把"光栅图→矢量图(SVG)"重新设计成对生成模型友好的圆角多边形表示,配合轮廓化输入、矢量化退化训练和 DINO 排序的测试时缩放,让一个仅 1B 参数的多模态 LLM 在真实世界(含文生图输出)的矢量化任务上几何完整度和去伪影能力都大幅超过 StarVector / OmniSVG。

VFM-VAE: Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models

把一个冻结的视觉基础模型(VFM,如 SigLIP2-Large)直接当作隐空间扩散模型的 VAE 编码器,再配一个多尺度专用解码器把语义特征解回逼真图像,从而跳过"蒸馏对齐"带来的表示退化——结果在 ImageNet 256×256 上用 80 epoch 就把 gFID(无 CFG)做到 2.22(比此前 tokenizer 快约 10×),训练到 640 epoch 进一步到 1.62。

Vibe Spaces for Creatively Connecting and Expressing Visual Concepts

本文提出 Vibe Blending 任务(把两张图按"最相关的共享属性"——所谓"vibe"——融成连贯杂交体)和 Vibe Space 方法:用图扩散映射在 CLIP/DINO 特征空间里学一个低维"小世界"流形,让原本弯曲的测地线变成可线性插值的路径,从而生成比 GPT、Gemini 更被人类认可的创意混合图。

VibeToken: Scaling 1D Image Tokenizers and Autoregressive Models for Dynamic Resolution Generations

VibeToken 提出一个"分辨率无关"的 1D Transformer tokenizer,把任意分辨率/长宽比的图像压成 32–256 个动态长度的离散 token,再配一个常数算力的自回归生成器 VibeToken-Gen,用 64 个 token 就能生成 1024×1024 图像(3.94 gFID),推理 FLOPs 比 LlamaGen 低 63 倍,把 AR 生成的算力曲线从"随分辨率二次增长"拉成一条水平线。

VideoCoF: Unified Video Editing with Temporal Reasoner

提出 VideoCoF,一种受 Chain-of-Thought 启发的"看→推理→编辑"视频编辑框架,通过让视频扩散模型先预测编辑区域的推理 token(灰度高亮 latent),再生成目标视频 token,在无需用户提供 mask 的前提下实现精确的指令-区域对齐,仅用 50K 视频对训练即达到 SOTA 性能,且支持 16 倍训练长度的视频外推。

ViHOI: Human-Object Interaction Synthesis with Visual Priors

提出ViHOI,一个即插即用框架,利用VLM从2D参考图像中提取解耦的视觉和文本先验,通过Q-Former压缩为紧凑条件token来增强扩散模型的HOI运动生成质量,推理时借助文生图模型合成参考图像实现对未见物体的强泛化。

Vinedresser3D: Agentic Text-guided 3D Editing

提出 Vinedresser3D,一个以多模态大语言模型(MLLM)为核心的 3D 编辑智能体,无需用户提供 3D 掩码,通过自动解析编辑意图、定位编辑区域、生成多模态引导,并在原生 3D 生成模型(Trellis)的潜空间中执行基于反演的修补编辑,实现高质量文本引导的 3D 资产编辑。

VINS-120K: Ultra High-Resolution Image Editing with A Large-Scale Dataset

本文构建了首个面向 4K 超高分辨率(UHR)指令式图像编辑的大规模数据集 VINS-120K(12 万条来自真实 UHR 视频的「指令-原图-编辑图」三元组),并提出一套「高频感知后适配」策略——用分辨率感知的注意力/RoPE 重标定稳住长序列、再用频域聚焦损失补回高频细节——把只在 1K 分辨率预训练的编辑模型(FLUX.1-Kontext)扩展到 4K,pFID 相比商用 Seedream 4.0 降低 28%。

VisionDirector: Vision-Language Guided Closed-Loop Refinement for Generative Image Synthesis

针对扩散模型在「一条指令塞 18~22 个目标」的专业设计任务上频繁漏改的痛点,本文先造了 LGBench(2000 任务、29k 个标注目标)把失败暴露出来,再提出 VisionDirector——一个无需训练的「导演式」闭环控制器:用 VLM planner 把长指令拆成结构化目标、动态决定一次生成还是分阶段编辑、每步做 micro-grid 采样 + 语义验证回滚,最后用 GRPO 把 planner 的编辑轨迹从 4.2 步压到 3.1 步,在 GenEval(+7%)和 ImgEdit(+0.07)上刷到新 SOTA。

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

ViStoryBench 构建了一个包含 80 个多风格故事、344 个角色、1317 个镜头的综合基准,提出 12 项自动化评估指标(涵盖角色一致性、风格相似度、提示对齐、copy-paste 检测等),系统评估了超过 25 种开源/商业故事可视化方法,填补了该领域缺乏统一评估标准的空白。

Visual Diffusion Models are Geometric Solvers

作者发现一个标准的视觉扩散模型(U-Net 去噪器),只要把几何难题画成图像、把扩散采样当成"从噪声生成有效解"的过程,就能直接在像素空间里逼近一批 NP-hard 的几何问题(内接正方形、Steiner 最小树、最大面积简单多边形),三个问题共用同一套架构、只换训练数据。

Visual Personalization Turing Test

本文把"视觉个性化"从"复刻身份"重新定义为"图灵测试式的不可区分"——一个模型生成的图像/视频/3D 内容如果让人类或校准过的 VLM 裁判误以为是某个特定用户本人会创作或分享的,就算通过 VPTT;并配套给出 1 万人画像的隐私安全基准 VPTT-Bench、免训练的检索增强生成引擎 VPRAG,以及与人类判断高度相关(Spearman ρ≈0.68)的纯文本代理指标 VPTT Score。

VOSR: A Vision-Only Generative Model for Image Super-Resolution

提出 VOSR,首个证明纯视觉训练的生成式超分模型可以媲美甚至超越基于 T2I 预训练方法的工作,通过视觉语义条件和面向恢复的引导策略实现高质量 SR,训练成本仅为 T2I 方法的 1/10。

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

通过分析蒸馏过程中权重变化的范数-方向分解,发现方向变化是蒸馏的关键驱动因素(变化幅度比范数大 22×),提出 LoRaD(低秩权重方向旋转)适配器,集成到 VSD 框架中构成 WaDi,仅用 ~10% 可训练参数即在 COCO 上取得一步生成 SOTA FID。

What Is It Like to Be a Noise? An Entropy-based Gaussian Noise Regularization for Diffusion Models

针对"推理时优化扩散初始噪声会让 latent 偏离真实高斯统计、引发伪影与 reward hacking"的问题,本文把"一个样本到底像不像高斯噪声"重新定义为分布匹配问题:把单个样本提升为由其局部统计诱导的经验分布、用成对马尔可夫随机场(MRF)建模,再用 Bethe–Kikuchi 近似得到一个可微的高斯性正则项(含 1D 边缘熵 + 2D 空间熵 + 多尺度项),显著提升了 latent 优化的稳定性与生成质量。

When Anonymity Breaks: Identifying Models Behind Text-to-Image Leaderboards

作者发现不同文生图(T2I)模型对同一 prompt 的生成在图像嵌入空间里会聚成各自紧密、彼此分离的簇,于是用一个零训练、黑盒、仅靠最近质心分类的方法,在 22 个模型、280 个 prompt(15 万张图)上把投票排行榜里"匿名"的生成图以 91% 的 top-1 准确率认出来源模型,戳穿了投票式 T2I 排行榜赖以公平的匿名假设。

When Local Rules Create Global Order: Self-Organized Representation Learning for Latent Diffusion Models

本文指出潜在扩散模型(LDM)的好坏取决于其 VAE 潜空间是否同时满足「局部平滑」与「全局弥散」,并提出 SORL——一种自下而上的训练范式,只用「局部吸引」和「局部排斥」两条简单局部规则,让这两种全局结构自发涌现,从而同时提升重建保真度与生成多样性。

When Pretty Isn't Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators

作者把 2022–2025 年间发布的十多个开源 T2I 扩散模型当成"合成训练数据发生器",用它们造图训练分类器、再到真实测试集上评估,发现一个反直觉的规律:模型越新、画面越漂亮、prompt 跟随越好,造出来的数据反而越没用——Synth→Real 准确率随时间持续下滑,根因是新模型把分布坍缩到一个狭窄的"审美中心"流形,丢掉了纹理与高频细节、牺牲了多样性。

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

提出 Conflict-aware Adaptive Safety Guidance (CASG),一种无训练的即插即用框架,通过动态识别与当前生成状态最对齐的有害类别并仅沿该方向施加安全引导,解决了现有安全引导方法在多类别聚合时因方向冲突导致的安全性退化问题。

WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing

WiseEdit 把指令式图像编辑拆成「感知—解读—想象」三级认知步骤、配上「陈述性/程序性/元认知」三类知识,构建了 1,220 条中英双语、含 26% 多图输入的高难度评测集,用 GPT-4o 在五个维度(含自创的知识保真度 KF 与创造性融合 CF)打分,系统地暴露出当前 SOTA 编辑模型在知识推理与组合创作上的短板。

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

提出 WISER,一个无训练的零样本组合图像检索(ZS-CIR)框架,通过"检索–验证–精化"迭代循环统一 T2I 和 I2I 双路径检索,利用 VLM 验证器显式建模意图感知和不确定性感知,实现自适应融合与结构化自反思精化。在 CIRCO mAP@5 上相对提升 45%,CIRR Recall@1 上相对提升 57%,甚至超越许多训练式方法。

You Only Erase Once: Erasing Anything without Bringing Unexpected Content

YOEO 用一个仅靠真实图像、没有"擦除后真值"的非配对数据训练出来的少步扩散擦除模型,靠"杂物检测器 + 实体一致性"两个无需配对的监督信号,把物体一次性干净擦掉而不冒出多余内容,参数只有 860M 却在杂物指标上把 12B 的 Flux 系方法甩开一大截。

Your Latent Mask is Wrong: Pixel-Equivalent Latent Compositing for Diffusion Models

这篇论文指出"在 VAE 潜空间里按掩码线性插值两个 latent"这个被广泛使用的修复/编辑套路在数学上是错的,提出"潜空间合成应当与像素空间合成等价(Pixel-Equivalent)"的原则,并用一个仅 7.7M 参数、不动主干的 transformer(DecFormer)学出这个等价算子,把掩码边界误差降低最多 53%,且 FLOP 开销仅约 3.5%。