🎨 图像生成¶
🤖 AAAI2026 · 78 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (11) · 📷 CVPR2026 (240) · 🔬 ICLR2026 (154) · 🧠 NeurIPS2025 (250) · 📹 ICCV2025 (219) · 🧪 ICML2025 (115)
🔥 高频主题: 扩散模型 ×32 · 文生图 ×7 · 对齐/RLHF ×6 · 布局/合成 ×5 · 超分辨率 ×5
- AEDR: Training-Free AI-Generated Image Attribution via Autoencoder Double-Reconstruction
-
提出一种基于自编码器双重重建损失比值的免训练图像归因方法,通过图像均匀度校准消除纹理复杂度偏差,在8个主流扩散模型上平均准确率达95.1%,比最强基线高24.7%,且速度快约100倍。
- Aggregating Diverse Cue Experts for AI-Generated Image Detection
-
提出Multi-Cue Aggregation Network (MCAN),通过混合编码器适配器(MoEA)将原始图像、高频信息和新提出的色度不一致性(CI)三种互补线索统一融合,实现跨生成模型的鲁棒AI生成图像检测。
- Annealed Relaxation of Speculative Decoding for Faster Autoregressive Image Generation
-
提出Cool-SD,一种有理论支撑的退火松弛speculative decoding框架:通过推导TV距离上界得到最优重采样分布,并证明接受概率递减调度比均匀调度产生更小的分布偏移,在LlamaGen和Lumina-mGPT上实现了比LANTERN++更优的速度-质量权衡。
- AnoStyler: Text-Driven Localized Anomaly Generation via Lightweight Style Transfer
-
将零样本异常生成建模为文本引导的局部风格迁移问题,通过轻量级U-Net + CLIP损失将正常图像的掩码区域风格化为语义对齐的异常图像,在MVTec-AD和VisA上以263M参数(仅0.61M可训练)超越扩散模型基线,同时显著提升下游异常检测性能。
- Backdoors in Conditional Diffusion: Threats to Responsible Synthetic Data Pipelines
-
揭示了 ControlNet 条件分支的后门攻击漏洞:仅需 1–5% 的投毒数据即可在不修改扩散主干的前提下植入后门,触发时无视文本 prompt 生成攻击者指定内容,并提出 clean fine-tuning (CFT) 作为实用防御。
- Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images
-
揭示扩散模型在生成图像中嵌入 NSFW 文字的新威胁,提出基于文本生成层定向 LoRA 微调的 NSFW-Intervention 方法,并发布 ToxicBench 基准。
- Beyond Semantic Features: Pixel-Level Mapping for Generalized AI-Generated Image Detection
-
提出像素级映射(pixel-level mapping)预处理方法,通过打破像素值的单调排列来抑制低频语义偏差、增强高频生成伪影,将 AI 生成图像检测的跨模型泛化准确率提升至 98.4%。
- Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra
-
提出 GLMR 两阶段框架(对比学习预检索 + 生成式语言模型重排),通过生成与输入质谱对齐的分子结构将跨模态检索转化为单模态检索,在 MassSpecGym 上 Recall@1 提升超 40%。
- CAD-VAE: Leveraging Correlation-Aware Latents for Comprehensive Fair Disentanglement
-
提出 CAD-VAE 引入相关性感知潜编码(correlated latent code)捕获目标属性与敏感属性的共享信息,通过直接最小化条件互信息实现解纠缠,配合相关性驱动优化策略精确调控共享编码,在公平表示学习、反事实生成和公平图像编辑上取得 SOTA。
- CausalCLIP: Causally-Informed Feature Disentanglement and Filtering for Generalizable Detection of Generated Images
-
提出 CausalCLIP,通过 Gumbel-Softmax 掩码 + HSIC 约束将 CLIP 特征解耦为因果/非因果子空间,结合对抗掩码和反事实干预保留稳定取证线索,跨生成器泛化准确率提升 6.83%。
- Conditional Diffusion Model for Multi-Agent Dynamic Task Decomposition
-
提出 CD3T,一个两层层次化 MARL 框架:用条件扩散模型学习动作语义表示(以观测和他人动作为条件,预测下一观测和奖励),通过 k-means 聚类得到子任务划分,高层选择子任务、低层在受限动作空间执行策略,在 SMAC 的 Super Hard 场景上显著超越所有基线。
- Constrained Particle Seeking: Solving Diffusion Inverse Problems with Just Forward Passes
-
提出 Constrained Particle Seeking (CPS),一种无梯度的扩散模型反问题求解方法,通过利用所有候选粒子信息构建前向过程的局部线性代理模型,并在转移核高密度区域的超球面约束下寻找最优粒子,性能可与梯度方法媲美。
- Continuous Degradation Modeling via Latent Flow Matching for Real-World Super-Resolution
-
提出 DegFlow,通过残差自编码器 + 潜空间 Flow Matching 从离散尺度的真实 HR-LR 对学习连续退化轨迹,仅需单张 HR 图像即可合成任意连续尺度的逼真 LR 图像,用于训练超分模型达到 SOTA。
- Copyright Infringement Detection in Text-to-Image Diffusion Models via Differential Privacy
-
从差分隐私(Differential Privacy)角度形式化版权侵权的定义,提出 D-Plus-Minus(DPM)框架,通过对扩散模型分别进行"学习"和"遗忘"两个方向的微调,测量条件敏感度差异来事后检测文本到图像模型中的版权侵权行为。
- CountSteer: Steering Attention for Object Counting in Diffusion Models
-
提出 CountSteer,一种免训练的推理时方法,通过在扩散模型的 cross-attention 隐状态中注入自适应 steering vector,将物体计数准确率提升约 4%,且不损害图像质量。
- Creating Blank Canvas Against AI-Enabled Image Forgery
-
提出"空白画布"机制,通过对抗扰动使 SAM 对受保护图像"视而不见",当图像被篡改后篡改区域会被 SAM 自动识别,实现无需篡改训练数据的主动式篡改定位。
- DICE: Distilling Classifier-Free Guidance into Text Embeddings
-
提出 DICE,训练一个仅 2M 参数的轻量 sharpener 将 CFG 的引导效果蒸馏进 text embedding,使无引导采样达到与 CFG 同等的生成质量、推理计算量减半,在 SD1.5 多个变体、SDXL 和 PixArt-α 上全面验证有效,是 AAAI 2026 口头报告论文。
- Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation
-
提出 Diff-V2M,一个基于层次条件扩散 Transformer 的视频到音乐生成框架,通过显式节奏建模(低分辨率 ODF)和层次交叉注意力机制整合情感/语义/节奏特征,在域内和域外数据集上均达到 SOTA。
- DiffA: Large Language Diffusion Models Can Listen and Understand
-
提出 DIFFA——首个基于扩散语言模型的大型音频-语言模型,通过冻结 LLaDA-8B 骨干网络 + 轻量双适配器架构 + 两阶段训练管线,仅用 960 小时 ASR 数据和 127 小时合成指令数据就在 MMSU、MMAU、VoiceBench 上达到与自回归 baseline 竞争的性能。
- Difficulty Controlled Diffusion Model for Synthesizing Effective Training Data
-
在Stable Diffusion中引入难度编码器(MLP,输入类别+难度分数),通过LoRA微调解耦"域对齐"和"难度控制"两个目标,使生成数据的学习难度可控——仅用10%额外合成数据即超过Real-Fake的最佳结果,节省63.4 GPU小时。
- Diffusion Reconstruction-Based Data Likelihood Estimation for Core-Set Selection
-
提出利用扩散模型的部分反向去噪重建偏差作为数据似然的理论近似信号,配合信息瓶颈理论选择最优重建时间步,实现分布感知的核心集选择,在 ImageNet 上仅用 50% 数据即可逼近全量训练性能。
- DogFit: Domain-guided Fine-tuning for Efficient Transfer Learning of Diffusion Models
-
提出 DogFit,将域引导(Domain Guidance)内化到扩散模型的微调损失中,使模型在训练时学会引导方向,推理时无需双重前向传播即可实现可控的保真度-多样性权衡,在 6 个目标域上以一半的采样 TFLOPS 超越 SOTA 引导方法。
- DOS: Directional Object Separation in Text Embeddings for Multi-Object Image Generation
-
识别出多物体生成失败的四种场景(相似形状/纹理、不同背景偏好、多物体),通过构建方向性分离向量修改CLIP的三类文本嵌入(语义token/EOT/pooled),在SDXL上将成功率提升16-25%并将融合率降低3-12%,推理速度接近baseline(约4×快于Attend-and-Excite)。
- EchoGen: Cycle-Consistent Learning for Unified Layout-Image Generation and Understanding
-
提出 EchoGen,统一布局到图像生成(L2I)和图像定位(I2L)两个任务的框架,通过渐进式训练——并行预训练→双任务联合优化→循环强化学习(CycleRL)——利用布局→图像→布局回环的一致性约束作为自监督奖励,在 MS-COCO 和 LayoutSAM 上达到 SOTA。
- EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI
-
提出 EfficientFlow,将等变性引入 Flow Matching 策略学习框架,理论证明各向同性先验+等变速度网络保证动作分布等变,并提出 Flow Acceleration Upper Bound (FABO) 正则化加速采样,在 MimicGen 12 个任务上实现比 EquiDiff 快 20-56 倍的推理速度且性能更优。
- Enhancing Multimodal Misinformation Detection by Replaying the Whole Story from Image Modality Perspective
-
提出 RetSimd,通过将文本分段并用文本转图像模型生成一系列增补图像来"重放完整故事",配合图神经网络融合多图像关系,显著提升了图像模态对虚假信息检测的贡献,在三个基准数据集上一致性地改进了五种 SOTA 方法的性能。
- Exposing DeepFakes via Hyperspectral Domain Mapping
-
本文提出 HSI-Detect,一个两阶段的深度伪造检测框架——先将 RGB 图像重建为 31 通道高光谱图像以放大生成模型引入的光谱伪影,再在高光谱域中进行检测,在 FaceForensics++ 上跨操纵类型检测的平均 AUC 达到 68.92%,超越 RGB-only 基线。
- FGM-HD: Boosting Generation Diversity of Fractal Generative Models through Hausdorff Dimension Induction
-
本文首次将 Hausdorff 维数(HD)引入分形生成模型(FGM),提出可学习的 HD 估计模块、单调动量驱动调度策略(MMDS)和 HD 引导的拒绝采样,在 ImageNet 上实现 39% 的生成多样性提升(Recall),同时保持图像质量。
- Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
-
提出 R-REPA(Reverse Representation Alignment),创造性地利用 Normalizing Flows 的可逆性,在生成(反向)路径上将中间特征与视觉基础模型对齐,同时提出免训练分类算法,在 ImageNet 64×64 和 256×256 上实现 NF 新 SOTA,训练加速 3.3 倍。
- FreeInpaint: Tuning-free Prompt Alignment and Visual Rationality Enhancement in Image Inpainting
-
提出FreeInpaint,一种即插即用的免训练方法,通过优化初始噪声引导注意力聚焦到修复区域(PriNo),并在去噪过程中分解条件分布为文本对齐、视觉合理性和人类偏好三项引导(DeGu),同时提升图像修复的提示词对齐和视觉合理性。
- GEWDiff: Geometric Enhanced Wavelet-based Diffusion Model for Hyperspectral Image Super-resolution
-
提出GEWDiff,一种几何增强的基于小波的扩散模型,通过小波编码器-解码器高效压缩高光谱数据到潜在空间,引入边缘感知噪声调度和mask条件控制保持几何完整性,并设计多级损失函数促进稳定收敛,实现4倍高光谱图像超分辨率的SOTA效果。
- HACK: Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling
-
发现VAR模型中attention head天然分为Contextual Heads(语义一致性,垂直注意力模式)和Structural Heads(空间连贯性,多对角线模式),提出HACK框架通过非对称预算分配和模式特定压缩策略,在70%压缩率下实现无损生成质量,Infinity-8B上1.75×显存减少和1.57×加速。
- HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models
-
提出 HierarchicalPrune,利用 MMDiT 扩散模型中块的层级功能差异(早期块建立语义结构、后期块处理纹理细节),通过层级位置剪枝(HPP)、位置权重保护(PWP)和敏感度引导蒸馏(SGDistill)三种技术协同,结合 INT4 量化,将 SD3.5 Large Turbo(8B)从 15.8GB 压缩至 3.24GB(79.5% 内存缩减),仅损失 4.8% 图像质量。
- How Bias Binds: Measuring Hidden Associations for Bias Control in Text-to-Image Compositions
-
首次研究文本到图像生成中的组合语义绑定偏见问题,提出Bias Adherence Score (BA-Score)量化物体-属性绑定如何激活偏见,并设计免训练的Context-Bias Control (CBC)框架,通过token嵌入解耦和残差注入实现组合生成中超过10%的去偏改善。
- Hyperbolic Hierarchical Alignment Reasoning Network for Text-3D Retrieval
-
提出H2ARN,在Lorentz双曲空间中嵌入文本和3D点云数据,通过层次排序损失(蕴含锥)解决层次表示坍塌问题,通过贡献感知双曲聚合解决冗余导致的显著性稀释问题,在Text-3D检索中取得SOTA,并发布了2.6倍规模的T3DR-HIT v2数据集。
- Improved Masked Image Generation with Knowledge-Augmented Token Representations
-
提出KA-MIG框架,通过从训练数据中挖掘三种token级语义先验知识图(共现图、语义相似图、位置-token不兼容图),使用图感知编码器学习增强的token表示,并通过轻量级加减融合机制注入现有MIG模型,持续提升多种骨干网络的生成质量。
- Infinite-Story: A Training-Free Consistent Text-to-Image Generation
-
基于 scale-wise 自回归模型(Infinity),通过三个 training-free 技术——Identity Prompt Replacement(消除文本编码器的上下文偏差)、Adaptive Style Injection(参考图像特征注入)和 Synchronized Guidance Adaptation(同步 CFG 两个分支),实现了身份与风格一致的多图像生成,速度比扩散模型快 6 倍(1.72 秒/张)。
- Laytrol: Preserving Pretrained Knowledge in Layout Control for Multimodal Diffusion Transformers
-
通过从 MM-DiT 复制参数初始化布局控制网络、设计专用初始化方案(布局编码器初始化为纯文本编码器 + 输出零初始化)、并用 FLUX 自己生成的图像构建 LaySyn 数据集来缓解分布偏移,实现了在 FLUX 上高质量的布局到图像生成。
- LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
-
首次系统研究扩散大语言模型(diffusion LLMs)的长上下文能力,发现其在直接外推时保持稳定困惑度和"局部感知"现象,并提出无需训练的 LongLLaDA 方法,通过 NTK-based RoPE 外推成功将上下文窗口扩展至 6 倍(24k tokens)。
- LongT2IBench: A Benchmark for Evaluating Long Text-to-Image Generation with Graph-structured Annotations
-
提出 LongT2IBench,首个面向长文本到图像(T2I)对齐的评估基准,包含 14K 长文本-图片对和图结构化人工标注,并构建 LongT2IExpert 评估器,通过层次化对齐思维链(HA-CoT)指令微调 MLLM,同时输出对齐分数和结构化解释。
- MacPrompt: Maraconic-guided Jailbreak against Text-to-Image Models
-
提出 MacPrompt,一种黑盒跨语言攻击方法,通过将有害词汇翻译为多语言候选并进行字符级重组构造"通心粉词(macaronic words)"作为对抗 prompt,能够同时绕过文本安全过滤器和概念移除防御,在色情内容上攻击成功率高达 92%,在暴力内容上达 90%。
- MACS: Multi-source Audio-to-Image Generation with Contextual Significance and Semantic Alignment
-
提出 MACS,首个显式分离多源音频再生成图像的两阶段框架,通过弱监督声源分离 + CLAP 空间语义对齐(排序损失 + 对比损失)+ 解耦交叉注意力扩散生成,在多源、混合源和单源音频到图像生成任务上全面超越 SOTA。
- Mass Concept Erasure in Diffusion Models with Concept Hierarchy
-
提出基于supertype-subtype概念层级的分组擦除策略和Supertype-Preserving LoRA (SuPLoRA),通过冻结down-projection矩阵(正交于supertype子空间)仅训练up-projection矩阵,在大规模多领域概念擦除中实现擦除效果与生成质量的最优平衡。
- MDiff4STR: Mask Diffusion Model for Scene Text Recognition
-
首次将掩码扩散模型(MDM)引入场景文本识别(STR)任务,提出 MDiff4STR,通过六种训练掩码策略(弥合训练-推理噪声差距)和 Token 替换噪声机制(解决过度自信问题),在仅需 3 步去噪的情况下超越 SOTA 自回归模型的准确率,同时实现 3× 推理加速。
- Melodia: Training-Free Music Editing Guided by Attention Probing in Diffusion Models
-
通过对扩散模型中注意力图的深入探测分析,发现自注意力图对于保持音乐时间结构至关重要,据此提出 Melodia——一种免训练的音乐编辑方法,通过选择性操控自注意力图实现属性修改与结构保持的最优平衡。
- Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution
-
将稀疏混合专家(MoE)思想引入真实世界图像超分辨率任务,提出 Mixture-of-Ranks(MoR)架构,将 LoRA 的每个 rank 视为独立专家,并设计退化估计模块和退化感知负载均衡损失,实现单步高保真超分辨率重建。
- MP1: MeanFlow Tames Policy Learning in 1-step for Robotic Manipulation
-
首次将 MeanFlow 范式引入机器人学习领域,结合 3D 点云输入和 Dispersive Loss,实现仅需一次网络前向传播(1-NFE)即可生成动作轨迹,在机器人操作任务中以 6.8ms 推理延迟达到 SOTA 成功率。
- Multi-Aspect Cross-modal Quantization for Generative Recommendation
-
提出 MACRec,在生成式推荐的语义 ID 学习和生成模型训练两个阶段引入多方面跨模态交互,通过跨模态量化(对比学习增强残差量化)和多方面对齐(隐式+显式),显著提升推荐性能并降低 ID 冲突率。
- Multi-Metric Preference Alignment for Generative Speech Restoration
-
提出多指标偏好对齐策略(Multi-Metric Preference Alignment),通过构建要求多个互补指标一致同意的偏好数据集 GenSR-Pref(80K 对),利用 DPO 对三种生成式语音修复范式(AR、MGM、FM)进行后训练对齐,显著提升修复质量并有效缓解 reward hacking。
- ORVIT: Near-Optimal Online Distributionally Robust Reinforcement Learning
-
本文研究在线分布鲁棒强化学习,提出了基于 \(f\)-散度不确定性集的 RVI-\(f\) 算法,在 \(\chi^2\) 和 KL 散度下均实现了近似极小极大最优的遗憾界,且不依赖任何结构性假设。
- PADiff: Predictive and Adaptive Diffusion Policies for Ad Hoc Teamwork
-
首次将扩散模型应用于 Ad Hoc Teamwork 问题,提出 PADiff 框架,通过 Adaptive Feature Modulation Net(AFM-Net)实现对动态队友的实时适应,通过 Predictive Guidance Block(PGB)将队友意图预测信息注入去噪过程,在多模态合作场景中比现有方法平均提升 35.25%。
- PASE: Leveraging the Phonological Prior of WavLM for Low-Hallucination Generative Speech Enhancement
-
提出 PASE 框架,通过去噪表示蒸馏(DRD)利用预训练 WavLM 中鲁棒的音韵先验来抑制语言幻觉,同时采用双流表示(高层音素 + 低层声学)消除声学幻觉,在感知质量和内容保真度两方面同时达到 SOTA。
- Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback
-
提出基于 Wan2.1 的 DiT 音频驱动人物视频生成框架:通过 LoRA 训练策略实现长视频生成,结合部分参数更新与 DPO 奖励反馈增强唇同步与动作自然度,并首创免训练的 Mask-CFG 方法实现多角色(≥3 人)音频驱动动画。
- ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration
-
提出 ProCache,一个免训练的动态特征缓存框架:通过约束感知的非均匀缓存模式搜索和选择性计算策略,在 DiT-XL/2 上实现 2.90 倍加速、PixArt-α 上实现 1.96 倍加速,且图像质量几乎无损,显著优于现有缓存方法。
- QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution
-
提出 QuantVSR,首个面向扩散模型视频超分(VSR)的低比特(4/6-bit)后训练量化框架:通过时空复杂度感知(STCA)机制实现层自适应秩分配,并引入可学习偏置对齐(LBA)模块缓解低比特量化偏差,在 4-bit 设置下将参数量压缩 84.39%、计算量压缩 82.56%,同时保持与全精度模型接近的性能。
- ReAlign: Text-to-Motion Generation via Step-Aware Reward-Guided Alignment
-
提出 ReAlign(Reward-guided sampling Alignment),通过步感知(step-aware)奖励模型和奖励引导采样策略,在扩散推理过程中动态引导采样轨迹朝向文本-动作高对齐的分布,无需微调任何扩散模型即可显著提升多种动作生成方法的质量。以 MLD 为例,R@1 提升 17.9%,FID 改善 58.8%。
- Realism Control One-step Diffusion for Real-World Image Super-Resolution
-
提出 RCOD 框架,通过潜在域分组策略和退化感知采样,赋予单步扩散(OSD)超分辨率方法在推理阶段灵活控制保真度-真实感平衡的能力,同时引入视觉提示注入模块替代文本提示来提升恢复精度。
- Realistic Face Reconstruction from Facial Embeddings via Diffusion Models
-
提出 FEM(Face Embedding Mapping)框架,利用 KAN 网络将任意人脸识别/隐私保护人脸识别系统的嵌入向量映射到预训练身份保持(ID-Preserving)扩散模型的嵌入空间,实现高分辨率真实人脸重建,可用于评估人脸识别系统的隐私泄露风险。
- Rectified Noise: A Generative Model Using Positive-incentive Noise
-
提出 Rectified Noise(ΔRN),通过正向激励噪声(π-noise)框架学习一组有益噪声并注入预训练 Rectified Flow 模型的速度场中,以仅 0.39% 的额外参数在 ImageNet-1k 上将 FID 从 10.16 降低到 9.05。
- RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers
-
提出 RelaCtrl 框架,通过 ControlNet 相关性评分分析 DiT 各层对控制信息的敏感度差异,据此指导控制块的放置位置和建模强度,并设计二维混洗混合器(TDSM)替代自注意力和 FFN,以仅 15% 的参数量和计算复杂度实现优于 PixArt-δ 的可控生成效果。
- RetrySQL: Text-to-SQL Training with Retry Data for Self-Correcting Query Generation
-
提出 RetrySQL 训练范式,通过在推理步骤中注入 retry data(错误步骤 + [BACK] 标记 + 正确步骤)来持续预训练小型编码模型,使 1.5B 参数的开源模型学会自纠正能力,在 BIRD 和 SPIDER 基准上分别提升整体执行准确率最高 4 和 3.93 个百分点,挑战性样例提升高达 9 个百分点。
- Right Looks, Wrong Reasons: Compositional Fidelity in Text-to-Image Generation
-
本文系统性地调研了文本到图像(T2I)模型在组合性忠实度方面的根本缺陷,聚焦否定(negation)、计数(counting)和空间关系(spatial relations)三大基本原语,揭示了模型在单一原语上表现尚可但联合组合时性能急剧下降的"亚乘性"(submultiplicative)干扰现象,并将其归因于训练数据稀缺、连续注意力架构不适合离散逻辑、以及评估指标偏向视觉合理性而非约束满足。
- Self-NPO: Data-Free Diffusion Model Enhancement via Truncated Diffusion Fine-Tuning
-
提出 Self-NPO,一种无需外部数据标注或奖励模型的负偏好优化方法,通过截断扩散微调(TDFT)让扩散模型从自身生成的低质量数据中学习"什么是不好的",配合 CFG 引导远离不良输出,仅需不到 Diffusion-NPO 1%的训练成本即可达到可比性能。
- SimDiff: Simpler Yet Better Diffusion Model for Time Series Point Forecasting
-
提出SimDiff——首个纯端到端扩散模型实现时间序列点预测SOTA,通过统一的Transformer网络同时充当去噪器和预测器,结合Normalization Independence处理分布偏移和Median-of-Means集成策略将概率采样转化为精确点预测,在9个数据集上6个第一、3个第二。
- SpecDiff: Accelerating Diffusion Model Inference with Self-Speculation
-
提出 SpecDiff,一种基于自推测(self-speculation)的免训练多级特征缓存策略,通过利用少步推测引入未来信息辅助token重要性选择,突破了仅依赖历史信息的精度-速度瓶颈,在 Stable Diffusion 3/3.5 和 FLUX 上实现 2.80×/2.74×/3.17× 加速且质量损失可忽略。
- Stabilizing Self-Consuming Diffusion Models with Latent Space Filtering
-
提出Latent Space Filtering (LSF)方法,通过分析自消费扩散模型隐空间中潜在表示的低维结构退化现象,利用probing classifier的置信度分数过滤低质量合成数据,在固定训练预算下有效缓解模型坍塌,无需额外真实数据或增大训练集。
- Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression
-
提出 SODEC,一种基于单步扩散的图像压缩模型,通过保真度引导模块(FGM)将高保真VAE解码器的先验注入扩散生成过程,结合速率退火训练策略实现极低码率下的高质量压缩,解码速度比多步扩散方法快20×以上,同时在率-失真-感知权衡上达到SOTA。
- Structure-based RNA Design by Step-wise Optimization of Latent Diffusion Model
-
提出SOLD框架,将潜在扩散模型(LDM)与强化学习(RL)结合,通过步进式单步采样优化策略,直接优化RNA逆折叠中不可微的结构指标(二级结构相似度SS、最小自由能MFE、LDDT),在多个指标上全面超越现有方法。
- Studying Classifier(-Free) Guidance From A Classifier-Centric Perspective
-
通过系统实证研究揭示了classifier guidance和classifier-free guidance的本质机制——两者都通过将去噪轨迹推离分类器的决策边界来实现条件生成,并提出基于流匹配的后处理方法在高维数据上验证了这一"分类器中心"视角。
- T-LoRA: Single Image Diffusion Model Customization Without Overfitting
-
提出 T-LoRA,一种时步依赖的低秩适配框架,通过动态调整不同扩散时步的LoRA秩(高噪声时步用小秩、低噪声时步用大秩)和正交初始化(Ortho-LoRA)确保适配组件信息独立,解决了单图像扩散模型定制中的过拟合问题,在概念保真度和文本对齐间取得最优平衡。
- T2I-RiskyPrompt: A Benchmark for Safety Evaluation, Attack, and Defense on Text-to-Image Model
-
构建T2I-RiskyPrompt——一个包含6,432条有效风险prompt的综合基准,涵盖6大类14细分风险类别,每条prompt带有层次化标注和详细风险原因,并提出reason-driven的MLLM风险检测方法(3B模型达91.8%准确率),系统评估了8个T2I模型、9种防御方法、5种安全过滤器和5种攻击策略。
- Talk, Snap, Complain: Validation-Aware Multimodal Expert Framework for Fine-Grained Customer Grievances
-
提出VALOR框架,结合Chain-of-Thought推理的多专家路由架构与语义对齐验证机制,在多轮多模态客服对话中实现细粒度投诉方面(Aspect)和严重度(Severity)的联合分类,较最强baseline Gemma-3绝对提升12.94%/6.51%。
- Targeted Data Protection for Diffusion Model by Matching Training Trajectory
-
TAFAP首次成功实现扩散模型目标化数据保护(TDP),通过训练轨迹匹配生成对抗扰动,使未授权微调将输出重定向至用户指定目标概念,同时保持高图像质量。
- TruthfulRAG: Resolving Factual-level Conflicts in Retrieval-Augmented Generation with Knowledge Graphs
-
提出 TruthfulRAG 框架,首次利用知识图谱 (KG) 从事实级别解决 RAG 系统中检索知识与 LLM 参数知识之间的冲突,通过三元组提取、查询感知图检索和基于熵的冲突过滤机制提升生成准确性与可信度。
- TSGDiff: Rethinking Synthetic Time Series Generation from a Pure Graph Perspective
-
提出 TSGDiff,首次从纯图的视角重新审视时间序列生成任务,将时间序列表示为基于傅里叶频谱特征构建的动态图,在图的潜在空间中进行扩散建模,并提出 Topo-FID 指标评估生成时间序列的结构忠实度。
- UNSEEN: Enhancing Dataset Pruning from a Generalization Perspective
-
本文提出 UNSEEN,从泛化角度改进数据集剪枝方法——不仅考虑保留样本对训练损失的贡献,还考虑其对测试泛化的贡献,通过优化训练集与未见测试分布的对齐来选择更有利于泛化的核心子集。
- VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning
-
针对 diffusion-based voice cloning 的主动防御框架 VoiceCloak,通过四维度对抗扰动同时实现说话人身份混淆和感知质量退化,在 LibriTTS 上 DSR 达 71.4%,大幅领先所有现有防御方法。
- X2Edit: Revisiting Arbitrary-Instruction Image Editing through Self-Constructed Data and Task-Aware Representation Learning
-
构建 370 万高质量编辑数据集(14 类任务),并提出基于 Task-Aware MoE-LoRA + Contrastive Learning 的轻量级(0.9B 参数)plug-and-play 编辑模块,性能媲美 12B 全参数训练模型。