ECCV2024 其他论文解读论文笔记对抗鲁棒少样本学习对齐/RLHF Agent GAN 扩散模型

📂 其他¶

🎞️ ECCV2024 · 42 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (105) · 🔬 ICLR2026 (115) · 💬 ACL2026 (3) · 🧪 ICML2026 (70) · 🤖 AAAI2026 (117) · 🧠 NeurIPS2025 (121)

🔥 高频主题： 对抗鲁棒 ×4

A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation: 提出一个统计框架，通过分层（stratification）、采样设计（sampling）和估计器（estimation）三个组件的协同设计，在仅标注少量测试样本的情况下精确估计CV模型准确率，最高可实现10倍的效率增益（即用1/10的标注量达到同等精度）。
ABC Easy as 123: A Blind Counter for Exemplar-Free Multi-Class Class-Agnostic Counting: 提出首个无需样例图像即可同时计数图像中多类未知物体的方法ABC123，通过ViT回归多通道密度图+匈牙利匹配训练+SAM示例发现机制，在自建合成数据集MCAC上大幅超越需要样例的方法，且能泛化到FSC-147真实数据集。
Active Generation for Image Classification: 本文提出ActGen，将主动学习思想融入扩散模型的图像生成过程，通过识别模型误分类的验证样本作为引导图像、结合注意力引导和基于梯度的生成控制，仅用10%的合成图像即可在ImageNet上实现+2.26%的准确率提升，超过了使用94%合成数据的先前方法。
AddMe: Zero-Shot Group-Photo Synthesis by Inserting People Into Scenes: 本文提出 AddMe，一个基于扩散模型的零样本人像生成器，通过身份解耦适配器和增强型人像注意力模块，能够将给定的人像自然地插入到现有场景图像的指定位置，同时保持身份一致性和群体交互的合理性。
ADMap: Anti-disturbance Framework for Vectorized HD Map Construction: 本文提出 ADMap 框架，通过多尺度感知颈部(MPN)、实例交互注意力(IIA)和矢量方向差异损失(VDDL)三个模块，从实例间和实例内两个层面级联式监控点序列预测过程，有效缓解了矢量化高精地图构建中的点序列抖动/锯齿问题，在 nuScenes 和 Argoverse2 上取得了 SOTA 性能。
Align before Collaborate: Mitigating Feature Misalignment for Robust Multi-Agent Perception: 提出NEAT——一种模型无关的轻量级插件，通过重要性引导的查询提议、可变形特征对齐和区域交叉注意力增强三个模块，显式解决协同感知中因位姿误差和通信延迟导致的特征级空间错位问题，在四个协同3D检测数据集的噪声设置下为多种基线方法带来一致性增益。
An Incremental Unified Framework for Small Defect Inspection: 提出增量统一框架IUF，首次将增量学习集成到统一重建式缺陷检测方法中，通过目标感知自注意力（OASA）建立语义边界、语义压缩损失（SCL）压缩非主要语义空间、以及基于SVD的权重更新策略保护旧对象特征，在MVTec-AD和VisA上实现图像级和像素级的SOTA增量缺陷检测性能。
AttnZero: Efficient Attention Discovery for Vision Transformers: 本文提出 AttnZero，首个自动发现高效注意力模块的框架，通过构建包含六类计算图和丰富算子的搜索空间、利用进化算法进行多目标搜索，自动发现了适用于多种 ViT 的线性注意力公式，在 DeiT/PVT/Swin/CSwin 上分别达到 74.9%/78.1%/82.1%/82.9% 的 ImageNet top-1 准确率，并构建了包含 2000 种注意力变体的 Attn-Bench-101 基准。
Auto-GAS: Automated Proxy Discovery for Training-Free Generative Architecture Search: 本文提出 Auto-GAS，首个面向生成模型（GAN）的免训练架构搜索框架，通过自动发现并优化零成本代理指标来替代传统训练式搜索，实现 110 倍搜索加速，同时保持与训练式方法相当的生成质量。
Bidirectional Uncertainty-Based Active Learning for Open-Set Annotation: 提出 BUAL 框架，通过 Random Label Negative Learning 将未知类样本推向高置信区域、已知类样本推向低置信区域，结合双向不确定性采样策略，在开放集场景下有效选出高信息量的已知类样本。
CLR-GAN: Improving GANs Stability and Quality via Consistent Latent Representation and Reconstruction: 本文提出了CLR-GAN训练范式，通过让判别器恢复生成器的预定义隐码、让生成器重建真实输入，建立了G和D隐空间之间的一致性约束，使GAN训练更公平稳定，在CIFAR10上FID提升31.22%，在AFHQ-Cat上提升39.5%。
COIN-Matting: Confounder Intervention for Image Matting: 本文从因果推断角度分析图像抠图任务中的数据集偏差问题，识别出对比度偏差和透明度偏差两种典型偏差及其根源——混淆因子，并通过后门调整提出模型无关的 COIN 抠图框架，显著缓解偏差影响、提升现有抠图模型性能。
DC-Solver: Improving Predictor-Corrector Diffusion Sampler via Dynamic Compensation: 提出 DC-Solver，通过动态补偿（Dynamic Compensation）缓解 predictor-corrector 扩散采样器中的 misalignment 问题，仅需 10 个数据点即可优化补偿比率，并通过级联多项式回归（CPR）实现对未见 NFE/CFG 配置的即时泛化。
Docling Technical Report: Docling 是一个开源的 PDF 文档转换工具，集成了基于 DocLayNet 的布局分析模型和 TableFormer 表格结构识别模型，可在普通硬件上高效地将 PDF 转换为结构化的 JSON 或 Markdown 格式。
Domain Reduction Strategy for Non-Line-of-Sight Imaging: 提出一种面向非视线成像（NLOS）的优化方法，通过将瞬态信号建模为逐点光传播函数的叠加，并设计由粗到细的域缩减策略剪除空白区域，在通用NLOS场景下实现约20倍加速且同时重建反射率和表面法线。
Dropout Mixture Low-Rank Adaptation for Visual Parameters-Efficient Fine-Tuning: 本文提出 DMLoRA（Dropout-Mixture Low-Rank Adaptation），通过引入多分支上下投影结构并在训练过程中逐步dropout分支来平衡精度与正则化，配合两阶段学习缩放因子策略优化每层的缩放系数，在VTAB-1k和FGVC视觉微调基准上取得SOTA性能且推理无额外开销。
Elegantly Written: Disentangling Writer and Character Styles for Enhancing Online Chinese Handwriting: 本文提出了一种基于序列模型的在线中文手写轨迹美化方法，通过交叉注意力机制解耦书写者风格和字符结构风格，将用户潦草的手写轨迹转化为保持个人风格的美观书写，同时通过笛卡尔积分解有效去除冗余风格特征。
Enhancing Optimization Robustness in 1-bit Neural Networks through Stochastic Sign Descent: 提出Diode优化器，专为二值神经网络（BNN）设计，通过利用梯度符号的低阶矩估计实现无潜在权重（latent-weight-free）的参数更新，在ImageNet上将BNext-18的Top-1准确率提升0.96%且训练迭代次数减少8倍，并在NLP任务上达到新SOTA。
ET: The Exceptional Trajectories - Text-to-Camera-Trajectory Generation with Character Awareness: 提出首个从真实电影中提取的相机-角色轨迹数据集 E.T.（115K 样本，11M 帧），以及基于扩散模型的 Director 方法，能根据文本描述和角色轨迹生成复杂的相机运动轨迹，同时设计了 CLaTr 对比嵌入用于轨迹生成质量评估。
Exploring Guided Sampling of Conditional GANs: 本文提出在条件GAN中引入类似扩散模型的引导采样（guided sampling）策略，通过隐空间向量运算估计数据-条件联合分布，无需预训练分类器或学习无条件模型，即可显著提升GAN生成质量，将ImageNet 64×64上的FID从8.87降至4.37。
FisherRF: Active View Selection and Mapping with Radiance Fields Using Fisher Information: 本文提出FisherRF，利用Fisher信息直接量化辐射场（Radiance Fields）模型参数的观测信息量，通过最大化期望信息增益（Expected Information Gain）选择最优视角，在视角选择、主动建图和不确定性量化三个任务上均达到SOTA，且通过稀疏性利用和自定义CUDA核实现了70 fps的视角评估速度。
Foster Adaptivity and Balance in Learning with Noisy Labels: 提出SED方法，通过自适应且类别平衡的样本选择与重加权机制来应对标签噪声问题，在无需预定义阈值等先验知识的前提下，在合成和真实噪声数据集上取得SOTA性能。
Free-Viewpoint Video of Outdoor Sports Using a Flying Camera: 提出了一种基于无人机RGB相机的系统，能够重建户外运动场景中的4D动态人体和3D无界背景，实现任意时刻的自由视点视频渲染。
FreeAugment: Data Augmentation Search Across All Degrees of Freedom: 提出 FreeAugment，首个能够同时全局优化数据增强策略的四个自由度（变换数量/类型/顺序/强度）的全可微搜索方法，通过 Gumbel-Softmax 学习深度分布、Gumbel-Sinkhorn 学习排列分布来避免重复采样，在多个基准上取得 SOTA。
Functional Transform-Based Low-Rank Tensor Factorization for Multi-Dimensional Data Recovery: 提出了基于函数变换的低秩张量分解方法（FLRTF），利用隐式神经表示替代传统离散变换来捕获数据在第三维度上的连续平滑性，有效解决时间/光谱退化问题。
HiEI: A Universal Framework for Generating High-quality Emerging Images from Natural Images: 本文提出了一个通用框架 HiEI，通过人类中心的颜色量化模块（TTNet）、感知难度控制模块（PDC）和模板矢量化模块（TV），将自然图像转化为高质量的新兴图像（Emerging Images），在内容和风格质量上超越现有方法，同时可有效对抗深度视觉模型的攻击，适用于 CAPTCHA 机制。
High-Fidelity 3D Textured Shapes Generation by Sparse Encoding and Adversarial Decoding: 本文提出了一种基于稀疏编码模块和对抗解码模块的 3D 纹理形状生成框架，通过对 StableDiffusion 的最小适配扩展到 3D 领域，在 ShapeNet 和 G-Objaverse（200K 样本）上实现了开放词汇的高保真 3D 生成，超越了现有 SOTA 方法。
HPFF: Hierarchical Locally Supervised Learning with Patch Feature Fusion: 提出 HPFF，通过层次化局部监督学习（HiLo，将网络划分为独立+级联两级局部模块）和 Patch 特征融合（PFF，将辅助网络的输入切块计算再平均）解决局部学习中的模块间信息缺失和 GPU 内存占用过高问题，在多个数据集上显著超越已有局部学习方法并接近甚至超越 BP。
Improving Point-based Crowd Counting and Localization Based on Auxiliary Point Guidance: 提出辅助点引导 (APG) 策略和隐式特征插值 (IFI) 模块，通过在真值点附近显式生成辅助正负样本来稳定 point-based 人群计数方法中 proposal-target 匹配过程的不稳定性，在多个数据集上取得 SOTA。
Mahalanobis Distance-Based Multi-View Optimal Transport for Multi-View Crowd Localization: 提出基于马氏距离的多视角最优传输损失（M-MVOT），通过视线方向和目标到相机的距离自适应调整传输代价，首次将点监督最优传输引入多视角人群定位任务，显著超越基于密度图MSE损失的方法。
MemBN: Robust Test-Time Adaptation via Batch Norm with Statistics Memory: 本文提出 MemBN（Memory-based Batch Normalization），通过在每个 BN 层中维护统计量记忆队列并设计专用的记忆管理与聚合算法，使得 TTA 方法在各种批量大小下都能稳健估计测试域的统计量，大幅提升小批量场景下的准确率和鲁棒性。
Momentum Auxiliary Network for Supervised Local Learning: 本文提出动量辅助网络（MAN），通过指数移动平均（EMA）将相邻局部块的参数信息传递到当前块的辅助网络，并引入可学习偏置弥补跨块特征差异，解决了监督局部学习中块间信息交换缺失导致的"短视"问题，在 ImageNet 上以不到 E2E 训练一半的 GPU 显存实现更高性能。
Non-parametric Sensor Noise Modeling and Synthesis: 本文提出一种非参数传感器噪声模型，通过直接从实拍图像中为每个亮度级别构建概率质量函数(PMF)来建模真实噪声分布，无需假设特定噪声分布形式，并提出了ISO插值和在含噪图像上合成噪声的方法，在下游去噪任务上显著优于现有参数化噪声模型。
Object-Aware NIR-to-Visible Translation: 本文提出一种对象感知的近红外(NIR)到可见光图像翻译框架，通过将可见光图像分解为与对象无关的光照分量和对象特定的反射分量分别处理，结合分割先验知识，在缺乏大规模配对数据的条件下实现了高质量的NIR彩色化，并构建了首个完全对齐的NIR-可见光大规模配对数据集。
PartCraft: Crafting Creative Objects by Parts: 提出 PartCraft，首次实现了基于部件选择的文本到图像生成控制——用户可以从不同物体中"挑选"各部件（如鸟的头、翅膀、身体），模型将它们自然地组合为一个全新且结构合理的创意物体。
Real-Data-Driven 2000 FPS Color Video from Mosaicked Chromatic Spikes: 针对马赛克彩色脉冲相机（mosaicked chromatic spikes），提出一种完全基于真实数据驱动的 2000FPS 彩色高动态范围视频重建方法，通过自监督去噪模块和渐进式配准模块解决短时帧噪声和运动模糊问题，无需合成数据即可重建高质量高速彩色视频。
Rebalancing Using Estimated Class Distribution for Imbalanced Semi-Supervised Learning under Class Distribution Mismatch: 本文提出 RECD 算法，通过蒙特卡洛近似估计未标注数据的未知类别分布，基于估计分布重新平衡分类器，并引入特征聚类压缩缓解特征图不平衡，在标注-未标注数据类别分布失配的半监督学习场景中取得 SOTA 性能。
Rethinking Data Bias: Dataset Copyright Protection via Embedding Class-Wise Hidden Bias: 本文提出"Undercover Bias"数据集水印方法，通过在训练数据中嵌入与目标任务无关但与标签对应的隐蔽水印图案，使未授权使用者训练的模型不自觉地学会分类这些水印，水印分类能力作为未授权使用的不可抵赖证据，实现了隐蔽、模型无关、对目标任务无损的数据集版权保护。
SpatialFormer: Towards Generalizable Vision Transformers with Explicit Spatial Understanding: 提出SpatialFormer架构，通过引入自适应空间token显式建模场景的全局空间关系，采用decoder-only架构与双边交叉注意力块实现上下文与空间信息的高效交互，在分类、分割和检测任务上展示了优异的泛化性和可迁移性。
Superpixel-Informed Implicit Neural Representation for Multi-Dimensional Data: 提出超像素引导的隐式神经表示（S-INR），用广义超像素替代像素作为INR的基本单元，通过专属注意力MLP和共享字典矩阵两个模块，充分挖掘广义超像素内部和之间的语义信息，在图像重建/补全/去噪以及点数据恢复等任务上超越现有INR方法。
Synergy of Sight and Semantics: Visual Intention Understanding with CLIP: 提出了 IntCLIP 框架，通过双分支编码策略将 CLIP 中的"视觉感知"（Sight）知识迁移到"语义中心"（Semantic）的多标签意图理解任务中，结合层次化类别整合和视觉辅助聚合，在标准 MIU benchmark 和图像情感识别任务上显著超越 SOTA。
Wavelength-Embedding-guided Filter-Array Transformer for Spectral Demosaicing: 本文提出 WeFAT，通过波长嵌入引导的多头自注意力（We-MSA）赋予模型"波长记忆"能力，配合滤波器阵列注意力机制（MaM）聚焦高质量光谱区域，仅在 ARAD 数据集上训练就能在不同相机和不同光谱分布下保持稳定性能，超越现有 SOTA。