跳转至

🧑 人体理解

🎞️ ECCV2024 · 54 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (151) · 🔬 ICLR2026 (45) · 🧪 ICML2026 (5) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (21) · 📹 ICCV2025 (41)

🔥 高频主题: 人体姿态 ×15 · 人脸/视线 ×12 · 情感分析 ×3 · 虚拟人 ×2 · 重识别 ×2

3D Hand Pose Estimation in Everyday Egocentric Images

通过系统研究裁剪输入、相机内参感知位置编码(KPE)、辅助监督(手部分割+抓握标签)和多数据集联合训练这四个实践,提出WildHands系统,在仅用ResNet50和少量数据的条件下,实现了对野外第一人称图像中3D手部姿态的鲁棒估计,零样本泛化超过FrankMocap全部指标且与10倍大的HaMeR竞争。

3DFG-PIFu: 3D Feature Grids for Human Digitization from Sparse Views

本文提出 3DFG-PIFu,通过引入3D特征网格(3D Feature Grids)在整个 pipeline 中全局融合多视图特征,替代传统逐点局部融合方式,并结合迭代网格精炼机制和基于 SDF 的 SMPL-X 特征,显著超越现有稀疏视图人体数字化 SOTA 方法。

3DGazeNet: Generalizing 3D Gaze Estimation with Weak-Supervision from Synthetic Views

提出将视线估计重新表述为密集3D眼球网格回归,并通过从大规模野外人脸图像中自动提取伪标签+HeadGAN合成多视图进行弱监督训练,在跨域场景下比SOTA提升最多30%。

3DSA: Multi-view 3D Human Pose Estimation With 3D Space Attention Mechanisms

本文提出3D空间注意力模块(3DSA),通过3D空间细分算法将特征体积划分为多个区域并为其分配基于视角的注意力权重,解决多视图3D人体姿态估计中不同视角对不同空间区域贡献不均的问题,在 CMU Panoptic Studio 数据集上达到 SOTA。

A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars

提出首个基于3D Avatar输出的Spoken2Sign翻译基线系统,通过三步流程(字典构建→SMPLSign-X 3D手语估计→检索-连接-渲染翻译)将口语文本翻译为3D手语动画,在Phoenix-2014T上back-translation BLEU-4达25.46,同时其3D手语副产品(关键点增强和多视角理解)显著提升了手语理解任务性能。

AdaDistill: Adaptive Knowledge Distillation for Deep Face Recognition

提出AdaDistill,将知识蒸馏概念嵌入margin penalty softmax loss中,通过基于EMA的自适应类中心(早期用sample-sample简单知识、后期用sample-center复杂知识)和困难样本感知机制,无需额外超参数即可提升轻量级人脸识别模型的判别能力,在IJB-B/C和ICCV21-MFR等挑战性基准上超越SOTA蒸馏方法。

Adaptive High-Frequency Transformer for Diverse Wildlife Re-Identification

提出自适应高频Transformer(AdaFreq),通过频域混合增强、目标感知的高频token动态选择、特征均衡损失三大策略,将高频信息(毛皮纹理、轮廓边缘等)统一用于多种野生动物的重识别,在8个跨物种数据集上超越现有ReID方法。

ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation

提出ADen框架,通过生成器输出多个位姿假设+判别器评分选择最佳的方式,统一了位姿回归和概率估计范式,仅需500个自适应样本即超越需要500K均匀采样的方法,同时实现实时推理。

Alignist: CAD-Informed Orientation Distribution Estimation by Fusing Shape and Correspondences

提出 Alignist,首个利用 CAD 模型信息(SDF + SurfEmb 对应特征)训练隐式分布网络来推断 SO(3) 上姿态分布的方法,通过 product of experts 融合几何和特征对齐,在低数据场景下显著优于对比学习方法。

Audio-Driven Talking Face Generation with Stabilized Synchronization Loss

提出 AVSyncNet、stabilized synchronization loss 和 silent-lip generator 三项改进,系统性地解决音频驱动说话人脸生成中 SyncNet 不稳定和嘴唇泄漏两大核心问题,在唇形同步和视觉质量上均达到 SOTA。

Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos

本文定义了"Avatar指纹识别"这一新任务——验证合成说话头视频中驱动表情的真实身份,贡献了迄今最大规模的面部重建数据集NVFAIR(161个身份),并提出基于归一化面部关键点距离和时序CNN的基线方法,通过学习与外观无关的面部运动签名实现身份验证(平均AUC 0.85),且能泛化到未见过的生成器(AUC 0.83)。

Bridging the Gap Between Human Motion and Action Semantics via Kinematic Phrases

本文提出运动学短语(Kinematic Phrases, KP)作为人体运动与动作语义之间的中间表示,KP基于客观运动学事实,具有适当抽象性、可解释性和通用性,并据此构建了运动理解系统和白盒运动生成评估基准KPG。

Combining Generative and Geometry Priors for Wide-Angle Portrait Correction

提出结合 StyleGAN 生成式先验(用于人脸矫正)和几何对称先验(用于背景直线矫正)的双模块框架,大幅提升广角人像畸变校正的视觉质量和定量指标。

CoMo: Controllable Motion Generation Through Language Guided Pose Code Editing

提出 CoMo,通过将动作序列分解为语义明确的 pose code(如"左膝微弯"),实现基于文本的可控动作生成与基于 LLM 的零样本动作编辑。

Cut Out the Middleman: Revisiting Pose-Based Gait Recognition

重新审视基于姿态的步态识别方法,提出 GaitHeat 框架,用热力图(heatmap)取代传统的骨架关键点坐标来编码人体姿态,通过改进的预处理流程和姿态引导热力图对齐模块大幅提升性能和泛化能力,使基于姿态的方法首次接近轮廓(silhouette)方法的精度。

De-confounded Gaze Estimation

本文提出基于因果干预的视线估计框架 FSCI,通过特征分离将视线相关特征与身份/光照等无关特征解耦,并利用动态混杂因子库对无关特征进行因果干预,在跨域设置下较基线提升36.2%、较SOTA提升11.5%。

Diffusion Model is a Good Pose Estimator from 3D RF-Vision

提出mmDiff,一种基于扩散模型的毫米波雷达人体姿态估计框架,通过全局-局部雷达上下文提取和结构-运动一致性约束,有效应对雷达点云稀疏、噪声大和信号不一致的挑战,显著超越现有SOTA。

EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis

提出基于正交可学习基向量的高效解耦框架 EDTalk,将人脸动态分解为嘴型、头部姿态和情感表情三个独立潜空间,同时支持视频驱动和音频驱动的情感说话人头像生成。

Event-based Head Pose Estimation: Benchmark and Method

针对事件相机头部姿态估计(HPE)领域缺乏大规模数据集和专用方法的问题,构建了两个大规模多场景事件HPE基准数据集,并提出包含事件时空融合(ESTF)和事件运动感知注意力(EMPA)两个核心模块的专用网络,在多种挑战场景下取得优异性能。

Facial Affective Behavior Analysis with Instruction Tuning

提出首个面向面部情感行为分析(FABA)的指令微调数据集 FABA-Instruct、评测基准 FABA-Bench 以及高效 MLLM 架构 EmoLA,通过面部先验专家模块和 LoRA 适配实现了对情绪与 AU 的细粒度描述与识别。

FoundPose: Unseen Object Pose Estimation with Foundation Features

FoundPose 利用冻结的 DINOv2 基础模型提取 patch 描述子,通过 bag-of-words 模板检索和 kNN 匹配建立 2D-3D 对应关系,无需任何任务特定训练即可实现未见物体的 6D 位姿估计,在 BOP 基准上显著超越现有 RGB 方法。

FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis

提出FreeMotion框架,通过条件概率分解将多人运动联合分布递归拆解为单人条件运动生成,首次实现任意人数的文本驱动运动合成,并支持多人空间控制。

Gaze Target Detection Based on Head-Local-Global Coordination

提出了一种基于头部-局部-全局三视图协调的注视目标检测方法,通过引入基于FOV(视野范围)的局部视图,并设计全局-局部位置与表示一致性机制,显著提升了注视目标预测的准确性。

GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths

提出GazeXplain,首次将视觉扫描路径预测与自然语言解释结合,通过注意力-语言解码器、语义对齐机制和跨数据集联合训练,实现对人类注视行为的可解释预测。

Generalizable Facial Expression Recognition

提出 CAFE 方法,通过在固定 CLIP 人脸特征上学习 Sigmoid Mask 选取表情相关特征,配合通道分离和通道多样性损失,实现仅使用单个训练集就能在多个未见数据集上大幅超越 SOTA 表情识别方法的零样本泛化能力。

GS-Pose: Category-Level Object Pose Estimation via Geometric and Semantic Correspondence

提出GS-Pose方法,利用预训练视觉基础模型(DINOv2)的2D语义特征投影到3D空间,结合几何特征通过Transformer匹配网络进行类别级物体9D姿态估计,仅需10个合成3D模型训练即可在多个真实数据集上达到SOTA级别性能。

How Video Meetings Change Your Expression

提出 FacET(Facial Explanations through Translations),一种基于生成式域翻译的可解释框架,通过学习解耦的面部空间特征和可解释的时空线性变换,自动发现视频会议(VC)与面对面(F2F)交流之间的细微面部表情差异模式,并支持将 VC 视频转换为 F2F 风格的"去zoom化"。

HPE-Li: WiFi-Enabled Lightweight Dual Selective Kernel Convolution for Human Pose Estimation

本文提出 HPE-Li,一种基于 WiFi 信号的轻量化人体姿态估计方法,通过创新的双选择性核注意力(SKA)机制构建多分支 CNN,能够根据输入的 WiFi CSI 数据特征动态调整感受野大小,在 MM-Fi 和 WiPose 两个基准上以极低的计算开销超越了 SOTA 方法。

Human Motion Forecasting in Dynamic Domain Shifts: A Homeostatic Continual Test-Time Adaptation Framework

提出HoCoTTA框架,通过多域稳态评估和隔离参数优化策略,在持续变化的目标域中实现人体运动预测的鲁棒自适应,有效缓解了灾难性遗忘和误差累积问题。

HUMOS: Human Motion Model Conditioned on Body Shape

提出 HUMOS,一种基于体型条件化的人体运动生成模型,通过循环一致性损失和可微分的直觉物理/动态稳定性约束,在无配对训练数据的情况下学习体型与运动之间的相关性,生成物理可信且动态稳定的人体运动。

LaPose: Laplacian Mixture Shape Modeling for RGB-Based Category-Level Object Pose Estimation

提出 LaPose 框架,通过拉普拉斯混合模型 (LMM) 建模物体形状不确定性,结合 DINOv2 通用3D流和卷积专用特征流的双流架构预测 NOCS 坐标分布,并引入尺度无关的位姿表示解决 RGB-only 场景下的固有尺度歧义,在 NOCS 数据集上取得 SOTA。

Large Motion Model for Unified Multi-Modal Motion Generation

提出 Large Motion Model (LMM),首个以动作为中心的多模态统一动作生成基础模型,通过构建包含 10 个任务、16 个数据集、320K 序列的 MotionVerse 基准,设计支持身体部位感知的 ArtAttention 机制,以及结合随机帧率/掩码的预训练策略,实现跨任务的高质量动作生成。

MANIKIN: Biomechanically Accurate Neural Inverse Kinematics for Human Motion Estimation

本文提出MANIKIN,通过在SMPL参数模型中嵌入解剖学约束并设计基于旋转角预测的神经逆运动学求解器,从头部和手部的稀疏末端执行器姿态精确恢复全身运动,同时保证生物力学合理性和地面非穿透性。

MIGS: Multi-Identity Gaussian Splatting via Tensor Decomposition

提出MIGS,通过CP张量分解将多个人体身份的3DGS参数统一到一个低秩张量中,在大幅减少参数量的同时实现了对未见姿态的鲁棒动画。

Modeling and Driving Human Body Soundfields through Acoustic Primitives

提出基于声学基元(Acoustic Primitives)的人体3D声场建模与渲染框架,将多个低阶球谐声场挂载到人体骨骼关节上,在保持与SOTA可比的音质的同时,实现了15倍加速和近场声音渲染能力。

Motion Mamba: Efficient and Long Sequence Motion Generation

本文提出 Motion Mamba,首次将选择性状态空间模型(Mamba)引入人体运动生成任务,通过层次化时序 Mamba(HTM)和双向空间 Mamba(BSM)两个核心模块,在 HumanML3D 上实现 FID 降低50%(0.473→0.281),同时推理速度提升4倍(0.217s→0.058s)。

Multi-Memory Matching for Unsupervised Visible-Infrared Person Re-Identification

提出 Multi-Memory Matching(MMM)框架用于无监督可见光-红外行人重识别,通过跨模态聚类(CMC)、多记忆学习与匹配(MMLM)和软聚类级对齐损失(SCA)三个模块建立可靠的跨模态对应关系,在 SYSU-MM01 上 Rank-1 达到 61.6%,RegDB 上 Rank-1 达到 89.7%。

Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding

针对人体关节遮挡导致2D骨架图边缺失、传统图拉普拉斯位置编码失效的问题,提出PerturbPE方法,利用瑞利-薛定谔微扰定理多次随机扰动并求平均来提取图拉普拉斯特征基的一致性部分作为位置编码,在完整骨架上优于MöbiusGCN,在边缺失场景下性能提升达12%。

Pose-Aware Self-Supervised Learning with Viewpoint Trajectory Regularization

提出了一个自监督学习基准,同时评估语义分类和姿态估计能力,并设计视角轨迹正则化损失(trajectory loss),利用相邻视角的图像三元组约束特征空间中的局部线性性,使学到的表征既保持语义分类精度又获得 emergent 的全局姿态感知能力,在域内和域外姿态估计上均提升4%。

PoseSOR: Human Pose Can Guide Our Attention

本文首次将人体姿态信息引入显著目标排序(SOR)任务,通过提出姿态感知交互模块(PAI)和姿态驱动排序模块(PDR)来建模人体活动与注意力转移的关系,在复杂场景中显著提升了SOR性能并达到SOTA。

ReLoo: Reconstructing Humans Dressed in Loose Garments from Monocular Video in the Wild

提出 ReLoo,通过分层神经人体表示和非层级虚拟骨骼变形模块,从单目野外视频中重建穿着宽松服装的高质量3D人体模型。

RePOSE: 3D Human Pose Estimation via Spatio-Temporal Depth Relational Consistency

RePOSE 提出用时空相对深度一致性损失替代传统的绝对深度监督信号,将遮挡场景下的 3D 人体姿态估计从"学习绝对深度值"转变为"学习关键点的相对深度顺序",以极简的实现(仅需几行代码)显著提升遮挡条件下的姿态估计鲁棒性和精度。

ScanTalk: 3D Talking Heads from Unregistered Scans

提出 ScanTalk,首个能够对任意拓扑(包括未配准的3D扫描数据)的3D人脸进行语音驱动动画生成的深度学习框架,核心依赖于 DiffusionNet 的离散化无关特性来突破固定拓扑约束。

SCAPE: A Simple and Strong Category-Agnostic Pose Estimator

通过将类别无关姿态估计(CAPE)简化为纯自注意力特征匹配问题,抛弃显式相似度匹配和两阶段框架,引入全局关键点特征感知器(GKP)和关键点注意力精炼器(KAR)以提升注意力质量,在MP-100数据集上1-shot/5-shot设置下分别超越SOTA 2.2/1.3 PCK,同时减少参数量和提升推理速度。

Spectral Subsurface Scattering for Material Classification

提出利用Spectral Sub-Surface Scattering(S4,光谱次表面散射)进行材质分类的方法,证明了次表面散射的强光谱依赖性可以提供高度判别性的特征,并设计了一种新型成像装置通过2D投影高效获取S4测量数据,无需耗时的高光谱扫描。

TELA: Text to Layer-wise 3D Clothed Human Generation

TELA提出了分层的3D穿衣人体表示方法和渐进优化策略,从文本描述生成服装可解耦的3D人体模型,支持逐层穿衣生成和虚拟试衣等编辑应用。

TF-FAS: Twofold-Element Fine-Grained Semantic Guidance for Generalizable Face Anti-Spoofing

本文提出TF-FAS框架,通过双重语义元素(内容元素和类别元素)的细粒度引导来增强人脸反欺骗的跨域泛化能力,其中CEDM模块探索并解耦内容相关特征,FCEM模块挖掘类别内的细粒度差异,在多个跨域FAS基准上达到SOTA。

Towards Unified Representation of Invariant-Specific Features in Missing Modality Face Anti-Spoofing

本文提出MMA-FAS框架解决多模态人脸反欺骗中的模态缺失问题,通过模态解耦适配器从频率分解角度分离模态不变和模态特有特征,结合LBP引导的对比损失和自适应模态组合采样策略,在所有模态缺失场景下均达到SOTA。

U-COPE: Taking a Further Step to Universal 9D Category-Level Object Pose Estimation

本文提出 U-COPE,首个统一处理刚性和铰接物体的类别级 9D 位姿估计框架,通过将刚性物体视为单部件铰接物体来统一问题定义,利用 Point Pair Features(PPF)独立提取各部件特征并通过通用投票策略预测关键位姿参数,在合成和真实数据集上均达到 SOTA。

UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues

提出UPose3D,一种基于不确定性感知的多视角3D人体姿态估计方法,通过Normalizing Flow建模2D关键点不确定性、可扩展的跨视角点云投影融合策略和合成数据训练的Pose Compiler模块,在无需3D标注的情况下取得OoD场景下SOTA表现,且在InD场景下与使用3D监督的方法竞争。

Upper-Body Hierarchical Graph for Skeleton Based Emotion Recognition in Assistive Driving

本文针对辅助驾驶场景提出 UbH-GCN,利用上半身骨骼序列构建层次化图结构(UbH-Graph)动态建模关节运动与情感的关系,并引入类别特定变化机制平衡不均衡数据分布,在 AIDE 辅助驾驶数据集上超越现有多模态方法。

VideoClusterNet: Self-Supervised and Adaptive Face Clustering for Videos

VideoClusterNet 提出了一种全自监督视频人脸聚类方法:通过自蒸馏机制自适应微调通用人脸识别模型,并设计了一种基于学习损失度量的无参数聚类算法,在电影/电视剧场景中达到 SOTA。

Wear-Any-Way: Manipulable Virtual Try-on via Sparse Correspondence Alignment

提出 Wear-Any-Way 框架,基于双 U-Net 扩散模型构建强基线实现高保真虚拟试穿,并通过稀疏对应对齐(Sparse Correspondence Alignment)引入点控制机制,支持用户通过点击和拖拽精确操控穿着方式(如卷袖子、开合外套、塞衣角等),在标准试穿和可操控试穿两个维度均达到 SOTA。

WorldPose: A World Cup Dataset for Global 3D Human Pose Estimation

利用2022年FIFA世界杯体育场部署的多视角静态摄像机基础设施,构建了首个大规模多人全局3D姿态估计数据集WorldPose,包含约250万个3D姿态和超过120公里的全局轨迹,并揭示了现有全局姿态估计方法在多人场景下面临的严峻挑战。