跳转至

🧑 人体理解

🤖 AAAI2026 · 16 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (1) · 📷 CVPR2026 (61) · 🔬 ICLR2026 (8) · 🧠 NeurIPS2025 (19) · 📹 ICCV2025 (49) · 🧪 ICML2025 (2)

🔥 高频主题: 人脸/视线 ×4 · 人体姿态 ×4

AHAN: Asymmetric Hierarchical Attention Network for Identical Twin Face Verification

针对同卵双胞胎人脸验证这一极端细粒度识别挑战,提出 AHAN 多流架构,通过层次交叉注意力 (HCA) 对语义面部区域做多尺度分析、面部不对称注意力模块 (FAAM) 捕获左右脸差异签名、以及双胞胎感知配对交叉注意力 (TA-PWCA) 训练正则化,在 ND_TWIN 数据集上将双胞胎验证精度从 88.9% 提升至 92.3%(+3.4%)。

CLIP-FTI: Fine-Grained Face Template Inversion via CLIP-Driven Attribute Conditioning

首次利用 CLIP 提取面部细粒度语义属性嵌入来辅助人脸模板反演(FTI),通过跨模态特征交互网络将泄露模板与属性嵌入融合并投影到 StyleGAN 潜空间,生成身份一致且属性细节更丰富的人脸图像,在识别准确率、属性相似度和跨模型攻击迁移性上均超越 SOTA。

CoordAR: One-Reference 6D Pose Estimation of Novel Objects via Autoregressive Coordinate Map Generation

提出 CoordAR,将单参考视图 6D 位姿估计中的 3D-3D 对应关系建模为离散 token 的自回归生成问题,通过坐标图 token 化、模态解耦编码和自回归 Transformer 解码器,在多个基准上显著超越现有单视图方法,并对对称、遮挡等挑战场景展现强鲁棒性。

Facial-R1: Aligning Reasoning and Recognition for Facial Emotion Analysis

提出 Facial-R1,一个三阶段对齐训练框架(SFT → RL → 数据合成),通过将 AU 和情绪标签作为可验证奖励信号来对齐 VLM 的推理过程与情绪识别结果,在 8 个基准上达到 SOTA,并构建了 FEA-20K 数据集。

Generating Attribute-Aware Human Motions from Textual Prompt

提出 AttrMoGen 框架,通过基于结构因果模型(SCM)的因果信息瓶颈将动作语义与人体属性(年龄、性别等)解耦,生成属性感知的人体运动,并构建了首个包含广泛属性标注的大规模文本-运动数据集 HumanAttr。

Improving Sparse IMU-based Motion Capture with Motion Label Smoothing

提出 Motion Label Smoothing,将经典 label smoothing 从分类任务适配到稀疏IMU运动捕捉中,通过融合骨骼结构感知的Perlin噪声作为平滑标签,在不修改模型架构的前提下以即插即用方式提升三种SOTA方法在四个数据集上的精度,GlobalPose在TotalCapture上SIP误差降低20.41%。

mmPred: Radar-based Human Motion Prediction in the Dark

首次将毫米波雷达引入人体运动预测(HMP)任务,提出mmPred——基于扩散模型的框架,通过双域历史运动表示(时域姿态细化TPR + 频域主导运动FDM)和全局骨骼关系Transformer(GST),有效抑制雷达特有的噪声和时序不一致性,在mmBody和mm-Fi数据集上分别超越SOTA方法8.6%和22%。

Modality-Aware Bias Mitigation and Invariance Learning for Unsupervised Visible-Infrared Person Re-Identification

针对无监督可见光-红外行人重识别(USVI-ReID)中跨模态关联不可靠的核心问题,提出模态感知的 Jaccard 距离修正和"分裂-对比"不变性学习策略,通过消除模态偏差实现可靠的全局跨模态聚类和特征对齐,在 SYSU-MM01 和 RegDB 上达到 SOTA。

MVGD-Net: A Novel Motion-aware Video Glass Surface Detection Network

基于"玻璃表面上反射/透射层物体的运动速度与非玻璃区域不一致"的物理观察,提出 MVGD-Net,通过光流运动线索引导视频中玻璃表面检测,包含跨尺度多模态融合(CMFM)、历史引导注意力(HGAM)、时序交叉注意力(TCAM)和时空解码器(TSD)四个核心模块,并构建了包含 312 视频 19,268 帧的大规模数据集 MVGD-D。

New Synthetic Goldmine: Hand Joint Angle-Driven EMG Data Generation Framework for Micro-Gesture Recognition

提出 SeqEMG-GAN,一种基于手部关节角度序列驱动的条件对抗生成框架,通过角度编码器、双层上下文编码器(含新颖 Ang2Gist 单元)、深度卷积生成器和多视角判别器的联合设计,从关节运动学轨迹合成高保真 EMG 信号,实现对未见手势的零样本生成,合成数据与真实数据混合训练将分类精度从 57.77% 提升至 60.53%。

PressTrack-HMR: Pressure-Based Top-Down Multi-Person Global Human Mesh Recovery

提出 PressTrack-HMR,首个仅基于压力信号实现多人全局人体网格恢复的自上而下流水线,通过创新的 UoE 相似度度量实现压力足迹跟踪(93.6% MOTA),并构建了首个多人交互压力数据集 MIP。

Robust Long-term Test-Time Adaptation for 3D Human Pose Estimation through Motion Discretization

针对 3D 人体姿态估计在线测试时自适应中的误差累积问题,提出基于运动离散化(无监督聚类获得锚运动集)+ 自回放机制 + 软重置策略的解决方案,使模型能在长时间持续适应中稳健利用个人形态和习惯性运动特征,在 Ego-Exo4D 和 3DPW 上超越所有现有在线 TTA 方法。

SOSControl: Enhancing Human Motion Generation through Saliency-Aware Symbolic Orientation and Timing Control

提出Salient Orientation Symbolic (SOS) script——基于Labanotation启发的可编程符号化运动表示框架,通过时序约束的凝聚聚类提取关键帧显著性,结合SMS数据增强和梯度优化的SOSControl框架实现对身体部位朝向和运动时序的精确控制,在HumanML3D上SOS-Acc达0.988且FID仅3.892。

Spatiotemporal-Untrammelled Mixture of Experts for Multi-Person Motion Prediction

提出ST-MoE框架,首次将混合专家模型(MoE)与双向时空Mamba相结合用于多人运动预测,通过四种异构时空专家灵活捕获复杂时空依赖,实现SOTA精度的同时减少41.38%参数量,训练加速3.6倍。

Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion

提出基于 Rolling Diffusion 的流式共语手势生成框架,通过结构化渐进噪声调度将任意扩散模型转化为流式手势生成器,并引入 Rolling Diffusion Ladder Acceleration (RDLA) 实现最高 4× 加速(200 FPS),在 ZEGGS 和 BEAT 基准上全面超越基线。

VPHO: Joint Visual-Physical Cue Learning and Aggregation for Hand-Object Pose Estimation

提出 VPHO,一个联合视觉和物理线索的手-物体姿态估计框架,通过力预测模块学习 3D 物理线索,并设计两阶段候选姿态聚合策略(视觉引导 + 物理引导),在保持视觉一致性的同时实现物理合理性,在 DexYCB 和 HO3D 两个基准上同时达到姿态精度和物理合理性的 SOTA。