跳转至

🧑 人体理解

🔬 ICLR2026 · 45 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (151) · 🧪 ICML2026 (5) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (21) · 📹 ICCV2025 (41) · 🧪 ICML2025 (3)

🔥 高频主题: 人体姿态 ×6 · 多模态 ×4 · 扩散模型 ×3 · LLM ×2

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behaviour Analysis

提出首个面向视频中矛盾/犹豫(A/H)识别的多模态数据集 BAH,包含来自加拿大9省224名参与者的1,118段视频共8.26小时,由行为科学专家标注,并提供了帧级和视频级的基线实验结果。

BANZ-FS: BANZSL Fingerspelling Dataset

本文构建了首个面向 BANZSL(英国/澳大利亚/新西兰手语)双手指拼的大规模数据集 BANZ-FS,汇集新闻直播、实验室录制、网络 vlog 三类来源、35K+ 条多级对齐的指拼实例,并在检测、孤立识别、上下文识别三大任务上系统地 benchmark 了 SOTA 模型。

CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild

CLUTCH 用「VLM 自动标注的 3.2 万条野外手部动作数据(3D-HIW)+ 把轨迹/姿态、左/右手分别离散化的 SHIFT 分解式 VQ-VAE + 在动作空间上加几何重建损失微调 LLM」三件套,第一次把文本↔手部动作建模做到了"野外"场景(弹琴、揉面、写字等),在文生动作与动作生文两项任务上都刷到 SOTA。

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

提出 Q Avatar 框架,通过跨域 Bellman 一致性量化源域模型可迁移性,利用自适应无超参权重函数混合源域和目标域 Q 函数,实现在状态-动作空间不同的跨域 RL 中的可靠知识迁移,无论源域模型质量或域相似性如何都能保证不产生负迁移。

Curvature-Guided Task Synergy for Skeleton based Temporal Action Segmentation

CurvSeg 针对骨架时序动作分割中"分类要时序不变、边界定位要时序敏感"的内在冲突,提出用分类特征轨迹的几何曲率当边界先验——动作段内曲率高、转换处曲率低,由此在分类与定位之间建立双向闭环协同,并配一套双专家 MoE 给两个子任务各自蒸馏特征,作为即插即用模块提升 DeST/LaSA 等基线在四个数据集上的分割精度。

DenseMarks:通过点轨迹学习人头图像的规范嵌入

DenseMarks 用一个 ViT 嵌入器把人头图像的每个像素映射到一个 3D 规范单位立方体里的坐标,并用现成点跟踪器在野外说话人视频上自动产生的配对作监督、配合对比损失训练,得到一个跨身份、跨姿态一致且可解释的稠密对应表示,在几何感知点匹配和单目人头跟踪上达到 SOTA。

Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

DHVAE 把双人交互运动显式拆成「A 个人动作 / B 个人动作 / 全局交互上下文」三个解耦隐变量,并在全局隐变量上加对比学习约束接触合理性,再用 DDIM 在层级隐空间做扩散去噪,以更小更快的模型在 InterHuman / InterX 上刷新 SOTA。

EasyTune: Efficient Step-Aware Fine-Tuning for Diffusion-Based Motion Generation

EasyTune 把扩散模型「跑完整条去噪轨迹再算一次奖励梯度」的微调方式,改成每一步去噪都独立优化一次,从而打断了梯度在去噪步之间的递归依赖,让显存从 \(O(T)\) 降到 \(O(1)\)、优化更密集;再配一个无需人工标注的自精炼偏好学习(SPL)把检索模型改造成动作奖励模型,最终在 HumanML3D 上比 DRaFT-50 的对齐指标(MM-Dist)好 7.7%,显存只占其额外开销的 31.16%,训练提速 7.3×。

EdgeCAPE:边权预测用于类别无关姿态估计

EdgeCAPE 首次在类别无关姿态估计中引入可学习的加权姿态图预测机制,通过预测骨骼图的边权和新边,并结合 Markov 注意力偏差来增强空间依赖建模,在 MP-100 基准上达到 SOTA,1-shot 场景下相比前作 GraphCape 提升 1.99%。

EMBridge: Enhancing Gesture Generalization from EMG Signals Through Cross-modal Representation Learning

EMBridge 提出以手部姿态作为高质量锚点,通过 Q-Former + 掩码姿态重建损失 + 社区感知软对比学习三重机制,将噪声 sEMG 信号的表示空间向语义结构化的姿态空间对齐,首次在可穿戴设备上实现 EMG 零样本手势分类。

EmoPrefer: Can Large Language Models Understand Human Emotion Preferences?

针对描述性多模态情感识别(DMER)评估代价高的痛点,提出 EmoPrefer——首个情感偏好数据集与基准,系统探索 MLLM 是否能替代人工标注者完成情感偏好判断,最佳方案(Qwen2.5-Omni)达到 67.21% 两类 WAF,仍留有提升空间。

Event-T2M: Event-level Conditioning for Complex Text-to-Motion Synthesis

提出 Event-T2M 框架,将文本提示分解为事件级别的原子动作,结合 TMR 编码器和事件级交叉注意力(ECA)模块注入 Conformer 扩散模型,显著提升多事件复杂动作生成的质量和语义对齐。

From Pixels to Semantics: Unified Facial Action Representation Learning for Micro-Expression Analysis

本文提出 D-FACE,用在大规模人脸视频上预训练的条件 VQ-VAE 把两帧之间的面部肌肉运动离散成「身份与域无关」的语义级动作 token,再用带稀疏注意力池化的 Transformer + 情感描述引导的 CLIP 对齐做微表情识别,首次把 MER 从依赖像素级运动描述子(光流/帧差)转向语义级 token,并顺带实现了跨身份/跨域的微表情生成。

From Sparse to Dense: Spatio-Temporal Fusion for Multi-View 3D Human Pose Estimation with DenseWarper

本文提出"稀疏交错输入"这一新范式——让 N 个相机在不同时刻各采一帧而非同步采全帧,再用 DenseWarper 框架(对极几何空间融合 + 可变形卷积时序补全)把稀疏交错热图还原成稠密时空一致的姿态序列,仅用 1/N 的数据量就反超传统同步多视角输入,并把有效输出帧率提升 N 倍。

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

提出 Snippet 范式:将步态轮廓序列组织为若干"片段"(snippet),每个 snippet 由一个连续区间内随机抽取的帧构成,兼顾短程时序上下文与长程时序依赖,在 Gait3D 上以 2D 卷积骨干达到 77.5% Rank-1,超越所有 3D 卷积方法。

GenCape: Structure-Inductive Generative Modeling for Category-Agnostic Pose Estimation

GenCape 把类别无关姿态估计(CAPE)里的关键点骨架结构当作潜在变量来生成:用一个迭代式结构感知变分自编码器(i-SVAE)从支撑图像里推断实例特定的软邻接矩阵,再用组合图迁移(CGT)模块把多张采样图按不确定性与 query 相关性贝叶斯融合成一张 query 感知的图,从而完全摆脱预定义骨架和文本先验,在 MP-100 上 1-shot/5-shot 均刷出新 SOTA(mPCK 比 FMMP +1.59%)。

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

用 VLM 把高层指令翻译成一种「相对运动动力学 (RMD)」的人-物部件级二部图,自动构造强化学习的目标状态和奖励函数,让物理仿真角色无需动捕数据、无需手工调奖励就能完成对静态/动态/铰接物体的长程交互。

HUMOF: Human Motion Forecasting in Interactive Social Scenes

HUMOF 把动态社交场景里的"人-人交互"和"人-场景交互"统一编码成层级特征(高层语义+低层几何),再用一个由粗到细的 Transformer 推理模块逐层注入这些特征,在四个公开数据集上把人体运动预测刷到 SOTA。

InclusiveVidPose: Bridging the Pose Estimation Gap for Individuals with Limb Deficiencies in Videos

本文构建了首个面向肢体缺陷人群(截肢、先天肢体差异、假肢使用者)的大规模视频人体姿态估计数据集 InclusiveVidPose,在 COCO 17 点基础上新增 8 个残肢端关键点,并提出 LiCC 指标量化模型区分"真实残肢/缺失肢体"与"完整肢体"的能力,揭示现有 SOTA 模型在这一人群上系统性失效。

InfBaGel: Human-Object-Scene Interaction Generation with Dynamic Perception and Iterative Refinement

InfBaGel 把"人-物-场景交互(HOSI)"动作生成对齐到一致性模型的少步去噪过程,用动态感知逐步更新场景占据状态、用碰撞感知引导抑制穿模、用混合数据训练绕开 HOSI 标注稀缺,从而在无 HOSI 标注的前提下实时生成既能搬运大物体又能避障落座的长程交互。

Instilling an Active Mind in Avatars via Cognitive Simulation

本文把视频数字人的"只会对口型、动作单调"归因为只模拟了人类认知的"系统 1(快思考)",提出用 MLLM agent 充当"系统 2(慢思考)"生成高层语义计划,并设计带 Pseudo Last Frame 的对称 MMDiT 把文本/音频/图像三模态无冲突地融合,让数字人不仅嘴型准还能做出符合语境、有情绪的表演。

Interaction-aware Representation Modeling With Co-Occurrence Consistency for Egocentric Hand-Object Parsing

针对第一人称图像中手与活动物体的像素级分割,本文提出 InterFormer,用交互边界先验来动态生成"交互感知 query"、净化解码特征,并用一条"条件共现损失"把"没检测到手就不该出现该手的物体"这一物理常识写进训练,在 EgoHOS 与跨域 mini-HOI4D 上取得 SOTA。

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

提出TEMU-VTOFF——面向虚拟脱衣(VTOFF)任务的Dual-DiT架构,通过特征提取器+服装生成器分工协作,结合多模态混合注意力(MHA)融合图像/文本/掩码信息消解视觉歧义,并设计DINOv2驱动的服装对齐器保留高频细节,在VITON-HD和Dress Code多品类场景均达到SOTA。

KinemaDiff: Towards Diffusion for Coherent and Physically Plausible Human Motion Prediction

KinemaDiff 把人体骨骼拓扑和关节级动力学直接嵌进扩散过程本身,用关节自适应噪声生成器和结构对齐正则器替代"靠网络结构隐式编码先验"的常规做法,让随机人体运动预测在保持多样性的同时显著提升物理合理性与精度。

LINK: Learning Instance-level Knowledge from Vision-Language Models for Human-Object Interaction Detection

LINK 用一个"几何编码器 + VLM 链接解码器"的即插即用两阶段 HOI 检测框架,再叠加一套师生范式的渐进式学习策略,把稀疏的 HOI 标注补成覆盖所有人-物对的稠密监督,从而在全监督、零样本、开放词表三种设定上同时拿到 SOTA。

Motion-Aligned Word Embeddings for Text-to-Motion Generation

MATE 把"运动语义对齐"下沉到 LLM 文本编码器的词嵌入层——只微调这一薄层(3.2M 参数),通过运动定位 + 词级解耦把"clockwise"这类动作相关词与人体骨骼运动真正绑定,产出即插即用的运动感知文本编码器,几乎不改架构就让 MoMask/MDM 等主流 T2M 模型全面刷新 SOTA。

Motion-R1: Enhancing Motion Generation with Decomposed Chain-of-Thought and RL Binding

Motion-R1 把"分解式思维链(Decomposed CoT)数据引擎"和"RL Binding"两件事拼在一起:前者用 LLM 把一句高层指令拆成有时序/因果关系的子动作链条,喂给 LLM 做冷启动 SFT;后者用 GRPO 把"动作相似度 + 语义相似度 + 格式"直接做成奖励,不再依赖昂贵的人工偏好标注,从而生成既符合语义又流畅真实的 3D 人体动作。

MotionGPT3: Human Motion as a Second Modality

把人体动作当作"第二种模态",用连续 VAE 隐空间替代离散 VQ token、用对称的动作分支 + 共享注意力替代单流骨干,再配一个挂在自回归 backbone 上的轻量扩散头,让一个统一模型同时做文本→动作生成和动作→文本理解,并且训练收敛快 2–4×。

PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

构建了 PersonaX 多模态数据集(含 LLM 推断的 Big Five 行为特质、面部嵌入和传记元数据),并提出两层分析框架:结构化独立性检验 + 非结构化因果表示学习(带可识别性理论保证),揭示跨模态因果结构。

Pose-RFT: Aligning MLLMs for 3D Pose Generation via Hybrid Action Reinforcement Fine-Tuning

针对位姿专用 MLLM 在监督微调下被一对多歧义逼成"平均解"的对齐缺口,本文提出 Pose-RFT,把 3D 人体姿态生成重新表述为「离散文本 + 连续位姿」的混合动作强化学习问题,用 HyGRPO 算法分头优化两类输出、再配 4 个任务特定奖励,在多个姿态基准上显著超过现有位姿 MLLM。

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

本文提出 Pose Prior Learner(PPL),用一个层次记忆模块以纯自监督(图像重建)的方式,为某个物体类别"凭空"学出一套显式、可视化的姿态先验(关键点先验 + 连接性先验),再用它约束并迭代修正单张图像的姿态估计;在人体/动物多个数据集上超过手工先验和无先验的基线,且在重度遮挡下仍能补全成合理的全身姿态。

PulpMotion: Framing-Aware Multimodal Camera and Human Motion Generation

本文首次把"人体动作 + 相机轨迹"做成文本条件下的联合生成任务,用一个模型无关的框架,引入"屏幕构图(人体关节投影到相机视野)"作为辅助模态作桥梁,在采样阶段把生成结果朝构图一致的方向推,从而让人物始终在画面里、构图更具电影感,并在 DiT 和 MAR 两种架构上都拿到了该任务的新 SOTA。

QuaMo: Quaternion Motions for Vision-based 3D Human Kinematics Capture

QuaMo 提出基于四元数微分方程(QDE)的 3D 人体运动学捕捉方法,通过在四元数单位球面约束下求解运动学方程,并引入二阶加速度增强的 meta-PD 控制器,实现了无不连续性、低抖动的在线实时人体运动估计,在 Human3.6M 等多个数据集上超越 SOTA。

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

ReactDance 用一个层级有限标量量化(HFSQ)的多尺度运动表示,把"粗糙体态"与"高频细节"解耦,再配合非自回归的分块局部上下文(BLC)并行采样,能在 2 秒内生成超过 2000 帧(60 秒+)、高保真且长时连贯的"跟随者"反应式舞蹈。

Sapiens2:面向人体视觉的高分辨率基础模型

Sapiens2 用「掩码重建 + 自蒸馏对比」的统一预训练目标,在 10 亿张精选人像上训练 0.4B–5B 的高分辨率 Transformer,并支持 4K 分层骨干,在姿态、人体部件分割、法向、点云、反照率等多项人体稠密任务上全面刷新 SOTA。

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

SesaHand 用一个"语义对齐 + 结构对齐"双管齐下的可控扩散框架来合成带手部网格标注的真实手部图像:语义侧用思维链(CoT)从 VLM 描述里提炼"人体行为语义"压掉无关细节,结构侧用分层自注意力融合让手与人体对齐、再用一个偏置项高效增强手部跨注意力;生成的图像反过来把野外 3D 手部重建(MPVPE 等)显著刷上去。

Sparkle: A Robust and Versatile Representation for Point Cloud-based Human Motion Capture

针对点云动作捕捉中"点云方法细节丰富但怕噪声、骨架方法鲁棒但丢细节"的两难,本文提出 Sparkle 表示——把 24 个骨架关节(内部运动学)和 32 个表面锚点(外部几何)显式解耦再统一,并配套 SparkleMotion 框架(点对齐骨架追踪器 + 骨架引导锚点估计器 + Sparkle-based SMPL 求解器),在 11 个数据集上跨传感器、跨遮挡噪声全面刷新 SOTA。

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

针对"主动交互式数字人"这一新兴方向缺乏公开数据的痛点,本文构建了 SpeakerVid-5M——首个面向音视频双人(dyadic)交互数字人生成的大规模高质量数据集(8743 小时、520 万单人 clip、77 万双人对话对),配套提出一个自回归视频对话 baseline 和 VidChatBench 评测基准。

Text2Interact: High-Fidelity and Diverse Text-to-Two-Person Interaction Generation

Text2Interact 面向文本驱动的双人 3D 交互动作生成,先用 InterCompose 从 LLM 文本和单人动作先验合成高质量交互数据,再用 InterActor 的词级文本条件、双人动作交互注意力和自适应交互损失提升动作真实性、文本对齐和跨分布泛化。

TOUCH: Text-guided Controllable Generation of Free-Form Hand-Object Interactions

本文提出"自由形态手物交互(Free-Form HOI)生成"新任务,配套从网络视频自动重建的 in-the-wild 3D 数据集 WildO2,并设计三阶段框架 TOUCH(接触图预测 → 多层级条件扩散 → 物理约束精修),让模型摆脱"稳定抓取"先验,能按细粒度文本指令生成推、戳、转等多样且物理合理的手部姿态。

TriC-Motion: 三域因果建模驱动的文本到动作生成

TriC-Motion 在扩散去噪框架里把人体动作同时放到时域、空域、频域三条支路并行建模,再用一个打分门控融合三域信息,并首次引入因果反事实干预剥离与动作无关的噪声线索,最终在 HumanML3D 上把 R@1 推到 0.612 的新 SOTA。

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

DualFlow 用一个基于 Rectified Flow 的双分支 Transformer 框架,把文本、音乐、演员动作和检索到的双人动作样例统一起来,同时支持双人互动动作生成与 actor-reactor 式反应动作生成,并在 MDD、InterHuman-AS、DD100 上以更少推理步数取得更好的语义对齐、动作质量和双人同步效果。

UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling

UniHand 把"从视频里估计手部姿态"和"在结构化条件下生成手部运动"这两个长期割裂的任务统一成一个条件运动合成问题,用一个联合 VAE 把 MANO 参数、2D/3D 骨架对齐进共享隐空间、再用隐空间扩散模型融合多种条件(含一个直接从全图特征里"挑"手部 token 的 hand perceptron),在 DexYCB / HO3D / HOT3D 上即便面对严重遮挡和时序缺帧也拿到 SOTA(DexYCB PA-MPJPE 4.08mm)。

Unleashing Guidance Without Classifiers for Human-Object Interaction Animation

LIGHT 把扩散模型里"每个 token 可以有自己噪声水平"的扩散强制(diffusion forcing)机制改造成一种无需分类器的引导方式:让人体、手、物体各自走不同的去噪节奏,干净的模态通过 cross-attention 引导带噪的模态,从而在不依赖手工接触先验的前提下生成接触更真实的文本驱动人-物交互(HOI)动画。

Zero-Shot Human Pose Estimation Using Diffusion-Based Inverse Solvers

针对「只戴 VR 头显 + 两个手柄(3 个上半身传感器)就要恢复全身 22 关节姿态」的稀疏姿态估计任务,本文提出 InPose:把姿态拆成「与体型无关的旋转(scale-free pose)」和「依赖体型的关节位置(scale-dependent)」两部分,只用旋转去做条件扩散先验、把位置测量当作逆运动学似然项来引导去噪,从而无需任何微调就能零样本泛化到不同体型的用户