跳转至

🧑 人体理解

📷 CVPR2026 · 151 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (45) · 🧪 ICML2026 (5) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (21) · 📹 ICCV2025 (41) · 🧪 ICML2025 (3)

🔥 高频主题: 人脸/视线 ×17 · 重识别 ×13 · 扩散模型 ×12 · 人体姿态 ×12 · 多模态 ×10

ActAvatar: Temporally-Aware Precise Action Control for Talking Avatars

ActAvatar 用「结构化文本提示 + 相位感知跨注意力」让说话人视频在指定时间窗口精确做出指定动作,再配合「按层深递增的音频影响」和「两阶段训练」,在不依赖姿态骨架的前提下同时保住唇音同步、动作准确度和画质,5B 模型达到 14B 级效果。

Action Motifs: Self-Supervised Hierarchical Representation of Human Body Movements

本文提出 A4Mer,一个嵌套的隐空间 Transformer,从 3D 姿态序列中完全自监督地学出「Action Atoms(原子动作)→ Action Motifs(动作母题)」两级层级表示——让语义有意义、可复用的变长动作片段自下而上"涌现"出来,并用它在动作识别、长时运动预测、运动插值三项任务上显著超越现有定长表示。

All in One: Unifying Deepfake Detection, Tampering Localization, and Source Tracing with a Robust Landmark-Identity Watermark

提出 LIDMark,首个将 deepfake 检测、篡改区域定位和源追踪统一到单一主动取证框架中的方法——通过嵌入 152 维 Landmark-Identity 水印(136D 面部关键点 + 16D 源 ID),利用内在/外在一致性实现三合一取证,PSNR/SSIM 和检测精度均超越现有方法。

AudioAvatar: Personalized Audio-driven Whole-body Talking Avatars

AudioAvatar 用一张人像照片重建一个 canonical 的 3D 高斯全身数字人,并让音频直接调制每个高斯粒子的运动轨迹(跳过"音频→参数化姿态→渲染"这条有损中间链),再借大型音频驱动视频扩散模型做特征蒸馏,从而在嘴形同步、面部微表情和手势自然度上全面超过姿态驱动的基线。

Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

把"说话人头像生成"从单向播报升级成真正的双向对话:用因果 diffusion forcing 在运动隐空间里边收用户音频/动作、边自回归生成 avatar 头部运动,配合 KV cache 把延迟压到约 500ms(比基线快 6.8×),再用"丢掉用户条件造负样本"的免标注 DPO 让 avatar 学会点头、跟笑等富有表现力的反应,人类评测中超 80% 偏好率胜过最强基线。

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video

提出AVATAR框架,通过离策略训练架构(分层重放缓冲区)和时间优势塑形(TAS,U形加权强调推理链首尾)两个核心组件改进GRPO,解决其数据低效、优势消失和均匀信用分配三大问题,在音视频推理基准上显著超越GRPO基线。

BarbieGait: An Identity-Consistent Synthetic Human Dataset with Versatile Cloth-Changing for Gait Recognition

针对真实世界几乎不可能采集"同一人穿上百种衣服"的步态数据这一痛点,本文把 521 个真实受试者一一映射进虚拟引擎、为每人随机生成 100 套换装,构建出身份一致的合成步态数据集 BarbieGait,并配套提出衣物不变特征基线 GaitCLIF,在 BarbieGait 及 CCPG / SUSTech1K / Gait3D / GREW 上均拿到 SOTA。

Beyond Scanpaths: Graph-Based Gaze Simulation in Dynamic Scenes

把驾驶员注视建模成一个自回归动力系统:将每一帧交通场景编码成「以注视为中心」的异构时空图,用关系亲和力 Transformer(ART)建模注视与交通物体的交互,再用对象级混合密度网络(ODN)预测下一步注视分布并自回归地展开成连续注视轨迹,从而用同一个模型同时生成 SOTA 级别的注视时间序列、扫视路径与显著图。

Beyond Single-View Sufficiency: CVBench for Cross-View Human Understanding

针对现有 MLLM 基准默认"单视角足够"、只奖励单图识别的漏洞,本文构造 CVBench——3000 道每题都被强制验证"单视角不可解、跨视角才可解"的人体理解题(12 个时空任务、4 路同步相机),评测发现最强模型也落后人类近 50 分,并诊断出贯穿所有模型的系统性失败机制"单视角偏置"。

BIT: Matching-based Bi-directional Interaction Transformation Network for Visible-Infrared Person Re-Identification

针对可见光-红外行人重识别(VI-ReID)中模态鸿沟大、红外样本稀少的问题,BIT 抛弃"把两模态特征对齐到共享空间"的老套路,改用成对匹配(matching-based)范式:先用双向交叉交互模块让一对可见-红外图像互相吸收互补信息,再用查询感知打分模块在 patch 级别挖掘可靠的互惠对应关系算出最终相似度,在 SYSU-MM01 / LLCM / RegDB 三个基准上刷到 SOTA。

BoostSLT: Boosting Sign Language Translation via a Plug-and-Play Diffusion-Based Semantic Enhancer

BoostSLT 在任意手语翻译模型外面套一层「先按动作能量把长视频切成语义段、各段独立翻译、再用扩散语言模型把碎片译文重建成连贯长句」的即插即用模块,不依赖 gloss 标注就显著提升了长句、篇章级手语翻译的 BLEU 与 ROUGE。

Breaking Spurious Correlations: Uncertainty-Driven Causal Transformers for AU Detection

针对面部动作单元(AU)检测中数据少、类别不均衡、标签噪声和混杂偏差的问题,本文提出 UDCT 框架:把 Transformer 注意力权重建模成高斯分布以显式表达不确定性,用不确定性给样本损失重加权来抗噪声/不均衡,再用 per-AU 的因果后门调整切断混杂因子造成的虚假 AU 关联,在 BP4D / DISFA 上取得有竞争力且更鲁棒的结果(DISFA 平均 F1 67.36%)。

Bridging Facial Understanding and Animation via Language Models

这篇论文用 T2V 大模型合成了一个约 80 小时、情绪均衡的 3D 人脸语料 Open3DFaceVid,并把每帧人脸几何用 VQ-VAE 离散成"几何 token"喂给 LLM,从而第一次把 3D 人脸参数建模当成"语言问题"——同一套 LLM 既能把人脸运动 token 翻译成自然语言描述(Motion2Language),也能从文本 prompt 生成可控的 3D 人脸运动轨迹(Language2Motion)。

Causal Motion Diffusion Models for Autoregressive Motion Generation

提出 CMDM 框架,在运动-语言对齐的因果隐空间中统一扩散去噪与自回归生成,通过帧级独立噪声和因果不确定性采样调度,实现高质量、低延迟的文本到动作生成和长序列流式合成。

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

提出因果干预图姿态估计框架 CIGPose,通过结构因果模型识别视觉上下文混杂因素,利用预测不确定性定位受混杂影响的关键点并用学习得到的上下文无关规范嵌入替换,再经层次图神经网络建模骨骼解剖约束,在 COCO-WholeBody 上达到 67.0% AP 的新 SOTA。

CLEX: Complementary Label Exchange Learning for Noisy Facial Expression Recognition

CLEX 通过在原图与增广图两个分支之间随机交换一部分非目标类(non-target)的 logit,再做尺度不变归一化,并用「互补抑制损失」专门压制随机保留的那些非目标类响应,从而在不需要干净数据、不需要噪声先验的前提下抑制虚假激活,在 RAF-DB / AffectNet / FERPlus 三个野外 FER 数据集的各种噪声率下都刷到 SOTA。

Clothe and Pose

这篇论文把"换衣服"和"换姿势"两件原本被拆成两段流水线做的事合并成一个任务(Clothe and Pose),用一个基于 SDXL 的多流(multi-stream)扩散模型同时吃用户图、服装前后视图和目标姿态骨架,单步生成"指定的人穿指定衣服摆指定姿势"的图像,并配套提出了带真值三元组的评测协议,在四种姿态变换上全面超过"试衣模型+重姿态模型"串行 baseline 以及 20B 的 Qwen-Image-Edit。

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

提出 COG 框架,将跨视图对应关系建模为置信度感知的最优传输(OT)问题,通过预测逐点置信度作为传输边际约束来抑制非重叠区域和离群点,实现无监督条件下媲美有监督方法的单参考图像新物体6DoF位姿估计。

Composite-Attribute Person Re-Identification via Pose-Guided Disentanglement

针对「参考图 + 短关键词属性」这种自然但模糊的查询,本文提出 CA-ReID 新任务,并用姿态引导的「部位感知表征(PAR)」把文本属性绑定到对应身体区域、再配合「稠密解耦损失(DDL)」把身份和属性维度拆开,在自建的组合属性基准上把 Hard 查询的 Recall@1 提了最多 +17%。

CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation

CoordSpeaker 先用一个"手势 captioning"框架给没有文本标注的手势数据离线生成多粒度描述文本,再用一个带「层级化条件注入去噪器」的条件潜在扩散模型,把语音和文本两路异质条件协同起来,从而生成既跟语音节奏对齐、又能听从文本指令(如"边说边鞠躬")的全身说话人手势。

COPE: Consistent Occlusion and Prompt Enhancement Network for Occluded Person Re-identification

COPE 用三个轻量模块解决遮挡 ReID 的"特征干扰"与"信息丢失"两大顽疾——跨身份施加相同遮挡并约束遮挡区特征一致(CICO)、用 CLIP 文本提示定位前景再随机填充背景(PBF)、推理时用前景完整度打分对检索做后处理重排(PSS),在 Occluded-Duke 上达到 Rank-1 约 82%、mAP 约 75–76%,且几乎不增加推理开销。

D³FER: Dual Channel and Dual Branch Network for Robust Facial Expression Recognition under Dual Challenges

针对野外面部表情识别同时遭遇「视觉扰动(遮挡/姿态)+ 标签噪声」的复合难题,D³FER 用弱/强双通道增强喂一个 Query-Key 动量双分支,并在一个跨批次的动态队列里既缓存置信度做自适应阈值的样本过滤与标签校正、又缓存特征做监督对比学习,推理时用更平滑的 Key 分支,在 RAF-DB/FERPlus/AffectNet 及其遮挡/姿态/噪声子集上全面刷新 SOTA。

Decoupled Generative Modeling for Human-Object Interaction Synthesis

DecHOI 把"人-物交互合成"拆成两个轻量扩散专家——轨迹生成器先无需人工路标地规划人和物体的全局路径,动作生成器再在路径条件下补全细粒度全身动作,并用一个只盯手脚末端关节的对抗判别器拉近接触真实度,在 FullBodyManipulation 和 3D-FUTURE 上多数指标超过 CHOIS/HOIFHLI,且支持遇到移动障碍时实时重规划。

DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation

提出 DecoVLN 框架,将 VLN 任务中的观察、推理和纠错三个过程解耦,通过自适应记忆优化机制和基于状态-动作对的纠错微调策略,在仅使用自中心 RGB 输入的条件下实现了 R2R-CE 和 RxR-CE 上的 SOTA 性能。

DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations

用「显式全局变换表示头部姿态 + 隐式 latent code 表示面部表情」的混合运动表示,配合双分支姿态注入与渐进式混合 CFG,让单图肖像动画首次做到姿态与表情高保真解耦控制,支持只改姿态或只改表情的精细编辑。

Differentially Private 2D Human Pose Estimation

首个面向 2D 人体姿态估计的差分隐私统一框架:把"梯度子空间投影"和"特征级差分隐私(只给原图私有特征加噪)"两种降噪机制拼成 Feature-Projective DP,在形式化隐私保证下大幅缩小与非隐私模型的精度差距(ε=0.8 时 MPII 达 82.61% [email protected],恢复了 73% 的隐私损失)。

DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

DyaDiT 是一个面向双人对话场景的多模态扩散 Transformer,用一个正交化交叉注意力模块把两路重叠音频解纠缠、再叠加关系/人格等社交条件和运动字典先验,生成既贴合对话动态又符合社交语境的上半身手势,客观指标和用户偏好都超过现有双人手势方法。

Dynamic Label Noise Suppression with Optimal Teacher Pool for Facial Expression Recognition

针对面部表情识别(FER)数据集中普遍存在的噪声标签,本文提出 OTP-NS 框架:用一个"最优教师池"替代单一 EMA 教师以打破师生参数耦合与噪声累积,再叠加样本级的相似度感知标签平滑(SALS)和质心置信加权(CWL)两个抑噪部件,在多个 benchmark 的各噪声比例下超过现有 SOTA,且推理零额外开销。

Dynamic Magic: Unleashing Restricted Knowledge for Lifelong Person Re-Identification

针对终身行人重识别(LReID)中固定网络架构"塞不下"持续累积知识、导致灾难性遗忘的问题,本文提出动态扩展框架 VIA:用级联双 LoRA 适配器给每个新域单独建模、用共享专家池路由复用跨域共性、再用域相似度自适应调节编码器学习率,最终在 5 个见过域上把平均 mAP 从 baseline 的 66.4% 拉到 77.7%。

E-3DPSM: A State Machine for Event-Based Egocentric 3D Human Pose Estimation

提出 E-3DPSM,一种基于事件相机的自我中心 3D 人体姿态状态机,将姿态估计建模为连续时间状态演化过程,通过双向 SSM 时序建模和可学习的卡尔曼式融合模块融合直接预测与增量预测,实现 80Hz 实时推理,MPJPE 降低 19%、时序稳定性提升 2.7 倍。

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

提出 EgoPoseFormer v2 (EPFv2),通过端到端 Transformer 架构(单一全局查询 + 因果时序注意力 + 条件多视图交叉注意力)和基于不确定性蒸馏的自动标注系统,在 EgoBody3M 基准上以 0.8ms GPU 延迟实现了自我中心 3D 人体运动估计的 SOTA 精度(MPJPE 4.02cm,比前作提升 15-22%)。

EventGait: Towards Robust Gait Recognition with Event Streams

EventGait 用事件相机做步态识别,提出"短时片段走动态流、长时片段走静态流"的双流框架:动态流用混合脉冲专家(MoSE)以不同膜时间常数的脉冲神经元自适应捕捉多时间尺度运动,静态流用 DINOv2 当老师做跨模态结构对齐(CroSA)把稠密形状先验蒸馏进稀疏事件,在合成与真实事件步态基准上既追平相机方法、又在弱光下大幅超越(夜晚 +37.3%)。

FaceCoT: Chain-of-Thought Reasoning in MLLMs for Face Anti-Spoofing

构建了首个面向人脸反欺骗(FAS)的大规模 VQA 数据集 FaceCoT(108 万样本,覆盖 14 种攻击类型),包含六层级 CoT 推理标注(从全局描述到局部推理到最终结论);同时提出 CoT-Enhanced Progressive Learning (CEPL) 两阶段训练策略,在 11 个基准数据集上平均 AUC 提升 4.06%、HTER 降低 5.00%,超越所有 SOTA 方法。

FisherPoser: Human Motion Estimation from Sparse Observations with Hierarchical Region-Wise Fisher-Matrix Uncertainty Modeling

FisherPoser 把"用头显+两手柄三个 6-DoF 信号估全身姿态"建模成 SO(3) 流形上的概率推断:每个关节输出一个 Matrix-Fisher 分布而非单一旋转,再用"五分区 token + 沿肢体链父到子递归"把姿态和不确定性逐级传递,在 AMASS 稀疏 VR benchmark 上 MPJPE/MPJRE 全面刷新 SOTA,同时给出校准良好的逐关节置信度。

FlexAvatar: Learning Complete 3D Head Avatars with Partial Supervision

提出 FlexAvatar,通过引入可学习的"偏置吸收器"(bias sinks)token 统一单目和多视角数据训练,解决了驱动信号与目标视角的纠缠问题,从单张图像生成完整、高质量、可动画的 3D 头部化身。

FloodDiffusion: Tailored Diffusion Forcing for Streaming Motion Generation

FloodDiffusion 把视频领域的 diffusion forcing 改造(tailor)到文本驱动的流式人体动作生成上,通过"下三角时间调度 + 活动窗双向注意力 + 帧级时变文本条件"三处关键修改,首次让 diffusion forcing 框架在 HumanML3D 上做到 FID=0.057,达到流式 SOTA 并逼近非流式方法。

FLOW: Optimal Transport-Driven Feature Warping for Generalized Remote Physiological Measurement

FLOW 把端到端 rPPG 模型跨域时的"分布漂移"看成一个特征级最优传输(OT)问题——先用轻量时序细化模块(TRM)把不同域的时序特征统一去噪,再用基于可学习原型库的跨时序最优传输(PCOT)做软对齐,配两条正则项,在四个 rPPG 基准上以即插即用、骨干无关的方式刷到跨域 SOTA。

FlowPalm: Optical Flow Driven Non-Rigid Deformation for Geometrically Diverse Palmprint Generation

FlowPalm 用 RAFT 光流从真实掌纹对里统计出非刚性形变场、过滤成"形变库",再在扩散采样里分三阶段把形变注入主线(crease warp)和纹理(warped noise),生成几何多样且身份一致的合成掌纹——只用合成数据训练的识别模型(85.20% TAR)反超真实数据(73.59%)。

FMPose3D: monocular 3D pose estimation via flow matching

把单目 2D-to-3D 姿态提升重新表述成"条件分布转运"问题,用 Flow Matching 学一个 ODE 速度场,只需 3 步积分就能把高斯噪声搬运到合理 3D 姿态分布;再用基于重投影误差的后验期望聚合(RPEA)把多个假设融成一个估计,在 Human3.6M / MPI-INF-3DHP 与动物数据集上都超过扩散类方法,且推理快约 5 倍。

Focal–General Diffusion Model with Semantic Consistent Guidance for Sign Language Production

针对手语生成(SLP)中 Gloss-to-Pose 阶段「只建模全局、忽略关节级细粒度依赖」的通病,本文提出 Focal–General 扩散模型(FGDM):用「先聚焦关节、再统筹全局」的两段式去噪结构,配上逐帧自适应的图卷积 ASGCN 和把 CTC 语义监督注入扩散训练的 SCG 机制,在 PHOENIX14T 和 USTC-CSL 上全面刷新 SOTA。

Forecasting 3D Scanpaths in Egocentric Video

本文首次把"预测人接下来往哪看"从 2D 图像扩展到第一视角视频,定义了在 3D 世界坐标系下预测未来注视点序列(3D scanpath)这一新任务,并提出一个以"最后一帧相机位姿"为标准参照系、融合视频/头部位姿/历史注视的 Transformer 架构,在 Aria Digital Twin 上建立了首个 baseline。

FrankenMotion: Part-level Human Motion Generation and Composition

针对文本到人体运动生成"只能整段或动作级控制、管不了单个身体部位"的痛点,本文先用 LLM 智能体(FrankenAgent)把已有 mocap 数据集自动标注成"序列 / 原子动作 / 身体部位"三级、且时间对齐的细粒度数据集 FrankenStein,再训练一个基于扩散模型的 FrankenMotion,让每个身体部位由各自的逐帧文本提示驱动,从而能组合出训练中没见过的复杂动作(如"坐着同时抬左臂")。

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

提出 TAR-FAS 框架,首次将人脸反欺骗(FAS)任务重构为 Chain-of-Thought with Visual Tools(CoT-VT)范式,让 MLLM 在推理过程中自适应调用外部视觉工具(LBP/FFT/HOG等),从"直觉判断"升级为"精细调查",在 1-to-11 跨域协议上取得 SOTA。

FusionAgent: A Multimodal Agent with Dynamic Model Selection for Human Recognition

本文提出 FusionAgent,一个基于多模态大语言模型(MLLM)的智能体框架,用于全身生物特征识别中的动态样本级模型选择——将每个专家模型(人脸识别/步态识别/行人重识别)封装为工具,通过强化微调(RFT)让 agent 学会根据每个测试样本的特征自适应选择最优模型组合,配合新提出的 ACT 分数融合策略,显著超越现有 SOTA 融合方法。

Gaussian-Mixture Latent Flow for Stochastic 3D Human Motion Prediction

针对随机人体运动预测里"为了准确度和多样性牺牲合理性、且无法可靠量化不确定性"两个老问题,本文在隐空间里用 EM 学一个数据驱动的高斯混合先验把不同运动模式拆开,再用一个全可逆的隐空间 Flow Matching(配骨架感知 Transformer)做预测,从而既能拿到精确的对数似然作为不确定性度量,又在 Human3.6M / AMASS 上同时刷到 SOTA 的准确度与合理性。

Gaze Target Estimation Anywhere with Concepts

本文提出"可提示注视目标估计(PGE)"这一新任务——用一句自然语言或一个坐标点指定画面里的某个人,模型端到端直接吐出他注视位置的热图,并配套了 120K 概念标注数据集 Gaze-Co 和首个 PGE 模型 GazeAnywhere,在多个基准上达到 SOTA。

GazeOnce360: Fisheye-Based 360° Multi-Person Gaze Estimation with Global-Local Feature Fusion

用一台朝上放在桌面的鱼眼相机一次性拍下 360° 全场景,GazeOnce360 用旋转卷积 + 眼部关键点监督 + 全局/局部双分辨率交叉注意力,端到端地同时检测并回归多人的 3D 视线方向,在自建合成数据集 MPSGaze360 上把视线误差从多阶段管线的 18.96° 降到 10.39°、速度提升约 4 倍。

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

针对 VR 头显「离轴近眼红外相机 + 没有可靠标注」的困境,本文一边发布首个大规模离轴注视数据集 VRGaze(68 人、210 万张),一边提出 GazeShift——用「同一只眼睛不同时刻两帧之间的注视重定向」作为无监督代理任务,靠标准交叉注意力把注视和外观解耦,再用模型自身注意力图当软掩膜聚焦眼区,仅 34.2 万参数 / 55 MFLOPs、头显 GPU 上 5ms 推理,VRGaze 上达到 1.84° 误差,接近有监督水平。

Geometric Neural Distance Fields for Learning Human Motion Priors

本文提出 NRMF(Neural Riemannian Motion Fields),把人体运动的「姿态、速度、加速度」三阶动力学分别建模成三个条件神经距离场的零水平集,并配套一个几何投影算法和一个几何积分器,使得用同一个无条件先验就能稳健地完成去噪、补全(in-betweening)、单目拟合和生成等多种任务,在 AMASS/3DPW/PROX 等多个 benchmark 上全面超过 VAE 和扩散类先验。

Goldilocks Test Sets for Face Verification

当主流人脸验证测试集已被刷到饱和(LFW 99.8%)时,本文不靠降画质/加遮挡造难度,而是从受控采集的高质量人脸库里挖出三类"自然但难"的图像对——大胡须差异(Hadrian)、强曝光差异(Eclipse)、同卵双胞胎(ND-Twins),并配一套"Goldilocks 三规则"保证测试集难得恰到好处,结果难度反超那些靠加合成口罩、降分辨率的人工 benchmark。

Ground Reaction Inertial Poser: Physics-based Human Motion Capture from Sparse IMUs and Insole Pressure Sensors

GRIP 用 4 个可穿戴设备(双腕智能手表 + 双脚智能鞋垫)的 IMU 信号加足底压力,先用 KinematicsNet 估出运动学状态,再用 DynamicsNet 在物理仿真器里以力矩驱动一个"数字孪生"人形按 PPO 策略复现该运动,从而在极少传感器下输出全局轨迹准确、物理上自洽(无脚滑、无穿地、无漂浮)的全身动作。

HamiPose: Hamiltonian Optimization for Unsupervised Domain Adaptive Pose Estimation

针对合成→真实域姿态估计中"源监督梯度 vs 目标一致性梯度"互相打架导致的训练震荡,HamiPose 先按关键点把目标梯度正交分解、用置信度门控只放行不冲突的成分,再用带辛积分器的哈密顿优化器给更新加上"受控动量"压住高频抖动,在多个 UDA 姿态基准上拿到 SOTA。

HandX: Scaling Bimanual Motion and Interaction Generation

构建了 HandX——一个统一的双手运动生成基础设施(包含 54.2 小时运动数据 + 48.5 万条细粒度文本标注),提出解耦式自动标注策略(运动学特征提取 + LLM 推理生成描述),并基准测试了扩散和自回归两种生成范式,展示了明确的数据和模型 scaling 趋势。

Hierarchical Enhancement of Semantic Priors for Disentangled Text-Driven Motion Generation

HESP 用一个把潜空间显式拆成多个语义子流形的自适应高斯 VAE(AG-VAE),再配合动态跨模态记忆(DCMM)和分层跨模态注意力(HCA),让文本驱动的 3D 人体动作生成更可控、更可解释,在 HumanML3D 和 KIT-ML 上的 FID、R-Precision 都优于 SALAD、MoMask、MDM 等基线。

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

定义了记忆性反馈(MemFeed)新任务,提出 MemCoach——一种 training-free 的 MLLM 激活导向方法,通过教师-学生策略将记忆性感知知识注入模型激活空间,使 MLLM 能生成提升照片记忆性的自然语言可操作建议。

HSI-GPT2: A Dual-Granularity Large Motion Reasoning Model with Diffusion Refinement for Human-Scene Interaction

面向"统一理解 + 生成"人-场景交互(HSI)的大模型 HSI-GPT2,用双粒度运动 tokenizer把动作拆成语义码本与细节码本两路、用LLM 当语义规划器 + 扩散解码器当去 token 器提升物理保真、再配一套运动思维链(MoCoT)数据引擎 + GRPO 强化学习注入分步推理,在 HumanML3D / HUMANISE 上的生成、描述、补全任务全面超越 HSI-GPT。

HUMAPS-4D: A Multimodal Dataset for HUman Motion Analysis with Physiological and Semantic informations

HUMAPS-4D 是一个把"光学动捕 + 多视角 RGB + IMU + 足底压力鞋垫 + 表面肌电(sEMG) + 人体测量 + 三层语义标注"全部时间同步在同一标准协议下的大规模人体运动数据集(32 人 × 30 动作 × 10 次 × 14 小时 = 576 万帧),目标是让"不依赖摄像头、靠足底压力等生理信号推断全身 3D 姿态/动作"成为可严谨 benchmark 的研究方向。

HyperGait: Unleashing the Power of Parsing for Gait Recognition in the Wild via Hypergraph

HyperGait 用超图卷积把人体解析序列(gait parsing sequence)里身体部件之间、以及时间帧段之间的"高阶非线性关联"挖出来,仅以单一解析模态为输入,就在真实场景步态数据集 Gait3D 上拿到 80.5% Rank-1,超过此前同样只用解析的 SOTA(MultiGaitP)4.1 个百分点。

IMU-HOI: A Symbiotic Framework for Coherent Human-Object Interaction and Motion Capture via Contact-Conscious Inertial Fusion

IMU-HOI 把"手与物体的接触"当成一等公民的概率信号,从贴在身体(6 个)和物体(1 个)上的稀疏 IMU 出发,用三阶段融合流水线同时恢复全身人体姿态和物体的 6-DoF 轨迹,在三个 HOI 基准上把物体轨迹误差相比强基线降低了 44%~64%。

Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models

Interact2Ar 是首个文本条件下、端到端的自回归扩散模型,用「协作去噪器 + 身体/手部/轨迹专用头」生成带细致手部动作的全身双人交互,再用一套「混合记忆」自回归管线把整段动作拆成子片段逐步生成,从而在 Inter-X 基准上刷新 SOTA,并解锁时序拼接、扰动适应、多人交互等下游能力。

InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs

InterAgent 是第一个文本驱动、基于物理仿真的双人形智能体控制框架,用一个多流的自回归扩散 Transformer(Inter-DiT)把本体感知、外部感知、动作三路解耦建模,并用"交互图 + 稀疏边注意力"刻画关节到关节的细粒度交互关系,从而仅凭一句文本就能生成物理上合理、语义上忠实的双人互动行为。

InterPhys: Physics-aware Human Motion Synthesis in a Dynamic Scene

InterPhys 提出一种可微的连续接触力模型,把人-物、人-场景与体内动力学统一进欧拉-拉格朗日方程,并用两阶段扩散管线先预测物理参数、再生成人体运动,在动态场景(含运动物体)下显著提升了人体运动的物理合理性。

InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

InterPrior 用「大规模模仿蒸馏 + RL 微调」的三阶段配方,把一个全参考模仿专家蒸馏成目标条件的变分策略,再用 RL 把它打磨成能从稀疏目标(快照/轨迹/接触)生成全身人-物交互、并在失败后自我纠正的可泛化生成式控制器。

LaMoGen: Language to Motion Generation Through LLM-Guided Symbolic Inference

提出 LabanLite 符号动作表示和 LaMoGen 框架,首次让 LLM 通过可解释的 Laban 符号推理自主组合动作序列,在时序精度和可控性上超越传统文本-动作联合嵌入方法。

LAMP: Localization Aware Multi-camera People Tracking in Metric 3D World

LAMP 用头显已知的 6-DoF 位姿,把各相机检测到的 2D 人体关键点早早抬升成统一世界系的 3D 射线云,再用时空 Transformer 直接把人体 SMPL 运动拟合到射线云上——这种"先抬升再拟合"把佩戴者头部运动和被观测者运动彻底解耦,在单目 benchmark 上达到 SOTA,在多相机第一视角场景下大幅甩开基线。

LCA: Large-scale Codec Avatars - The Unreasonable Effectiveness of Large-scale Avatar Pretraining

LCA 首次将大规模预训练/后训练范式应用于 3D 头像建模:在 100 万野外视频上预训练学习广泛的外观和几何先验,再在高质量多视图工作室数据上后训练增强精细表情和保真度,打破了泛化性与保真度的固有矛盾。

Learning Effective Sign Features without Text for Gloss-free Sign Language Translation

本文提出 SignDINO——一种把 DINO 自蒸馏改造成"手语感知"的预训练策略:让教师只看全局帧、学生只看保留手部/面部的局部掩码视图,逼着模型仅凭全局帧就能推断出手语的判别性局部线索,从而在完全不用 gloss、也不用文本标注的情况下预训练手语 tokenizer,在四个公开 GFSLT 数据集上达到甚至超过依赖文本预训练的 SOTA。

Learning to Diversify and Focus: A Reinforcement Framework for Open-Vocabulary HOI Detection

针对开放词表人-物交互(OV-HOI)检测里"查询过拟合已见类、CLIP 注意力发散"两大顽疾,本文提出 SD-IF 框架:用强化学习驱动的语义扰动让查询主动"跳出"已见语义簇,再用 actor-critic 把注意力"聚焦"到真正发生交互的区域,在 HICO-DET 与 SWIG-HOI 上未见类 mAP 大幅领先此前 SOTA。

LiveGesture: Streamable Co-Speech Gesture Generation Model

本文提出 LiveGesture——据称第一个完全流式、零前瞻(zero look-ahead)的语音驱动全身手势生成框架:用一个流式向量量化运动 tokenizer(SVQ,非对称的双向编码 + 因果解码)把每个身体区域离散成因果运动 token,再用分层自回归 Transformer(区域专家 xAR + 因果时空融合 xAR-Fuse)边收音频边逐帧生成 SMPL-X 全身手势,在 BEAT2 上以严格流式约束达到甚至超过离线 SOTA。

LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens

LLaMo 用"按模态分参数的 Mixture-of-Transformers + 连续因果运动 token + 流匹配解码头 + 退出头"把预训练 LLM 扩成既能"看懂动作(motion-to-text)"又能"生成动作(text-to-motion)"的统一大模型,关键是冻结文本模块从而不损伤 LLM 原有语言能力,并支持实时(≥30 FPS)流式、任意长度的运动生成。

M4Human: A Large-Scale Multimodal mmWave Radar Benchmark for Human Mesh Reconstruction

M4Human 是迄今规模最大的毫米波雷达人体网格重建(HMR)多模态基准——66.1 万帧、50 个动作、20 个被试,同步提供 RGB/深度/原始雷达张量(RT)/雷达点云(RPC)四模态与基于光学动捕的高保真 3D 网格标注,并首次给出直接在 RT 上做 HMR 的轻量基线 RT-Mesh。

MAMMA: Markerless Accurate Multi-person Motion Acquisition

MAMMA 是一套无标记多人动作捕捉流水线:从多视角视频出发,用一个为每个标志点学独立 query 的 Transformer(MammaNet)预测 512 个接触感知、可见性感知的稠密 2D 表面标志点,再据此拟合 SMPL-X,在近距离双人交互场景下达到与商用 marker-based 系统(Vicon)仅差 0.862mm 的精度,却省掉了繁琐的贴标记和人工清洗。

MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

MatchED 提出一种轻量(约21K参数)plug-and-play 模块,通过在训练时对预测边缘和 GT 边缘进行基于空间距离+置信度的 one-to-one 二部匹配来生成 crisp(单像素宽)边缘图,可附加到任何边缘检测器端到端训练,首次在不依赖 NMS+thinning 后处理的情况下匹配或超越标准后处理方法。

MFEN: Multi-Frequency Expert Network for Visible-Infrared Person Re-ID

针对可见光-红外行人重识别中"光照差异跨多个频带、且最优频带随样本而变"的痛点,MFEN 用多个频带专家 + 门控的混合专家结构按样本自适应融合频域线索,再配合图像级的随机频率增强(RFA)和优化级的频域辅助损失(FAO),在三个 VI-ReID 数据集上刷新或逼近 SOTA。

MGDHand: Multi-Granularity Prior-to-Inertial Distillation Framework for Sequential 3D Hand Pose Estimation from Sparse IMUs

针对"从稀疏 IMU 直接回归稠密手部姿态因语义鸿沟而高度病态"的问题,MGDHand 先预训练一个 MANO-IMU 融合教师把先验编码成静态形状/动态姿态/时序运动三类,再用多粒度解耦蒸馏(SSD/DPD/TMD)把这三类先验在各自语义域分别迁移给只用 IMU 的学生,在 VIHand 上相比无蒸馏学生 MPJPE 降低 40.7%。

Miburi: Towards Expressive Interactive Gesture Synthesis

提出 Miburi,首个在线因果框架,通过直接利用语音-文本大模型 Moshi 的内部 token 流和二维因果 Transformer,实现实时同步的全身手势与面部表情生成。

MimicTalker: A Multimodal Interactive and Memory-Enhanced Framework for Real-Time Dyadic 3D Head Generation

MimicTalker 面向"双人实时对话"的 3D 头部动作生成:用逐帧因果处理 + 门控多尺度记忆(MICE)实现零延迟感知对方、用 LLM 抽取的意图/主题语义动态调制说话方特征(SDI)、再用"意图为键、风格为值"的外部记忆库(MSM)在长对话中保持动作风格一致,从而能在 25 秒短片段和 6 分钟长对话上都生成自然、连贯、风格一致的实时反应,比 DualTalk 等方法在多数指标上提升 10%–30%。

MMGait: Towards Multi-Modal Gait Recognition

MMGait 构建了目前最全面的多模态步态识别基准数据集(5 种传感器、12 种模态、725 人、334K 序列),并提出全模态步态识别新任务和统一基线模型 OmniGait。

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

首个全离线移动端扩散式虚拟试穿框架,基于TeacherNet-GarmentNet-TryonNet (TGT)架构,通过特征引导对抗蒸馏(FGA)将SD3.5 Large的能力迁移到415M参数的轻量学生网络,在VITON-HD和DressCode上以1024×768分辨率匹配甚至超越服务器端基线,端到端推理时间约80秒(小米17 Pro Max)。

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

MoBind 用层级对比学习把可穿戴 IMU 信号与视频提取的 2D 骨架运动对齐——先把 IMU 对到"骨架运动"而非原始像素以滤掉无关背景、再把全身分解成各身体部位与对应 IMU 配对、最后在 token/局部/全局三个层级做对比并配一个掩码 token 预测辅助任务——从而在跨模态检索、亚秒级时序同步、人物/部位定位、动作识别四个下游任务上全面超越强基线。

Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining

Mocap-2-to-3 把"从单目 2D 姿态恢复 3D 动作"重新表述成多视角合成问题:先用海量 2D 数据预训练一个单视角运动扩散模型、再在少量 3D 数据上做多视角微调,配合解耦的局部姿态/全局位移表征与地面点图约束,从单目输入恢复出带米制绝对位置的全身动作,在 RICH/AIST++ 上同时打败了相机空间与世界坐标的 SOTA。

MOFA-VTON: More Fashion Possibilities with Fine-Grained Adaptations in Virtual Try-On

MOFA-VTON 让用户用一条手绘曲线草图控制虚拟试穿中"上下装如何搭配"(塞进 / 露出 / 各种下摆造型),通过把草图转成"双区域掩码"提供布局引导、再用"布局调整块"在特征层把上下身特征摆到正确空间位置,在 VITON-HD / DressCode 上既刷到 SOTA 画质又解锁了传统方法做不到的多样穿搭。

MoLingo: Motion-Language Alignment for Text-to-Human Motion Generation

MoLingo 通过语义对齐的运动自编码器(SAE)和多 token 交叉注意力文本条件注入,在连续潜空间上执行 masked 自回归 rectified flow,在文本到人体动作生成任务上取得了 FID、R-Precision 和用户研究的全面 SOTA。

MotionHiFlow: Text-to-Motion via Hierarchical Flow Matching

MotionHiFlow 把文本到 3D 人体动作的生成拆成"由粗到细、从低时间尺度到高时间尺度"的多阶段流匹配过程,用一个保持噪声一致性的跨尺度过渡把各尺度的流串起来,再配合双流的 Text-Motion Diffusion Transformer(TMDiT)和关节感知的 Joint RoPE,在 HumanML3D / KIT-ML 上取得 SOTA(FID 0.032 / 0.135)。

MotionMaster: Generalizable Text-Driven Motion Generation and Editing

MotionMaster 把人体动作当成一种新模态塞进预训练多模态大模型(Qwen2.5-VL)的共享词表里,配上一个 10,000 小时的标注动作数据集(MotionGB)和一个兼顾局部关节精度与全局轨迹一致性的 FSQ 离散化器,用一个端到端自回归模型同时做文本驱动的动作生成和动作编辑,在多动作语义一致性上比之前方法高 41.6%、身体部位组合上高 20.8%。

MS^2Gait: A Multi-Scale Spatio-Temporal Fusion Network for LiDAR-based Gait Recognition

MS²Gait 直接在原始 LiDAR 点云上做步态识别,用「四种互补交互策略」让空间上相隔很远但语义相关的身体部位(如对侧手臂—腿)相互通信,再用「相似度驱动的时序增强 Transformer」按运动一致性自适应加权帧,在 SUSTech1K 和 FreeGait 上分别拿到 93.5% / 83.1% 的 Rank-1,刷新原始点云步态识别 SOTA。

Multi-level Causal LLM-based Text-to-Motion Generation with Human Alignment (MoTiGA)

MoTiGA 把 LLM 文本生成动作的三大短板——细粒度量化误差、"因果 LLM vs 非因果 VQ-VAE"的表征错配、缺人类偏好对齐——分别用因果残差量化(Causal RVQ-VAE)、时间错位因果预测、以及多层混合加权偏好优化(MHPO)逐一解决,在 HumanML3D 上把 FID 相对其它 LLM 方法降 82.3%、KIT-ML 降 64.7%。

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

MV-Fashion 用一套由 60 台树莓派 RGB 相机 + 8 台 RGB-D 相机组成的"经济型"多视角同步采集装置,录下 80 位被试穿着 474 套(754 件)衣服的 3,273 段同步视频(共 72.5M 帧),并为每件衣服配上平铺商品图(catalogue)↔ 上身穿着图的配对、像素级分割、SMPL-X、点云、尺码表、面料弹性、穿搭风格等多模态标注,从而第一次把虚拟试穿、尺码估计、新视角合成所需的数据放进同一个数据集里,并给出三类任务的基线。

Next-Scale Autoregressive Models for Text-to-Motion Generation

MoScale 提出了一种 next-scale 自回归动作生成框架,替代传统 next-token 预测,通过从粗到细的层次化因果生成来捕获全局语义结构,并引入跨尺度层次精化和尺度内时间精化,在 HumanML3D 和 KIT-ML 上达到 SOTA(Top-1 0.540,FID 0.046)。

Occluded Human Body Capture with Frequency Domain Denoising Prior

把单目遮挡视频下的 3D 人体运动捕捉重新建模成「小波系数选择」问题:先用高斯分布刻画遮挡关键点的不确定性,再用频域扩散先验在离散小波域里挑出可信系数,从而在长时遮挡下恢复出连贯且保留周期性的人体运动。

OMG-Bench: A New Challenging Benchmark for Skeleton-based Online Micro Hand Gesture Recognition

本文构建了首个大规模公开的基于骨骼数据的在线微手势识别基准OMG-Bench(40类、13948个实例),并提出HMATr框架,通过层次化记忆库和位置感知查询实现检测-分类的端到端统一,在检测率上超越SOTA方法7.6%。

Omni-Supervised Motion Editing: Balancing Change and Invariance through Positive-Negative Learning

OmniME 针对文本驱动的人体运动编辑,把监督拆成"正监督"(回溯式中间层特征监督 + 基于相似度的运动保持)和"负监督"(三元组语义对齐)两条互补支路,在一个扩散框架里同时约束"该改的地方改、不该动的地方不动",在 MotionFix 和 STANCE Adjustment 上把平均检索排名(AvgR)分别从 20.88 降到 13.06、29.05 降到 22.77。

Open the Motion Door: Atomic Motion Decomposition and Recomposition for Open-Vocabulary Motion Generation

针对文本到动作(T2M)模型在训练集外文本上泛化差的问题,本文提出"原子动作分解-重组"框架:先把任意原始文本拆成各身体部位、各时间段的低层"原子动作"描述,再学习把这些原子动作重新组合成完整动作,仅用 HumanML3D 训练就能在两个域外数据集(IDEA400、Mixamo)上大幅超越 SOTA。

OpenDance: Multimodal Controllable 3D Dance Generation with Large-scale Internet Data

OpenDance 一边从网络视频造了个 100 小时、14 个舞种、带音乐/文本/2D关键点/轨迹多模态标注的大规模 3D 舞蹈数据集 OpenDanceSet,一边用"解耦分词 + 多模态掩码联合预测 + 推理期重掩码细化"的统一框架 OpenDanceNet,实现以"音乐 + 任意条件组合"驱动、高保真又可精细控制的 3D 舞蹈生成。

OpenFS: Multi-Hand-Capable Fingerspelling Recognition with Implicit Signing-Hand Detection and Frame-Wise Letter-Conditioned Synthesis

提出 OpenFS 框架,通过双层位置编码 + 签名手聚焦损失 + 单调对齐损失实现隐式签名手检测的多手指拼识别,并设计帧级字母条件扩散生成器合成 OOV 数据,在 ChicagoFSWild/ChicagoFSWildPlus/FSNeo 三个基准上取得 SOTA,推理速度比 PoseNet 快 100 倍以上。

OpenT2M: No-frill Motion Generation with Open-source, Large-scale, High-quality Data

作者发现现有文本到动作(T2M)基准存在训练/验证集泄漏、模型只是过拟合而非真泛化,于是构建了百万级、物理可行、秒级标注、含长时序的开源动作数据集 OpenT2M,并配套一个"无花哨设计"的自回归生成模型 MonoFrill——其核心是把动作当成"时间×身体部位"的 2D 图像、用 2D 卷积+残差量化的 tokenizer 2D-PRQ,最终在去除泄漏的 OOD 基准上把零样本 R@1 从约 0.07 拉到 0.24。

OSMO: Open-vocabulary Self-eMOtion Tracking

本文提出"第一人称自我情绪追踪"新任务——从智能眼镜的多模态流(语音、视觉环境、对话文本、眼动)推断佩戴者随时间演变的情绪,并配套发布 OSMO 数据集(110 小时、首个带逐主体情绪时间线的最大第一人称情绪数据集)、OSMO 基准(5 个任务)和 OSIRIS 模型(首个联合视频/音频/对话/眼动红外、用情绪历史做时序推理的情绪 LMM),在各项指标上大幅刷新 SOTA。

PAMotion: Physics-Aware Motion Generation for Full-Body Interaction with Multiple Objects

PAMotion 用「物体加速度暴露接触状态」这一物理直觉,设计了一个软性的物理感知交互损失,再配合粗到细的两阶段条件扩散,让文本驱动的全身多物体交互动作既贴合语义又不再出现手穿模、物体悬空,在 HIMO 和 ParaHome 上刷新 SOTA。

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

提出 ParTY 框架,通过部位引导网络(Part-Guided Network)和部位感知文本对齐(Part-aware Text Grounding),在保持全身动作连贯性的同时大幅提升身体各部位的文本-动作语义对齐精度,解决了现有整体式方法与部位拆分方法之间"部位表达力 vs 全身连贯性"的根本矛盾。

PC-Talk: Precise Facial Animation Control for Audio-Driven Talking Face Generation

PC-Talk 在隐式关键点(implicit keypoint)这一中间表示上做「可加性形变」,用 LAC 模块控制带说话风格的唇音对齐、用 EMC 模块通过「减去中性表情」解耦出纯情绪形变,从而对说话风格、唇动幅度、情绪强度乃至分区域复合情绪做精细可控的实时(30 FPS)说话人脸生成,并在 HDTF / MEAD 上取得 SOTA。

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

从Navier-Stokes方程出发,通过严格数学推导揭示rPPG脉搏信号遵循二阶阻尼谐振子模型,其离散解形式等价于因果卷积算子,从而为TCN架构的选择提供了第一性原理依据,设计出仅0.29M参数的PHASE-Net在多个数据集上达到SOTA。

PolySLGen: Online Multimodal Speaking-Listening Reaction Generation in Polyadic Interaction

PolySLGen 把多人群体的过去语音和动作喂进一个 LoRA 微调的 LLM,在线生成目标参与者未来的语音、身体动作和"说话状态分数",靠姿态融合模块与社交线索编码器统一建模多人非语言信号,从而既能说也能听,在动作质量、语音-动作对齐、说话状态预测上都显著超过把双人方法硬扩到多人的基线。

Pose-guided Enriched Feature Learning for Federated-by-camera Person Re-identification

本文针对"每个客户端=单台摄像头、只能看到很少姿态"的 federated-by-camera 行人重识别场景,提出姿态提取模块 PEM 把特征解耦成"姿态相关/姿态无关"两部分,再跨身份交换姿态分量合成"换姿态"的硬正样本,用姿态关系知识蒸馏、语义一致性维护、兼容性正则三招保证解耦质量与全局兼容性,从而补足对比学习缺失的姿态多样性,在 Market1501 / MSMT17 上刷到联邦 ReID 的 SOTA。

Pressure2Motion: Hierarchical Human Motion Reconstruction from Ground Pressure with Text Guidance

用一张地面压力垫的压力序列 + 一句文本描述,无需相机和可穿戴设备就重建出全身 3D 人体运动;通过"压力双层特征 + 分层压力调制扩散"把稀疏含噪的压力信号注入预训练运动扩散模型,在自建的 MPL 基准上达到这一全新任务的 SOTA。

PRISM: Learning a Shared Primitive Space for Transferable Skeleton Action Representation

PRISM 把骨架动作表示成「一组可复用原子运动基元的加权组合」(基元系数空间),先用多视角合成数据通过生成目标学出这个物理可解释、视角无关的结构化表征,再以轻量任务头把同一表征顺序迁移到分类与逐帧检测,在长尾、多标签、多视角的真实数据集上一致超过专用模型。

Progressive Guessing to Fixed Point: Rethinking Human Motion Prediction with Deep Equilibrium Models

MotionDEQ 把人体运动预测里「多阶段渐进猜测」的级联框架重写成一个隐式层内的不动点求解问题——等价于无限多次精化但只需 \(O(1)\) 训练显存,再把欧氏几何等变性注入这个均衡过程,并利用相邻预测的时间连贯性把上一轮不动点当「暖启动」复用,在 Human3.6M 上用不到 300K 参数取得 [email protected] 的 SOTA 精度、训练显存比多阶段对手省 2 倍多。

Prompt-Anchored Vision–Text Distillation for Lifelong Person Re-identification

PAD 把 CLIP 冻结文本编码器当成跨域不变的"语义锚",用一套非对称的视觉-文本蒸馏——文本侧弱蒸馏保语义稳定、视觉侧强 EMA 蒸馏保持塑性——在无样本回放的终身行人重识别上同时压住灾难遗忘和语义漂移,在已见域平均 mAP 70.7、未见域 78.6,全面超过此前 SOTA。

Push-and-Step: From RL-Based Balance Recovery to Physical Simulation of Dense Crowds

用两阶段深度强化学习训练全身物理人形 agent:第一阶段靠动作模仿 + 物理平衡奖励学会被推后"迈步恢复平衡",第二阶段用 AdaptNet 微调并引入"手-肩接触"启发式,让 agent 在密集人群里通过推扶邻居来社交化地耗散冲击,从而首次用纯物理仿真复现真实密集人群中推力传播、跌倒和拥挤踩踏等现象。

RAM: Recover Any 3D Human Motion in-the-Wild

RAM 提出统一的多人 3D 运动恢复框架,集成运动感知语义跟踪器 SegFollow(基于 SAM2 + 自适应卡尔曼滤波)、记忆增强的时序人体网格恢复模块 T-HMR、轻量运动预测器和门控组合器,在 PoseTrack 和 3DPW 等基准上实现零样本跟踪稳定性和 3D 精度的 SOTA,且推理速度比之前方法快 2-3 倍。

Real-Time Multimodal Fingertip Contact Detection via Depth and Motion Fusion for Vision-Based Human-Computer Interaction

这篇论文不发明新网络,而是用一个专门采集的 53,300 对毫米级 RGB-深度数据集,把现成单目深度模型微调到近场指尖场景,再叠加"深度+运动"融合的速度门控状态机判定接触——只用一只普通 RGB 摄像头就把深度误差从 12.3 mm 砍到 3.84 mm(降 68%),接触检测 F1 达 94.4%,让用户在桌面上"盲打"达到 45.6 WPM、字符错误率 3.1%,逼近专用深度硬件与商用 VR 输入。

RefTon: Reference Person Shot Assist Virtual Try-on

本文提出 RefTon,一个基于 Flux-Kontext 的人对人虚拟试穿框架,通过引入额外参考图像(其他人穿着目标服装的照片)来提供更准确的服装细节信息,同时通过两阶段训练策略和缩放位置索引机制实现了无需辅助条件(如 DensePose、分割掩码)的端到端试穿,在 VITON-HD 和 DressCode 上达到 SOTA。

RegFormer: Transferable Relational Grounding for Efficient Weakly-Supervised HOI Detection

RegFormer 把弱监督 HOI 检测从「枚举所有人-物对、逐对裁切区域分类」改成「在 CLIP 空间特征图上把人和物的关系接地成查询、再用交互性分数门控非交互对」,只用图像级标注训练却能直接迁到实例级检测、单次主干前向、HICO-DET 上配 H-DETR 达到 38.14 mAP 反超全监督方法。

Region-Aware Instance Consistency Learning for Micro-Expression Recognition

把一段微表情序列看成「onset 帧 + 多个中段帧」组成的多实例集合,用孪生网络强制不同实例的注意力热图对齐(IRC)、再用可学习面部 query 挖出被忽略的微弱激活区(MRD),从而彻底甩掉昂贵的 apex 帧标注,在四个公开数据集上全面超过 SOTA。

ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data

提出 ReMoGen,一个模块化框架用于实时人体交互-到-反应的动作生成:利用大规模单人运动数据学习通用运动先验(冻结),通过独立训练的 Meta-Interaction 模块适配不同交互域(人-人/人-场景),并引入 Frame-wise Segment Refinement 实现逐帧低延迟在线更新(0.047s/帧),在 Inter-X 和 LINGO 数据集上全面超越 SOTA。

Render-to-Adapt: Unsupervised Personal Adaptation for Gaze Estimation

本文指出主流"无监督域适配(UDA)"的群体级假设与"系统每次只服务单个新用户"的真实场景脱节,提出无监督个性化适配(UPA)新范式,并用一个固定参数的可微渲染器构造 Render-Cycle 一致性自监督信号——把模型预测的视线渲染成新图、再让模型读回虹膜位置,用前后虹膜是否一致来反传校正视线偏差,在跨数据集的逐人适配上对每一个用户都稳定提升,整体显著超过现有 SOTA。

RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework

本文首次提出 RGB-Event 多模态行人属性识别任务,构建了首个 10 万对 RGB-事件帧、含 6 类情绪属性的大规模数据集 EventPAR,并设计一个非对称 RWKV 融合框架(双路 RWKV 编码 + OTN-RWKV 事件 token 过滤与双向交叉融合),在三个数据集上取得 SOTA。

RoMo: A Large-Scale, Richly Organized Dataset and Semantic Taxonomy for Human Motion Generation

针对 3D 人体动作生成长期受困于"小而干净的动捕集"与"大而嘈杂的野外集"二选一的窘境,RoMo 用一套分类体系感知的自适应过滤管线从 12.5 万小时网络视频里只蒸馏出约 1% 的高质量动作,构建出 82 万段、约 1238 小时、每段 5 条富文本描述并按"类别→子类别→原子动作"三级分类体系组织的大规模数据集,并配套 Motion Toolbox 统一评测,使训练模型在保真度、多样性和细粒度文本理解上达到 SOTA。

rPPG-VQA: A Video Quality Assessment Framework for Unsupervised rPPG Training

rPPG-VQA 提出首个面向远程心率检测(rPPG)的视频质量评估框架,结合信号级多方法共识 SNR 和场景级 MLLM 干扰识别,配合两阶段自适应采样策略筛选野外视频构建训练集。

SAM 3D Body: Robust Full-Body Human Mesh Recovery

SAM 3D Body(3DB)是一个 SAM 风格的可提示单图全身人体网格恢复模型:它用共享编码器 + 身体/手部双解码器架构,基于解耦骨骼与体型的 MHR 表示,配上一个能挖掘困难样本、产出 700 万张高质量标注的数据引擎,在野外图像上把身体和手部姿态同时做到 SOTA。

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

SceMoS 用两种轻量级 2D 场景线索取代昂贵的 3D 体素/点云监督——鸟瞰图 DINOv2 特征做全局语义规划、局部 2D 高度图把表面物理直接焊进运动 token 词表,从而在 TRUMANS 上达到 SOTA 的运动真实度与接触精度,同时把场景编码的可训练参数砍掉一个数量级(约 4M vs 约 50M)。

See Through the Noise: Improving Domain Generalization in Gaze Estimation

SeeTN 首次把"视线估计跨域泛化差"归因到源域标签噪声,通过原型构造的语义流形对齐特征与连续标签的亲和关系来识别噪声样本,再对干净/噪声样本分别施加正则把干净监督迁移给噪声样本,在四个跨域设置上把角度误差降低 12–18% 且不牺牲源域精度。

Seeing without Pixels: Perception from Camera Trajectories

本文首次系统性地将相机位姿轨迹(6DoF pose sequence)提升为一种独立的视频感知模态,通过对比学习框架训练轻量级 Transformer 编码器 CamFormer,将相机轨迹映射到与文本对齐的联合嵌入空间,在 5 个数据集的 10 个下游任务上证明相机轨迹是既轻量又鲁棒的视频内容信号——在物理活动上甚至可以超越计算量大数千倍的视频模型。

SignPR: A Progressive Vector-Quantized Diffusion Framework for Sign Language Production

SignPR 针对无 gloss 的 Text2Pose 手语生成任务,提出一个「结构 + 时序」双重渐进的向量量化扩散框架:用结构化 VQVAE 把每帧位姿拆成语义级(整体)和区域级(手/脸/身)两层离散 token,扩散先生成语义一致的粗位姿再细化区域细节,并在推理时用块级因果渐进细化保证时序连贯,在 Phoenix14T / CSL-Daily / USTC-CSL 上全面超过此前 T2P 方法。

Sketch2Colab: Sketch-Conditioned Multi-Human Animation via Controllable Flow Distillation

提出 Sketch2Colab,通过将草图驱动的扩散先验蒸馏为整流流学生网络,结合能量引导和连续时间马尔可夫链(CTMC)离散事件规划,从故事板草图生成协调的多人-物体交互 3D 动作,在 CORE4D 和 InterHuman 上实现 SOTA 约束遵从度和感知质量。

Spatial-Frequency Collaborative Learning for Occluded Visible-Infrared Person Re-Identification

针对带遮挡的可见光-红外行人重识别(Occluded VI-ReID),本文提出 SFCL 框架:用 FFT 把特征拆成幅度(编码模态外观)和相位(保留身份结构),在频域用最优传输对齐两模态、再把频域结构线索注回空间特征,并配一个频域对比 + 语义一致的 FAD 损失,在自建的两个遮挡数据集上超过此前 SOTA(Occ-SYSU-MM01 全搜索 Rank-1 65.97%,+4.31%)。

SSM-Aware Token-Efficient VMamba via Adaptive Patch Pruning and Merging for Person Re-Identification

TE-VMamba 让 VMamba 的 SS2D 状态更新强度(步长 \(\Delta\))和 token 相似度自己说话,在浅层按 \(\Delta\) 剪掉对状态几乎没贡献的冗余 token、在深层把语义相似的 token 合并,在 Market-1501 上把 FLOPs 砍掉 60% 以上而 Rank-1 不降反升。

Stake the Points: Structure-Faithful Instance Unlearning

提出 Structguard,通过语义锚点(semantic anchors)保持遗忘过程中保留实例间的语义关系结构,避免结构性崩塌,在图像分类/人脸识别/检索三任务上平均提升 32.9%/19.3%/22.5%。

Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation

Superman 把"从视频感知 3D 姿态"和"基于骨架生成运动"统一成一个条件序列生成问题:先用一个视觉引导的运动 tokenizer(VQ-VAE + 视觉/几何双流 + 混合码本)把连续运动量化成跨模态离散 token,再让单个 MLLM(Qwen2.5-VL-7B)自回归地预测这些 token,从而用一套模型同时做 3D 姿态估计、运动预测、运动插值,在 Human3.6M 上相比专用 SOTA 提升约 11~12%。

SyncDreamer: Controllable and Expressive Avatar Generation Beyond the Talking Head

SyncDreamer 用一个 Diffusion Transformer 框架,只靠单张参考图 + 语音 + 文本提示就能生成既保身份、又有情感表现力、还能用文字精细控制手势/视线的说话人视频;它通过视觉适配器(配注意力定位损失)锁住身份、用音频动态编码器把语音节奏/能量转成表情驱动、再用 GRPO 训练的跨模态提示增强器把短文本变成真正能控运动的指令,在人像和全身两类基准上都刷到 SOTA。

SyncMos: Scalable Motion Synchronisation for Multi-Agent Scene Interaction

SyncMos 用一个 LLM 事件规划器把自然语言指令拆成带时序依赖的事件图,再在不重训单人扩散运动模型的前提下,靠 time-warping + 扩散后验采样(DPS)做后处理,让任意数量 agent 的动作(如递接物品)在时间上对齐,实现可扩展的多人 3D 场景交互生成。

Talking Together: Synthesizing Co-Located 3D Conversations from Audio

首次提出从单一混合音频流生成两个共处同一3D空间的对话参与者完整面部动画的方法,通过双流扩散架构(共享 U-Net + 跨注意力)、两阶段混合数据训练策略、LLM 驱动的文本-空间布局控制以及辅助眼神损失,实现自然的互视、转头和空间感知的双人对话3D动画合成。

Text-guided Feature Disentanglement for Cross-modal Gait Recognition

用 LLM 生成「模态+视角」感知的步态文本字典,借 CLIP 把文本当语义锚点引导视觉特征解耦,从而把 LiDAR 与相机两种模态的步态特征拆成「模态专属 + 模态共享」两部分、仅用共享特征做检索,在 SUSTech1K、FreeGait 两个跨模态步态基准上刷到新 SOTA(FreeGait 上 3D→2D Rank-1 从 43.3 涨到 57.9)。

4DSurf: High-Fidelity Dynamic Scene Surface Reconstruction

本文提出 4DSurf,一个基于2D高斯泼溅的通用动态场景表面重建框架,通过引入高斯运动诱导的SDF流正则化来约束表面时序一致演化,并采用重叠分段策略处理大变形,在 Hi4D 和 CMU Panoptic 数据集上分别以 49% 和 19% 的 Chamfer 距离改进超越现有 SOTA。

Through the Frequency Lens: Cross-Domain Generalisable Gaze Estimation with Adaptive Modulation

本文从频域视角剖析视线估计的跨域退化,发现人脸图像里既有助泛化的「视线相关频段」也有害泛化的「干扰频段」、且二者分布随数据集漂移,据此提出 FGAL 框架——用一个轻量注意力网络给每张图生成可学习的频域调制图来自适应抑制干扰频段(AISM),再用同源直方图匹配扩充训练时见过的频谱分布(SDM),在四个跨域设置上比 baseline 最高降误差 28.2%、比 SOTA 最高降 19.5%。

Towards Cross-Modal Preservation, Consistency and Alignment for Privacy-Preserving Visible-Infrared Person Re-Identification

本文提出全新任务 PP-VI-ReID(隐私保护的可见光-红外行人重识别),用一个 PPA 框架同时解决"匿名化破坏身份信息"和"匿名化扭曲在两模态间不一致"两大难题——KPR 模块借人体姿态先验做结构感知的精准匿名,DCMA 模块把匿名化扰动当作可学习的稳定偏移来对齐跨模态特征,在 SYSU-MM01 / RegDB 上大幅超越改造版 SecureReID,确立强基线。

Towards Decompositional Human Motion Generation with Energy-Based Diffusion Models

DeMoGen 把"文本生成人体动作"反过来做——用能量扩散模型在没有分解级真值的情况下,把一段整体动作拆成若干语义可解释的动作概念(如"走 Z 字形"+"挥左手"),再让这些概念自由重组生成训练集里没见过的新动作,同时在 HumanML3D 与 MTT 的文本到动作、组合、多概念三类任务上都拿到提升。

Towards Highly-Constrained Human Motion Generation with Retrieval-Guided Diffusion Noise Optimization

针对"穿过 0.4 米窄缝""走 4 米恰好 6 步"这类极难时空/数值约束的动作生成任务,本文在免训练的扩散噪声优化(DNO)框架上加了一条检索通道——先用关系式任务解析挑出最难的约束,再从动作数据集里检索能满足它的参考动作并反演成参考噪声,最后用奖励引导的掩码把随机噪声和检索噪声拼起来当作更好的初始化,使约束误差相比原生 DNO 大幅下降。

Towards Storytelling Animations: Joint Synthesis of Human and Camera Motions

本文提出首个把"两个交互角色的 3D 运动"和"摄像机运动"放进同一个扩散模型里联合生成的框架,用三路并行 backbone + 三个成对交互模块显式建模角色—角色、角色—摄像机之间的相互影响,并自建一个真实电影片段 + 合成数据混合的 7,228 段角色—摄像机数据集,在角色运动、摄像机运动、两者协调三个维度上都超过各自的专用方法。

Translating Signals to Languages for sEMG-Based Activity Recognition

本文提出 LLM-sEMG,先用一个 sEMG 专用 VQ-VAE 把连续肌电信号离散成 token,再通过「Lewis 信号博弈 + 人类语言归纳偏置」让这些 token 演化成一种类自然语言的「sEMG 语言」,最后只用 LoRA 微调、冻结预训练权重的 LLM 直接读这门语言来识别动作,在 GRABMyo 和 NinaPro DB2 上把准确率分别推到 95.14% 和 93.17%,超过最强基线 STET 约 4 个点。

TriLite: Efficient WSOL with Universal Visual Features and Tri-Region Disentanglement

仅使用冻结 DINOv2 ViT + 不到 800K 可训练参数的 TriHead 模块,通过将 patch 特征解耦为前景/背景/模糊三区域并引入对抗性背景损失,在 WSOL 上以极少参数刷新 SOTA。

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos

提出UniDex机器人基础套件——包含跨8种灵巧手的大规模数据集(50K+轨迹/9M帧)、功能-执行器对齐的统一动作空间(FAAS)和3D VLA策略(UniDex-VLA),在真实世界工具使用任务上达到81%平均任务进度(vs π₀的38%),并展示了空间、物体和零样本跨手泛化能力。

Unified Number-Free Text-to-Motion Generation Via Flow Matching

UMF 用一个统一的多 token 隐空间把单人和多人动作数据集打通,再用「金字塔运动流(P-Flow)单次生成动作先验 + 半噪声运动流(S-Flow)多次自回归生成反应」的 1+N 范式,在文本驱动的「任意人数」多人动作生成上做到 SOTA(InterHuman FID 4.772),同时推理比 FreeMotion 快约 5 倍。

Unifying Precise Keyframes and Semantic Control via Multi-level Diffusion

针对"文本只能给高层语义、关键帧能给精确时空约束但二者难以协调"的痛点,本文提出一个多层级扩散框架:局部引导用单个关键帧细化其周围的局部过渡,全局引导把文本与整段关键帧序列的隐式时序线索融成统一表示来调控整体动态;推理时再用一套保速度比例的轨迹精修 + 扩散插补的姿态精修,把关键帧硬约束从"软逼近"变成"零误差严格满足",并顺带支持免训练的语义保持动作编辑,在 HumanML3D 上把 Keyframe Error 压到 0 cm。

UniLS: End-to-End Audio-Driven Avatars for Unified Listening and Speaking

提出首个端到端统一说话-倾听面部表情生成框架UniLS,通过两阶段训练范式(先学内在运动先验、再用双轨音频微调),仅需双方音频输入即可同时生成自然的说话和倾听面部动作,倾听指标提升高达44.1%。

Unleashing Vision-Language Semantics for Deepfake Video Detection

提出VLAForge,通过ForgePerceiver独立学习多样的伪造线索和伪造定位图,并结合身份感知的视觉-语言对齐(VLA)评分机制,释放VLM跨模态语义的潜力来增强深度伪造视频检测的判别能力,在9个数据集上全面超越现有SOTA。

Unlocking Motion from Large Vision Models with a Semantic and Kinematic Duality for Gait Recognition

GaitMax 在冻结的 DINOv3 大视觉模型上同时挂一条「语义分支」(捕捉全局、序不变的整体轮廓)和一条「运动学分支」(用可学习 query 跟踪各身体部位的时空轨迹),再用一个把步态嵌入与服饰/视角等干扰因素文本描述做二阶统计去相关的损失 CDLoss 抑制捷径,配套自建带自然语言标注的 GCaption 数据集,在多个跨域步态基准上刷新 SOTA。

ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body

提出 ViBES,一个统一语言、语音和身体动作的 3D 对话代理,通过模态专家混合(MoME)架构和跨模态注意力机制,在保留预训练语音 LLM 对话能力的同时生成时间对齐的面部表情和全身动作,超越了将行为视为简单"模态翻译"的范式。

View-Aware Semantic Alignment for Aerial-Ground Person Re-Identification

针对无人机与地面相机间剧烈视角差异的空地行人重识别(AGPReID),本文提出 ViSA:不再追求"视角不变"地强行对齐共享部件,而是用一组视角感知专家(ETGM)生成自适应语义查询、再用双分支图推理(DLFM)把每个查询锚到它响应的局部区域,从而同时保留视角不变与视角特有的身份线索,在 CARGO 跨视角协议上把 mAP 拉高 10.06%。

Vision-Language Attribute Disentanglement and Reinforcement for Lifelong Person Re-Identification

VLADR 提出利用视觉-语言模型(VLM)中的细粒度属性知识来增强终身行人重识别,通过多粒度文本属性解耦(MTAD)和跨域跨模态属性强化(ICAR)两阶段训练,显式建模跨域共享的人体属性以实现高效知识转移和遗忘缓解,在抗遗忘和泛化能力上分别超越 SOTA 1.9%-2.2% 和 2.1%-2.5%。

VRCLIP: Multimodal Canonical Correlation Alignment for CLIP-Driven Vision-Radio Person Re-Identification

VRCLIP 把 RGB 图像和低频射频(RF)信号融合做行人重识别,核心是用典型相关分析(CCA)把"分布对齐"换成"相关性最大化",在保留各模态独有特征的前提下对齐共享语义,配合 CLIP 视觉编码器的光照解耦微调和 RF 锚定的自适应门控融合,在自建的 65 万对 VRR 数据集上拿到 93.9% mAP。

WildCap: Facial Albedo Capture in the Wild via Hybrid Inverse Rendering

提出 WildCap,通过混合逆渲染框架(数据驱动 SwitchLight 去光照 + 基于模型的 texel grid lighting 优化 + 扩散先验采样),从手机野外视频中重建高质量 4K 面部漫反射 albedo 贴图,大幅缩小野外捕捉与受控光照方法之间的质量差距。