跳转至

🧑 人体理解

🔬 ICLR2026 · 8 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (1) · 📷 CVPR2026 (61) · 🤖 AAAI2026 (16) · 🧠 NeurIPS2025 (19) · 📹 ICCV2025 (49) · 🧪 ICML2025 (2)

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behaviour Analysis

提出首个面向视频中矛盾/犹豫(A/H)识别的多模态数据集 BAH,包含来自加拿大9省224名参与者的1,118段视频共8.26小时,由行为科学专家标注,并提供了帧级和视频级的基线实验结果。

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

提出 Q Avatar 框架,通过跨域 Bellman 一致性量化源域模型可迁移性,利用自适应无超参权重函数混合源域和目标域 Q 函数,实现在状态-动作空间不同的跨域 RL 中的可靠知识迁移,无论源域模型质量或域相似性如何都能保证不产生负迁移。

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

提出 Snippet 范式:将步态轮廓序列组织为若干"片段"(snippet),每个 snippet 由一个连续区间内随机抽取的帧构成,兼顾短程时序上下文与长程时序依赖,在 Gait3D 上以 2D 卷积骨干达到 77.5% Rank-1,超越所有 3D 卷积方法。

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

提出TEMU-VTOFF——面向虚拟脱衣(VTOFF)任务的Dual-DiT架构,通过特征提取器+服装生成器分工协作,结合多模态混合注意力(MHA)融合图像/文本/掩码信息消解视觉歧义,并设计DINOv2驱动的服装对齐器保留高频细节,在VITON-HD和Dress Code多品类场景均达到SOTA。

NeuroGaze-Distill: Brain-informed Distillation and Depression-Inspired Geometric Priors for Robust Facial Emotion Recognition

提出 NeuroGaze-Distill 跨模态蒸馏框架:从 EEG 脑电训练的教师模型中提取静态 Valence-Arousal 原型,通过 Proto-KD 和抑郁症启发的几何先验(D-Geo)注入纯视觉学生模型,无需 EEG-人脸配对数据,提升表情识别的跨数据集鲁棒性。

PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

构建了 PersonaX 多模态数据集(含 LLM 推断的 Big Five 行为特质、面部嵌入和传记元数据),并提出两层分析框架:结构化独立性检验 + 非结构化因果表示学习(带可识别性理论保证),揭示跨模态因果结构。

QuaMo: Quaternion Motions for Vision-based 3D Human Kinematics Capture

QuaMo 提出基于四元数微分方程(QDE)的 3D 人体运动学捕捉方法,通过在四元数单位球面约束下求解运动学方程,并引入二阶加速度增强的 meta-PD 控制器,实现了无不连续性、低抖动的在线实时人体运动估计,在 Human3.6M 等多个数据集上超越 SOTA。

Visual Autoregressive Modeling for Instruction-Guided Image Editing

VAREdit将指令引导图像编辑重构为next-scale预测问题,提出Scale-Aligned Reference (SAR)模块解决最细尺度条件与粗目标特征间的尺度不匹配,在EMU-Edit和PIE-Bench上GPT-Balance分数超越最强扩散基线64.9%和45.3%,512×512编辑仅需1.2秒。