OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization¶
会议: ICML 2026
arXiv: 2602.10635
代码: https://github.com/MIT-MI/human_behavior_atlas
领域: 人体理解 / 社会行为分析 / 多模态基础模型 / 推理式强化学习
关键词: 社会智能, 行为基础模型, 异构 RL, GRPO 改进, 优势重加权
一句话总结¶
针对社会行为数据天然异构(10 个任务跨情感/认知/病理/社交,模态横跨语音/视觉/文本)导致 GRPO 类推理 RL 学习信号被少数任务主导的问题,本文提出 HARPO,通过用优势幅值近似各 sample 与各 task 对策略更新的贡献,再以"几何均值参照 + 倒数比"得到结构化调制因子并加上惯性平滑,在 Qwen 2.5-Omni-7B 上训出 OmniSapiens-7B 2.0,多任务平均排名第 1,零样本 5 任务全胜,推理一致性从 66.5% 提到 87.7%,token 数压到 19.86。
研究背景与动机¶
领域现状:社会智能 AI 需要同时读懂情感、心理状态、社交信号并能迁移到新场景。现有做法要么是单任务专家(情感分类、抑郁检测各做一个模型),要么是近年的统一行为基础模型(HumanOmniV2、OmniSapiens 系列)用 SFT 或 GRPO 做多任务 RL。
现有痛点:作者观察到,行为数据天然异构——SEN(句子级情感)和 PTSD(病理状态长视频)的 reward 分布尺度差几个数量级,模态构成也完全不同(一个是文本,一个是 audio+video+text)。直接套用 GRPO 后,少数任务/样本由于优势幅值系统性偏大,会主导整个策略梯度,导致 SAR、SEN 等任务的 F1 直接从 70+ 掉到个位数(见表 1 中 RE++ 的 SAR=5.01,GRPO 的 HUM=27.56)。
核心矛盾:GRPO 在组内做了 reward 归一化,但跨组、跨任务之间没有任何尺度约束——式 (4) 把所有 rollout 的梯度直接相加,谁的优势绝对值大谁就主导更新。当任务之间天然异构时,这种聚合就退化为"赢者通吃"的多任务学习失败模式。
本文目标:在 critic-free 的推理 RL 框架内,引入一个显式的异构感知机制,让 sample-level 与 task-level 的更新影响都被自动均衡,但又不破坏 GRPO 的整体训练范式与全局步长。
切入角度:作者注意到一个简洁的事实——由式 (5),每条 rollout 对策略梯度的贡献正比于其优势绝对值 \(|\hat{A}|\)。因此优势幅值本身就是"该样本/任务对更新的实际贡献"的可计算代理,不需要额外训练 critic 或引入辅助网络,就能直接拿来做反向加权。
核心 idea:用"几何均值参照下的倒数比"作为调制因子去乘 GRPO 优势,把贡献大的 rollout 优势按比例压小、贡献小的按比例放大,并通过几何均值天生为 1 的性质保证全局步长不变。
方法详解¶
整体框架¶
OmniSapiens-7B 2.0 以 Qwen 2.5-Omni-7B 为多模态 backbone,输入为文本/图像/视频/音频的混合行为数据(Human Behavior Atlas 10 个任务,100k+ 样本,包括 SEN/EMO/SOC/INT/NVC/HUM/SAR/ANX/DEP/PTSD),输出是"推理链 + 预测标签/答案"格式的自回归序列。
训练采用 HARPO(HARPO = Heterogeneity-Aware Relative Policy Optimization),整体结构沿用 GRPO 的 PPO clipped surrogate + KL 正则,但把组归一化优势 \(\hat{A}_{(m,q,i)}\) 替换为调制后的 \(A^H_{(m,q,i)}\)。Reward 由三部分加权:任务奖励 \(r_{task}\)(分类用 binary,QA 用 cosine)、格式奖励 \(r_{fmt}\)(权重 0.2)、长度惩罚 \(r_{len}\)(系数 0.75)。HARPO 的"调制器"独立于 actor,按训练步 \(t\) 在线估计贡献信号、更新调制因子,再乘到优势上。
关键设计¶
-
贡献信号的双层估计(sample-level + task-level):
- 功能:用一个免训练、免 critic 的代理量近似每个 sample 与每个 task 对策略梯度的实际贡献,作为后续调制的输入。
- 核心思路:由式 (4)-(5),rollout 的梯度贡献被 \(\hat{A}\) 直接缩放,因此把组归一化优势的绝对值当贡献信号即可。Sample-level 信号为某样本 rollout group \(G(m,q)\) 内的平均绝对优势 \(p^{(t)}_{(m,q)} = \frac{1}{|G(m,q)|}\sum_i |\hat{A}^{(t)}_{(m,q,i)}|\),task-level 信号为该 task 当前 batch 全部 rollout 的平均绝对优势 \(p^{(t)}_m\)。除以 rollout 数是为了保证对随机 batch 采样的不变性。
- 设计动机:异构问题的根本是"谁影响大谁主导",因此先要有一个能直接量化"影响"的标量;选优势幅值而不是 reward 或 loss,是因为它与策略梯度的耦合关系最直接、最便宜。
-
几何均值参照下的倒数比调制(structured modulation):
- 功能:把贡献信号转成尺度合理、不会破坏全局更新规模的调制因子,乘到原始优势上完成"强者压、弱者升"的再平衡。
- 核心思路:sample 层取 task 内所有样本贡献信号的几何均值 \(\bar{p}^{(t)}_{ref,m}\) 作参照,task 层取所有 task 贡献信号的几何均值 \(\bar{p}^{(t)}_{ref,M}\) 作参照;调制因子定义为参照与自身的比值 \(s^{(t)}_{(m,q)} = \bar{p}^{(t)}_{ref,m}/p^{(t)}_{(m,q)}\) 和 \(s^{(t)}_m = \bar{p}^{(t)}_{ref,M}/p^{(t)}_m\);最终调制优势 \(A^H_{(m,q,i)} = s^{(t)}_{(m,q)} \cdot s^{(t)}_m \cdot \hat{A}^{(t)}_{(m,q,i)}\)。贡献超过参照的因子 \(<1\)(压缩),低于参照的 \(>1\)(放大)。
- 设计动机:用几何均值而不是算术均值,是因为贡献信号在不同任务间常差几个数量级,几何平均能用乘性尺度温和处理这种 heavy-tail;更关键的是几何均值天然让所有调制因子的连乘等于 1,即 \(\prod_q s^{(t)}_{(m,q)} = 1\) 且 \(\prod_m s^{(t)}_m = 1\),于是"放大的"和"压缩的"乘性贡献严格互相抵消,整体更新步长不变,避免了误伤全局学习率。
-
惯性平滑(inertial smoothing)保证调制稳定:
- 功能:让调制机制以比策略参数慢的时间尺度演化,避免 on-policy 单步噪声把调制因子打乱、引发训练震荡。
- 核心思路:贡献信号用 EMA 平滑 \(\bar{p}^{(t)} = \beta_\rho \bar{p}^{(t-1)} + (1-\beta_\rho) p^{(t)}\);调制因子由于是乘性比率,用乘性 EMA 而非加法 EMA:\(s^{(t)} = (s^{(t-1)})^{\beta_s}(s)^{1-\beta_s}\)。这样调制只跟踪贡献信号的持续趋势,对单步随机扰动免疫。
- 设计动机:调制因子是策略更新的"权重的权重",如果它本身抖动剧烈,会把已经做了归一化的优势又重新引入高方差,反而恶化学习;乘性更新天然保持几何均值 = 1 的不变量,与设计 2 的"全局步长守恒"相容。
损失函数 / 训练策略¶
HARPO 目标函数与 GRPO 完全同构,只是把 clipped surrogate 里的 \(\hat{A}\) 换为 \(\tilde{A}^H_{(m,q,i):k}(\theta)\):
\(J_{HARPO}(\theta) = \mathbb{E}\big[\frac{1}{|G|}\sum_i \frac{1}{n_o}\sum_k \tilde{A}^H_{(m,q,i):k}(\theta)\big] - \beta \mathbb{E}[D_{KL}(\pi_\theta \| \pi_{ref})]\)
训练数据为 Human Behavior Atlas(Ong et al., 2026)覆盖 10 个行为任务的多模态 RL 数据集,base 模型 Qwen 2.5-Omni-7B,统一 reward 设计,所有对比 RL 算法都在同一数据/同一 base 上跑以保证公平。
实验关键数据¶
主实验:10 任务多任务表现(节选自 Tab. 1)¶
| 模型 / 算法 | EMO | HUM | SAR | INT | DEP | 平均排名 ↓ |
|---|---|---|---|---|---|---|
| Qwen 2.5-Omni-7B (base) | 58.25 | 54.30 | 65.60 | 25.40 | 71.35 | 6.20 |
| HumanOmniV2-7B | 59.70 | 63.80 | 39.50 | 26.30 | 65.40 | 5.80 |
| OmniSapiens BAM | 64.53 | 64.40 | 79.50 | 17.70 | 78.85 | 3.30 |
| OmniSapiens-7B RL (GRPO) | 57.28 | 63.90 | 64.70 | 48.60 | 77.15 | 4.20 |
| OmniSapiens-7B 2.0 (HARPO) | 76.55 | 69.85 | 70.64 | 50.52 | 78.87 | 1.90 |
模型层面:在 10 个任务里 8 个 top-2,平均排名 1.90,是所有对比的最佳。
| RL 算法 (同 base / 同数据) | HUM | SAR | SEN | INT | 平均排名 ↓ |
|---|---|---|---|---|---|
| GRPO | 27.56 | 53.58 | 77.51 | 49.90 | 3.90 |
| RE++ | 60.26 | 50.21 | 56.52 | 5.01 | 4.50 |
| RLOO | 67.86 | 62.58 | 76.86 | 51.73 | 2.80 |
| GPG | 69.28 | 45.96 | 75.77 | 54.21 | 2.90 |
| EMAGRPO | 63.50 | 77.75 | 68.28 | 52.62 | 3.10 |
| HARPO | 69.85 | 70.64 | 77.61 | 50.52 | 2.10 |
算法层面:GRPO 在 HUM 上崩盘到 27.56,RE++ 在 SAR/INT 上崩盘到 5.01;HARPO 是唯一在所有 10 任务上都未崩盘的,相对 GRPO 最大提升 +42.29%(论文摘要)。
零样本泛化(Tab. 2)与推理质量(Tab. 3)¶
| 模型 | AUT | SER | IDR | SMSA | SIR | 一致性 ↑ | 平均 token ↓ |
|---|---|---|---|---|---|---|---|
| Qwen 2.5-Omni-7B | 25.68 | 53.53 | 70.25 | 44.64 | 34.99 | 34.0 | 73.66 |
| HumanOmniV2 | 38.05 | 62.74 | 21.97 | 53.06 | 37.45 | 50.0 | 195.90 |
| OmniSapiens-7B RL | 30.46 | 55.77 | 69.29 | 55.03 | 66.53 | 55.1 | 57.69 |
| OmniSapiens 2.0 | 39.91 | 72.11 | 72.43 | 58.47 | 69.27 | 87.7 | 19.86 |
5 个 held-out 任务全胜,推理一致性从 66.5% 跳到 87.7%,平均 token 数压到 19.86(不到次优 OmniSapiens-7B RL 的 35%)。
关键发现¶
- HARPO 的胜负关键不在"平均更高",而在"任务底线更稳"——GRPO/RE++/GPG 都会在某些任务上崩到个位数 F1,HARPO 是唯一全 10 任务都保持竞争力的算法,验证了"异构感知调制"对多任务 RL 学习均衡性的核心作用。
- 多任务训练得更均衡,零样本迁移就更强:OmniSapiens 2.0 与 OmniSapiens RL 用同一份数据、同一 backbone,仅 RL 算法换了,5 个 held-out 任务全部提升,作者据此推测"更均匀的多任务学习能促进更可迁移的行为表征",这是个值得后续验证的因果链。
- 推理变得更短但更准:HARPO 让模型学到的推理链平均只有 19.86 token 却一致性最高(87.7%),人类评估在 specificity/coherence/concision 三个维度上 vs 4 个 baseline 平均胜率 68.5%/85.1%/99.2%,说明优势再平衡顺带抑制了"推理冗长但内容空泛"的退化模式。
亮点与洞察¶
- "用优势幅值自身当贡献信号"是个非常清爽的点子:不需要 critic、不需要梯度估计、不需要额外前向,从式 (4)-(5) 直接读出一个 zero-cost 的代理量,且与策略梯度的耦合在数学上严格对应。
- 几何均值参照 + 倒数比 + 乘性 EMA 这一套组合拳的妙处在于"全局步长守恒"——\(\prod s = 1\) 这个不变量让 HARPO 可以放心地局部重加权而不污染全局学习率,避开了多任务 reweighting 经典的"调权重就要重调 lr"的坑。
- 这套方法可以直接迁移到任何 GRPO 系 RL 训练——只要训练数据天然存在任务/域/难度上的异构(数学+代码+对话混训、多语言混训、多模态混训),HARPO 的调制层就能即插即用,且与 RLOO/REINFORCE++/GPG 等不冲突,未来很可能成为推理 RL 的标配模块之一。
局限与展望¶
- 作者承认 HARPO 与零样本泛化提升之间的因果链只是经验观察,缺少更严格的理论或受控分析("我们留给未来工作");目前只能说"更均衡 → 更迁移"是相关而非因果。
- 贡献信号用的是优势绝对值,对 reward 设计本身的依赖很强——如果 reward 高度噪声或某任务 reward 普遍非常小,几何均值参照可能数值不稳;论文用了 \(\epsilon\) 平滑但未系统讨论失败边界。
- 实验全部限定在 Qwen 2.5-Omni-7B 一个 backbone、Human Behavior Atlas 一个数据集,HARPO 在更大模型(70B+)、不同 RL 数据(数学/代码 reasoning)上的尺度行为尚未验证;尤其几何均值在任务数 \(|M|\) 很大时是否仍稳定值得测。
- 改进方向:可以把 HARPO 的双层调制扩展到"难度层"(按 reward 方差分桶)或"prompt 层",做更细粒度的异构感知;也可以把贡献信号从"幅值"升级为"梯度范数"或"Fisher 信息",与近期 RL 训练动力学研究结合。
相关工作与启发¶
- vs GRPO (Shao et al., 2024):GRPO 只做了组内 reward 归一化(式 1),但跨组、跨任务没有任何尺度对齐,HARPO 正是在 GRPO 之上加了一层异构感知的优势调制,且 PPO 目标函数完全不动,是最小侵入性扩展。
- vs EMAGRPO (Feng et al., 2025):EMAGRPO 也用 EMA 做多任务平衡,但作用在 reward 或 loss 层,HARPO 直接作用在优势层,且引入"几何均值参照 + 全局步长守恒"的结构化约束,避免了 EMA 类方法常见的步长漂移;表 1 算法对比里 HARPO 平均排名 2.10 优于 EMAGRPO 的 3.10。
- vs 经典多任务 RL(gradient balancing / uncertainty weighting):这类方法(Yu et al. 2020; Kendall et al. 2018)依赖梯度反向估计或额外可学习权重,HARPO 走的是"零额外参数、零额外前向"的轻量路线,更契合 critic-free 推理 RL 的简洁性。
- vs HumanOmniV2 / OmniSapiens RL:同样是社会行为基础模型,OmniSapiens 2.0 在 backbone 与数据不变的前提下只换 RL 算法就拿到 10 任务全面优势 + 零样本 5 任务全胜,说明在统一行为模型领域,RL 训练范式的瓶颈大于 backbone 与数据的瓶颈。
评分¶
- 新颖性: ⭐⭐⭐⭐ 用"优势幅值即贡献"+"几何均值倒数比"做异构 RL 调制是清晰的新组合,单个组件不算全新但组合形成了完整闭环
- 实验充分度: ⭐⭐⭐⭐⭐ 同 base/同数据/同 reward 严格对比 6 种 RL 算法,10 训练任务 + 5 held-out 任务 + 推理一致性 + 人类评估,覆盖很扎实
- 写作质量: ⭐⭐⭐⭐ 数学推导清晰,把"全局步长守恒"作为核心不变量讲透了;但 HARPO 各超参(\(\beta_s, \beta_\rho\))的敏感性分析在正文偏少
- 价值: ⭐⭐⭐⭐⭐ 既给出一个可直接复用的统一社会行为基础模型,又提出一个对所有 GRPO 系推理 RL 都即插即用的异构感知模块,应用面广