PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=aR43t8OEeW
代码: 待确认
领域: 多模态VLM
关键词: rPPG, 远程生理测量, 大语言模型, 跨模态对齐, 心率估计

一句话总结¶

PhysLLM 把一个冻结的 CNN（PhysNet）当 rPPG 底座，用「双域平稳化 + 多尺度视觉聚合 + 文本原型对齐」把信号和视觉特征翻译成 LLM 能读懂的 token，再配上由 LLaVA/统计量生成的生理线索 prompt，让大语言模型从人脸视频里估计心率，在四个数据集和跨域测试上都拿到 SOTA。

研究背景与动机¶

领域现状：远程光电容积脉搏波（rPPG）通过分析皮肤因血流引起的细微颜色变化，从普通摄像头视频里无接触地估计心率、血压等生理指标，比 ECG/PPG 这类贴片式接触测量更适合日常持续监护。当前主流是 CNN / Transformer 端到端模型，编码器抽特征后直接送进 estimator 回归波形。

现有痛点：这类纯视觉模型对运动模糊、遮挡、低分辨率、光照变化等视觉噪声非常敏感，且通常只吃单一视频流，长时序建模能力弱，真实场景里鲁棒性差。LLM 擅长长程依赖建模，看似是补长时序短板的好工具，但它本质是面向离散文本 token 设计的，直接拿来处理 rPPG 这种连续、对噪声敏感的信号，会出现「离散操作 vs 连续信号」的根本错配，表示质量差、噪声放大。

核心矛盾：LLM 的长程时序推理能力与 rPPG 信号的连续/含噪本质之间存在表征鸿沟——既要借 LLM 的语义先验和长时序能力，又不能把信号硬塞进文本空间导致失真。

本文目标：在不对 LLM 做重度微调的前提下，(1) 先把底座信号变「干净平稳」；(2) 把信号/视觉特征「翻译」进 LLM 语义空间；(3) 给 LLM 注入 rPPG 专属的上下文先验，让它能根据光照/运动等场景自适应。

切入角度：作者借鉴时序领域的 reprogramming 思路（如 Time-LLM 用可学习 prompt 把时序对齐到 token 空间），但发现 rPPG 还需要补上视觉上下文和生理统计先验，于是设计一个 CNN 与 LLM 协同优化的框架，而不是二选一。

核心 idea：用「文本原型」当语义锚点，把信号 token、视觉 token、文本线索 token 统一对齐到 LLM 可解释的空间，让冻结底座负责局部时空特征、LLM 负责长程时序推理，二者协同出鲁棒的心率估计。

方法详解¶

整体框架¶

PhysLLM 的输入是人脸视频，输出是预测的 rPPG 波形（再换算成心率）。整条管线分两大支：右侧的 Text-Vision-Sequence Embedding 生成负责把底座产出的信号和视觉特征翻译成 LLM token；左侧的 生理线索感知 Prompt 学习负责生成场景自适应的 prompt token。具体地，一个冻结的 PhysNet 底座先吐出原始 rPPG 波形和多尺度时空特征；波形经 DDS 双域平稳化去噪稳态化，多尺度特征经 Vision Aggregator 融合；两路再共享同一个 TPG 文本原型对齐模块映射到 LLM 语义空间，得到信号 token 与视觉 token。与此并行，生理线索 + APL 把任务描述、LLaVA 视觉描述、信号统计三类线索压缩融合成 cue token。最后信号/视觉/线索三类 token 一起喂给带 LoRA 的 LLM（默认 DeepSeek-1.5B），回归出最终波形，用 MSE 监督。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["人脸视频"] --> B["PhysNet 底座<br/>（冻结）"]
    B -->|原始 rPPG 波形| C["1. DDS 双域平稳化"]
    B -->|多尺度时空特征| D["2. Vision Aggregator"]
    C --> E["3. TPG 文本原型对齐<br/>（信号/视觉共享）"]
    D --> E
    A --> F["4. 生理线索 + APL<br/>Task / Vision / Stats"]
    E -->|信号token + 视觉token| G["LLM（DeepSeek + LoRA）"]
    F -->|线索token| G
    G --> H["预测 rPPG 波形 → 心率"]

关键设计¶

1. DDS 双域平稳化算法：把含噪信号先变「稳」再喂下游

底座吐出的原始波形 \(x\in\mathbb{R}^{B\times L}\) 噪声大、非平稳，直接当 token 会把噪声带进 LLM。DDS 在时域和频域两路同时做平稳化。时域先做标准化 \(x'=\frac{x-\mu}{\sigma+\epsilon}\)（\(\epsilon=10^{-5}\)），再用指数滑动平均做平滑 \(z^{time}_i=\alpha\cdot x'_i+(1-\alpha)\cdot z_{i-1}\)，作者在附录里证明了它的平稳性。频域用离散小波变换（DWT，\(J=3\) 层）把信号拆成近似系数和细节系数，对每个系数分别标准化+平滑后再用逆变换 IDWT 重建出频域平稳表示 \(z^{fre}\)。最后用一个可学习系数 \(\beta\in[0,1]\) 自适应加权两路：\(z=(1-\beta)\cdot z^{time}+\beta\cdot z^{fre}\)。这样既保留了时域的周期一致性，又借频域分解抑制了宽频噪声，比单纯时域滤波更能在保形的同时降噪。

2. Vision Aggregator 多尺度视觉聚合：用深层语义去补浅层细节

底座的多尺度特征 \(F=[f_1,\dots,f_M]\) 里，深层特征语义强、与文本空间对齐好，浅层特征细粒度信息丰富但语义弱。VA 先把各层投影到统一长度，然后以深层特征 \(F_M\) 作 query、把浅层拼接 \(X=\text{Concat}(F_1,\dots,F_{M-1})\) 作 key/value 做交叉注意力 \(F_{cross}=\text{CrossAttention}(F_M,X,X)\)，动态从浅层抽回丢失的细节；再用自注意力 \(F_{self}=\text{SelfAttention}(F_{cross})\) 捕捉内部依赖；最终用可学习标量 \(\gamma_1,\gamma_2\) 残差融合 \(F_{visual}=F_M+\gamma_2\cdot(F_{cross}+\gamma_1\cdot F_{self})\)。相比简单拼接或固定加权，这种「深层查询浅层」的层级注意力让融合表示既保持高层语义对齐、又补齐了细粒度血流线索。

3. Text Prototype Guidance（TPG）跨模态对齐：用少量文本原型当语义锚点

rPPG 信号和视觉特征既不可直接编辑，也很难用自然语言无损描述，连续高维的特性让它们难以转成 LLM 能读的符号表示。最朴素的做法是拿整个词嵌入表 \(E\in\mathbb{R}^{V\times D}\) 去 reprogram，但词表巨大、重编程空间稠密低效。TPG 改为通过线性探测维护一小撮文本原型 \(E'\in\mathbb{R}^{V'\times D}\)（\(V'\ll V\)）当锚点。给定输入特征 \(X\)，先自注意力 \(X_{self}=\text{SelfAttention}(X)\)，与原型相加 \(E'_{fusion}=E'+X_{self}\)，再让原型对 \(X\) 做交叉注意力把特征「翻译」过去，经残差和 FFN 得到对齐后的 token \(T_{out}=TPG(X)\)。关键是信号和视觉共享同一个 TPG 模块（\(X\) 同时承载信号特征和视觉特征两种含义），让两种模态在同一组文本原型上学习潜在关联，显著缩小了序列、视觉、文本三种模态之间的鸿沟。

4. 生理线索感知 Prompt 学习 + APL：给 LLM 注入 rPPG 专属上下文先验

光靠对齐还不够，LLM 缺少 rPPG 任务的领域常识。作者构造三类线索 token：Task Cue 把 rPPG 文献里关于域差异（肤色、种族、性别、年龄、光照）的共识描述用 LLM 原生 tokenizer 编码 \(C_{task}=\text{Tokenizer}(\mathcal{P})\)；Vision Cue 取视频中心帧用 LLaVA 按「面部解剖、瞬时表情、环境光照」三个方向生成描述再 tokenize；Stats Cue 从底座信号 \(x_{enc}\) 计算 min/max/median、趋势（一阶差分 \(\Gamma(x)=\sum_{i=2}^{T}(x_i-x_{i-1})\)）、符号、TopK 等统计量构成符号化先验 \(C_{stats}=\text{Tokenizer}(\mathcal{S})\)——这一步专门补上静态视觉描述抓不到的时序血流变化。三类线索不是固定加权拼接，而是经 Adaptive Prompt Learning（APL）：每类先过带温度的注意力压缩器 \(E_k=\text{AttentiveCompressor}_k(C_k)\)，再与可学习参数矩阵 \(W=[W_{task},W_{vision},W_{stats}]\) 逐元素相乘求和 \(T_{cue}=\sum_{k}W(k)\odot E_k\)，让模型根据不同样本自适应地决定哪类线索更关键，而不是用一刀切的固定比例。

损失函数 / 训练策略¶

底座 PhysNet 冻结，只训练 DDS、VA、TPG、APL 以及 LLM 的 LoRA 适配器。把 \(T_{cue}\)、\(T_{vision}=TPG(F_{visual})\)、\(T_{signal}=TPG(z)\) 一起送入 LLM 预测波形 \(\hat{y}\)，用纯 MSE 监督 \(\mathcal{L}_{MSE}=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\)，\(y\) 为真值 PPG 波形。默认 LLM 为 DeepSeek-1.5B。

实验关键数据¶

主实验¶

四个基准数据集（UBFC-rPPG / PURE / BUAA / MMPD）的同库测试，指标为 MAE↓、RMSE↓（bpm）、Pearson R↑：

数据集	指标	PhysLLM	次优 SOTA	说明
UBFC-rPPG	MAE/RMSE/R	0.21 / 0.57 / 0.99	RhythmFormer 0.50 / 0.78	平稳拟合，长时心率跟踪稳
PURE	MAE/RMSE/R	0.17 / 0.35 / 0.99	RhythmFormer 0.27 / 0.47	对头动干扰鲁棒
BUAA	MAE/RMSE/R	6.48 / 8.48 / 0.63	Green 6.89 / 10.39	强光照变化下明显领先
MMPD	MAE/RMSE/R	4.36 / 10.76 / 0.65	RhythmFormer 4.69 / 11.31	真实复杂场景最优

跨域泛化（双源训练→单目标测试，目标为最难的 MMPD）：在 \(P+U\to M\) 上 PhysLLM 把 MAE/RMSE 降到 9.95/14.96，相对次优再降 1.05/2.34 bpm；三源训练→单目标测试同样全面领先，说明它学到的是域不变的 rPPG 知识而非混淆域特定特征。

消融实验¶

主模块消融（UBFC-rPPG，MAE/RMSE）：

配置	MAE	RMSE	说明
Full（DDS+VA+TPG）	0.21	0.57	完整模型
w/o DDS	0.25	0.76	去平稳化，误差上升
w/o TPG	0.27	0.92	去跨模态对齐，掉点最明显
w/o VA	0.34	1.05	去多尺度融合
仅 TPG	0.32	1.00	三模块单留其一时 TPG 最强

Prompt 组件消融（UBFC-rPPG）显示：去掉 APL 自适应学习时 MAE 从 0.21 暴涨到 1.31（约 76% 退化），是最关键的组件；Vision+Task 优于 Stats+Task，说明视觉 prompt 与 rPPG 线索更契合。

关键发现¶

TPG 与 APL 是两大支柱：去掉 TPG 在主模块里掉点最显著，去掉 APL 自适应学习则带来全局最大退化（76%），印证「先把模态对齐 + 再自适应选线索」缺一不可。
LLM 的预训练知识是必需的：把 LLM 换成无预训练的时序 Transformer（Sundial）后 MAE 从 0.21/0.17 暴涨到 3.35/4.05，说明起作用的是 LLM 的预训练语义先验而非单纯 Transformer 架构；DeepSeek、BERT、GPT2 均能 work，DeepSeek 最佳。
难数据集收益更大：在光照/运动复杂的 BUAA、MMPD 上提升幅度比简单库更明显，呼应「补长时序 + 注入场景先验」对真实场景的价值。

亮点与洞察¶

「翻译」而非「微调」：用一小撮文本原型当语义锚点，把连续信号 reprogram 进 LLM 空间，避开了对大模型的重度微调，是把 LLM 嫁接到非文本模态的轻量范式，可迁移到 ECG/EEG 等其他生理信号。
冻结底座 + 可学协同：保留 PhysNet 已验证的鲁棒生理先验不动，只训练增强模块和 LoRA，既稳又省，体现了「让专家模型做专家的事、LLM 做长程推理」的分工思路。
信号统计当 prompt：把 min/max/median/趋势/TopK 这类廉价统计量符号化成 token 补进 prompt，专门弥补静态视觉描述抓不到的时序血流变化，是个很实用、可复用的「数值→语言先验」trick。

局限与展望¶

作者承认 rPPG 在真实场景仍受光照、运动、肤色多样性强烈干扰；虽有改善但 BUAA/MMPD 上 MAE 仍有 4–6 bpm，离临床级还有距离。
依赖外部大模型（LLaVA 生成视觉线索、DeepSeek 当主干）带来不小的推理开销和部署成本，论文未充分讨论实时性，对端侧持续监护是潜在瓶颈。
线索质量受 LLaVA 描述准确度影响，遮挡/极端光照下 LLaVA 描述可能失真，缺少对线索错误的鲁棒性分析。
仅用 MSE 监督波形，未引入频域/峰值约束，对心率以外的指标（如 HRV、血压）泛化性还需验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把 LLM 引入 rPPG，TPG 共享原型 + 生理线索 prompt 的组合很有想法
实验充分度: ⭐⭐⭐⭐ 四库 + 跨域 + 多 LLM + 细致消融，但缺实时性/开销分析
写作质量: ⭐⭐⭐⭐ 框架清晰、公式完整，部分线索细节略散
价值: ⭐⭐⭐⭐ 为「LLM 嫁接非文本生理信号」提供了可复用范式