跳转至

MobileKGQA: On-Device KGQA System on Dynamic Mobile Environments

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=SjLo76SpoW
代码: https://github.com/jyahn215/mobileKGQA
领域: 图学习 / 知识图谱问答 / 端侧推理
关键词: KGQA, 端侧训练, embedding hashing, 分布漂移, 标注自动生成

一句话总结

MobileKGQA 把高维 LLM embedding 压成二进制哈希码喂给 GNN 推理模块,再配一套逐步推理的标注自动生成方法,让知识图谱问答系统第一次能在手机/边缘设备上直接训练并适应不断累积的用户数据,在 Jetson Orin Nano 上以 30.4% 的能耗换来 20.3% 的性能提升。

研究背景与动机

领域现状:手机里大量用户信息(社交关系、活动日志、位置偏好)以知识图谱(KG)形式存储并持续累积,端侧 LLM 若能借助 KGQA 检索这些结构化知识,就能给出更个性化、可解释、少幻觉的回答。

现有痛点:现有 KGQA 系统全都不适合端侧部署——IR-based 模型要存高维 embedding 且反复构子图、算力高;SP-based 模型在新关系出现时常生成不可执行的逻辑式;LLM-based 的 ICL 方法要反复调用 LLM、延迟极高;微调 LLM 类方法则要调数十亿参数。

核心矛盾:用户数据持续累积会引发剧烈的分布漂移,导致 KGQA 性能随时间衰减,因此系统必须能持续适应新数据。但适应需要重训,而重训通常在中心化服务器上进行,既受端侧资源约束,又把私人数据上传带来隐私风险。两个无法回避的研究问题随之产生:(1) 如何把 KGQA 的训练资源砍到边缘设备能承受的水平?(2) 如何在不泄露数据的前提下为新知识生成监督训练所需的标注?

本文目标:做出首个能在手机上直接部署且直接训练的 KGQA 系统,用极少参数(0.136M)对抗资源约束,并自带适应分布漂移的能力。

核心 idea[哈希压缩 + 自生成标注] 用「最大化原始 embedding 与哈希码互信息」的哈希模块把 GB 级浮点 embedding 压成几 MB 的二进制码,让 GNN 推理在常数算力下完成;再用「逐步推理拆解」的标注生成方法本地造出 question-answer 对,从而完全在设备上闭环训练与适应。

方法详解

整体框架

MobileKGQA 分三个阶段:哈希阶段把问题与关系的 LLM embedding 投影成保语义的二进制哈希码;检索阶段用基于 GNN 的推理模块在哈希码上预测答案候选并抽取连接路径,交给端侧 LLM 选最优路径生成答案;适应阶段在新数据到来时用自动标注生成方法造监督信号,重训哈希与推理模块以对抗分布漂移。

flowchart LR
    A[问题/关系 embedding<br/>EM 模型] --> B[哈希模块<br/>MLP→BN→tanh→sgn]
    B --> C[二进制哈希码 h∈{-1,1}]
    C --> D[GNN 推理模块<br/>ReaRev]
    KG[知识图谱 G] --> D
    D --> E[答案候选 + 最短推理路径]
    E --> F[端侧 LLM 选路径生成答案]
    G[新数据累积<br/>分布漂移] -.触发.-> H[逐步标注生成<br/>采样→口语化→合并→遮蔽→生成精炼]
    H -.监督信号.-> B
    H -.监督信号.-> D

关键设计

1. 保余弦相似度的 embedding 哈希:用互信息把浮点压成二进制。 哈希模块要把高维浮点 embedding \(z\in\mathbb{R}^D\) 压成二进制码 \(h\in\{-1,1\}^d\) 同时不丢语义,作者把它形式化为「在 \(h=\psi(\phi(z))\) 约束下最大化互信息 \(I(z,h)\)」。由于二进制是离散优化,他们拆成两段可微映射——先用 MLP 做低维映射 \(\phi\)、再用批归一化把分布拉到零中心使哈希空间分布更均匀、最后 \(d=\tanh(\mathrm{BN}(\mathrm{MLP}_\phi(z)))\)\(h=\mathrm{sgn}(d)\) 二值化。理论上他们证明(Theorem 1):在「embedding 的模长与方向独立」假设下,只要 \(\phi\)\(\psi\)保持任意 embedding 对之间的余弦相似度,互信息 \(I(z,h)\) 就达到最大。于是优化目标落到一个 log-ratio 回归损失上,把映射前的余弦相似度作为回归目标去逼近:\(\mathcal{L}_{hash}=\ell_\phi(Z_a,Z_i,Z_j)+\alpha\ell_\psi(d_a,d_i,d_j)\)。这套设计的妙处在于:哈希码体积只有原 embedding 的 0.25%,且训练算力与 embedding 模型大小完全解耦——不像 SOTA 的 GNN-RAG 要在训练时反复重算 embedding,因此可以放心换用更大的多语种 embedding 模型。

2. 哈希码上的 GNN 推理 + 最短路径检索。 拿到问题哈希码 \(h_q\)、关系哈希码 \(h_r\) 和图 \(G\) 后,推理模块(复用 ReaRev 架构,利用图结构作归纳偏置)输出全图节点表示 \(H=\{h_i\}_{i=1}^N=\mathrm{RM}(h_q,h_r,G)\),以答案节点为标签用 KL 散度训练:\(\mathcal{L}_{reason}=D_{KL}(Q\,\|\,\mathrm{softmax}(WH))\)。预测出答案候选 \(\hat a_j\) 后,从问题实体 \(e_q\) 到候选之间抽取最短路径集合 \(P\) 作为推理路径喂给 LLM。选最短路径不是随意为之:一方面前人工作已证明最短路径是有效的启发式,另一方面路径长度增加会让搜索空间指数膨胀,限定最短路径相当于在固定检索预算下最优化召回。因为推理全在低维二进制码上做,整个检索阶段的计算与存储开销都被压到极低。

3. 逐步推理的标注自动生成:本地造 QA 对对抗漂移。 新知识累积后没有现成的 question-answer 标注,而本地资源又不允许像前人那样多次调 LLM 或调云端 LLM。作者把「为新三元组造问题」拆成五个可解释小步:先采样并过滤推理路径(用 tokenize 后 token-字符比偏高识别并丢弃加密/非自然字符实体);再把过滤后的三元组口语化成自然语句让 LLM 更好处理;接着合并成一句描述答案的话,帮模型理清答案与其它信息的关系;然后把答案替换成带类型提示的占位符,避免答案直接出现在问题里;最后 LLM 从遮蔽句生成问题并精炼,若缺少作为推理起点的问题实体就触发补全。把复杂推理拆成简单步骤,既提升了标注质量,又大幅减少输出 token——在 Phi-4 上只用 CoT 21% 的 token 和 26% 的时间就拿到更高的标注质量。生成的 QA 对随即用式(3)和式(6)的监督损失去重训哈希与推理模块,闭环完成本地适应。

实验关键数据

主实验(WebQSP,训练成本与推理性能)

维度 MobileKGQA SOTA (GNN-RAG) 对比
调参参数 0.1M 0.8–1.7M 仅 9%
训练 PFLOPs 0.6 2.4–25.1 仅 7.2%(GTE-large 设定)
训练时间 1.63h 1.85–2.22h 最短
Hit / F1(Gemma2 2B) 79.8 / 67.0 80.0 / 66.9 几乎持平

跨各种 embedding 模型与 0.5B–14B 端侧 LLM,MobileKGQA 与 GNN-RAG 的差距平均仅 +0.46 Hit / −0.16 F1,最坏也只 −0.2 Hit;且算力不随 embedding 模型增大而增长(GTE-Qwen2-1.5B 下 GNN-RAG 算力可达其 41.8 倍)。相比 ICL 方法(ToG 延迟达 2400+s),延迟与性能全面占优。

Jetson Orin Nano 边缘平台(vs GNN-RAG)

模式 指标 MobileKGQA GNN-RAG
7W 训练时间 / 能耗(Wh) 2.1 / 11.8 5.9 / 28.7
7W Hit / F1 74.2 / 62.9 61.7 / 54.3
15W 是否限频 throttle

只用 30.6% 训练时间、30.4% 能耗,性能反而 +20.3% Hit;且唯一能在设备上跑通最优配置、两种功耗模式都不触发限频的模型。

消融与分析

实验 结论
哈希维度(Table 5) 64bit 时性能掉 <2.9%,256bit 几乎无损;存储省 99.75%,推理模块参数/PFLOPs 降 46.9%/82.2%
标注质量(Table 6) ROUGE-L 42.8 / BERTScore 48.7,全面超 RLM、CoT;token 仅 CoT 的 21%
标注消融(Table 7) 适应后 total Hit 64.9,优于 RLM(62.3)、CoT(61.4)
分布漂移(Table 4) 两次域适应后 total Hit 全面领先所有 baseline;CWQ 上适应新域后原域性能反升(知识正迁移)

关键发现

  • 哈希压缩在大幅省资源的同时几乎不掉点,验证「保余弦相似度即保语义」的理论假设站得住。
  • 单纯缩小超参(如硬压 GNN-RAG)无法保住推理性能,说明哈希策略对端侧 KGQA 是必要而非可替代的。

亮点与洞察

  • 把 embedding 哈希引入 KGQA 并给出互信息最优性证明:不是工程化压缩,而是从「保余弦相似度⇒互信息最大」的理论条件出发设计损失,思路干净。
  • 算力与 embedding 模型大小解耦:哈希码固定维度,意味着可以白嫖未来更强的大 embedding 模型而端侧成本不变——这是相对 GNN-RAG「训练时反复重算 embedding」的结构性优势。
  • 本地闭环对抗分布漂移:自动标注生成让系统不必把私人数据传服务器即可持续学习,把隐私与适应性这对矛盾在端侧化解,是真正面向落地的设计。

局限与展望

  • 依赖端侧 LLM 的标注质量:标注生成仍要调本地 LLM,2B 级模型上质量虽优于 baseline,但绝对 ROUGE-L/BERTScore(42.8/48.7)离人工还有距离,错误标注可能累积偏差。
  • 最短路径启发式的天花板:用最短路径近似真实推理路径,在需要长程/多跳复杂推理时可能漏掉真正的逻辑链。
  • 评测仍限于 WebQSP/CWQ 两个标准 benchmark:分布漂移是人工切分 D1/D2/D3 模拟的,真实手机上长期累积的数据漂移更复杂,泛化性待进一步验证。
  • 作者也在 ethics 中指出个性化系统可能引入偏见,留作未来工作。

相关工作与启发

  • KGQA 三大流派:IR-based(NSM、EmbedKGQA、ReaRev)构子图做图推理;SP-based(QGG、DecAF、UnifiedSKG)把问题转成 SPARQL 等查询语言;LLM-based 分 ICL(KB-BINDER、ToG、StructGPT)与微调(RoG、ChatKBQA、GNN-RAG、SubgraphRAG)。本文站在 IR-based + LLM 路径检索的交叉点。
  • 启发:哈希 + 互信息保语义的思路可迁移到其他「端侧检索增强」场景(如端侧 RAG);把复杂监督信号生成拆成可解释多步、以减少 token 的做法,对资源受限下的合成数据生成有普适价值。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个端侧可训练 KGQA,embedding 哈希+互信息证明、逐步标注生成两个组件都不是简单拼装,针对性强。
  • 实验充分度: ⭐⭐⭐⭐ — 真机 Jetson 测能耗/限频、两 benchmark、多 embedding/多 LLM、哈希维度与标注质量消融齐全,分布漂移设计扎实。
  • 写作质量: ⭐⭐⭐⭐ — 两个研究问题牵引全文,方法与动机对应清晰,图表完整;理论部分略压缩需查附录。
  • 价值: ⭐⭐⭐⭐ — 隐私+资源约束下的端侧个性化 KGQA 有明确落地价值,为端侧 RAG/KGQA 提供了可复用的工程与理论范式。