MobileKGQA: On-Device KGQA System on Dynamic Mobile Environments¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=SjLo76SpoW
代码: https://github.com/jyahn215/mobileKGQA
领域: 图学习 / 知识图谱问答 / 端侧推理
关键词: KGQA, 端侧训练, embedding hashing, 分布漂移, 标注自动生成

一句话总结¶

MobileKGQA 把高维 LLM embedding 压成二进制哈希码喂给 GNN 推理模块，再配一套逐步推理的标注自动生成方法，让知识图谱问答系统第一次能在手机/边缘设备上直接训练并适应不断累积的用户数据，在 Jetson Orin Nano 上以 30.4% 的能耗换来 20.3% 的性能提升。

研究背景与动机¶

领域现状：手机里大量用户信息（社交关系、活动日志、位置偏好）以知识图谱（KG）形式存储并持续累积，端侧 LLM 若能借助 KGQA 检索这些结构化知识，就能给出更个性化、可解释、少幻觉的回答。

现有痛点：现有 KGQA 系统全都不适合端侧部署——IR-based 模型要存高维 embedding 且反复构子图、算力高；SP-based 模型在新关系出现时常生成不可执行的逻辑式；LLM-based 的 ICL 方法要反复调用 LLM、延迟极高；微调 LLM 类方法则要调数十亿参数。

核心矛盾：用户数据持续累积会引发剧烈的分布漂移，导致 KGQA 性能随时间衰减，因此系统必须能持续适应新数据。但适应需要重训，而重训通常在中心化服务器上进行，既受端侧资源约束，又把私人数据上传带来隐私风险。两个无法回避的研究问题随之产生：(1) 如何把 KGQA 的训练资源砍到边缘设备能承受的水平？(2) 如何在不泄露数据的前提下为新知识生成监督训练所需的标注？

本文目标：做出首个能在手机上直接部署且直接训练的 KGQA 系统，用极少参数（0.136M）对抗资源约束，并自带适应分布漂移的能力。

核心 idea：[哈希压缩 + 自生成标注] 用「最大化原始 embedding 与哈希码互信息」的哈希模块把 GB 级浮点 embedding 压成几 MB 的二进制码，让 GNN 推理在常数算力下完成；再用「逐步推理拆解」的标注生成方法本地造出 question-answer 对，从而完全在设备上闭环训练与适应。

方法详解¶

整体框架¶

MobileKGQA 分三个阶段：哈希阶段把问题与关系的 LLM embedding 投影成保语义的二进制哈希码；检索阶段用基于 GNN 的推理模块在哈希码上预测答案候选并抽取连接路径，交给端侧 LLM 选最优路径生成答案；适应阶段在新数据到来时用自动标注生成方法造监督信号，重训哈希与推理模块以对抗分布漂移。

flowchart LR
    A[问题/关系 embedding<br/>EM 模型] --> B[哈希模块<br/>MLP→BN→tanh→sgn]
    B --> C[二进制哈希码 h∈{-1,1}]
    C --> D[GNN 推理模块<br/>ReaRev]
    KG[知识图谱 G] --> D
    D --> E[答案候选 + 最短推理路径]
    E --> F[端侧 LLM 选路径生成答案]
    G[新数据累积<br/>分布漂移] -.触发.-> H[逐步标注生成<br/>采样→口语化→合并→遮蔽→生成精炼]
    H -.监督信号.-> B
    H -.监督信号.-> D

关键设计¶

1. 保余弦相似度的 embedding 哈希：用互信息把浮点压成二进制。 哈希模块要把高维浮点 embedding \(z\in\mathbb{R}^D\) 压成二进制码 \(h\in\{-1,1\}^d\) 同时不丢语义，作者把它形式化为「在 \(h=\psi(\phi(z))\) 约束下最大化互信息 \(I(z,h)\)」。由于二进制是离散优化，他们拆成两段可微映射——先用 MLP 做低维映射 \(\phi\)、再用批归一化把分布拉到零中心使哈希空间分布更均匀、最后 \(d=\tanh(\mathrm{BN}(\mathrm{MLP}_\phi(z)))\)、\(h=\mathrm{sgn}(d)\) 二值化。理论上他们证明（Theorem 1）：在「embedding 的模长与方向独立」假设下，只要 \(\phi\) 和 \(\psi\) 都保持任意 embedding 对之间的余弦相似度，互信息 \(I(z,h)\) 就达到最大。于是优化目标落到一个 log-ratio 回归损失上，把映射前的余弦相似度作为回归目标去逼近：\(\mathcal{L}_{hash}=\ell_\phi(Z_a,Z_i,Z_j)+\alpha\ell_\psi(d_a,d_i,d_j)\)。这套设计的妙处在于：哈希码体积只有原 embedding 的 0.25%，且训练算力与 embedding 模型大小完全解耦——不像 SOTA 的 GNN-RAG 要在训练时反复重算 embedding，因此可以放心换用更大的多语种 embedding 模型。

2. 哈希码上的 GNN 推理 + 最短路径检索。 拿到问题哈希码 \(h_q\)、关系哈希码 \(h_r\) 和图 \(G\) 后，推理模块（复用 ReaRev 架构，利用图结构作归纳偏置）输出全图节点表示 \(H=\{h_i\}_{i=1}^N=\mathrm{RM}(h_q,h_r,G)\)，以答案节点为标签用 KL 散度训练：\(\mathcal{L}_{reason}=D_{KL}(Q\,\|\,\mathrm{softmax}(WH))\)。预测出答案候选 \(\hat a_j\) 后，从问题实体 \(e_q\) 到候选之间抽取最短路径集合 \(P\) 作为推理路径喂给 LLM。选最短路径不是随意为之：一方面前人工作已证明最短路径是有效的启发式，另一方面路径长度增加会让搜索空间指数膨胀，限定最短路径相当于在固定检索预算下最优化召回。因为推理全在低维二进制码上做，整个检索阶段的计算与存储开销都被压到极低。

3. 逐步推理的标注自动生成：本地造 QA 对对抗漂移。 新知识累积后没有现成的 question-answer 标注，而本地资源又不允许像前人那样多次调 LLM 或调云端 LLM。作者把「为新三元组造问题」拆成五个可解释小步：先采样并过滤推理路径（用 tokenize 后 token-字符比偏高识别并丢弃加密/非自然字符实体）；再把过滤后的三元组口语化成自然语句让 LLM 更好处理；接着合并成一句描述答案的话，帮模型理清答案与其它信息的关系；然后把答案替换成带类型提示的占位符，避免答案直接出现在问题里；最后 LLM 从遮蔽句生成问题并精炼，若缺少作为推理起点的问题实体就触发补全。把复杂推理拆成简单步骤，既提升了标注质量，又大幅减少输出 token——在 Phi-4 上只用 CoT 21% 的 token 和 26% 的时间就拿到更高的标注质量。生成的 QA 对随即用式(3)和式(6)的监督损失去重训哈希与推理模块，闭环完成本地适应。

实验关键数据¶

主实验（WebQSP，训练成本与推理性能）¶

维度	MobileKGQA	SOTA (GNN-RAG)	对比
调参参数	0.1M	0.8–1.7M	仅 9%
训练 PFLOPs	0.6	2.4–25.1	仅 7.2%（GTE-large 设定）
训练时间	1.63h	1.85–2.22h	最短
Hit / F1（Gemma2 2B）	79.8 / 67.0	80.0 / 66.9	几乎持平

跨各种 embedding 模型与 0.5B–14B 端侧 LLM，MobileKGQA 与 GNN-RAG 的差距平均仅 +0.46 Hit / −0.16 F1，最坏也只 −0.2 Hit；且算力不随 embedding 模型增大而增长（GTE-Qwen2-1.5B 下 GNN-RAG 算力可达其 41.8 倍）。相比 ICL 方法（ToG 延迟达 2400+s），延迟与性能全面占优。

Jetson Orin Nano 边缘平台（vs GNN-RAG）¶

模式	指标	MobileKGQA	GNN-RAG
7W	训练时间 / 能耗(Wh)	2.1 / 11.8	5.9 / 28.7
7W	Hit / F1	74.2 / 62.9	61.7 / 54.3
15W	是否限频 throttle	否	是

只用 30.6% 训练时间、30.4% 能耗，性能反而 +20.3% Hit；且唯一能在设备上跑通最优配置、两种功耗模式都不触发限频的模型。

消融与分析¶

实验	结论
哈希维度（Table 5）	64bit 时性能掉 <2.9%，256bit 几乎无损；存储省 99.75%，推理模块参数/PFLOPs 降 46.9%/82.2%
标注质量（Table 6）	ROUGE-L 42.8 / BERTScore 48.7，全面超 RLM、CoT；token 仅 CoT 的 21%
标注消融（Table 7）	适应后 total Hit 64.9，优于 RLM(62.3)、CoT(61.4)
分布漂移（Table 4）	两次域适应后 total Hit 全面领先所有 baseline；CWQ 上适应新域后原域性能反升（知识正迁移）

关键发现¶

哈希压缩在大幅省资源的同时几乎不掉点，验证「保余弦相似度即保语义」的理论假设站得住。
单纯缩小超参（如硬压 GNN-RAG）无法保住推理性能，说明哈希策略对端侧 KGQA 是必要而非可替代的。

亮点与洞察¶

把 embedding 哈希引入 KGQA 并给出互信息最优性证明：不是工程化压缩，而是从「保余弦相似度⇒互信息最大」的理论条件出发设计损失，思路干净。
算力与 embedding 模型大小解耦：哈希码固定维度，意味着可以白嫖未来更强的大 embedding 模型而端侧成本不变——这是相对 GNN-RAG「训练时反复重算 embedding」的结构性优势。
本地闭环对抗分布漂移：自动标注生成让系统不必把私人数据传服务器即可持续学习，把隐私与适应性这对矛盾在端侧化解，是真正面向落地的设计。

局限与展望¶

依赖端侧 LLM 的标注质量：标注生成仍要调本地 LLM，2B 级模型上质量虽优于 baseline，但绝对 ROUGE-L/BERTScore（42.8/48.7）离人工还有距离，错误标注可能累积偏差。
最短路径启发式的天花板：用最短路径近似真实推理路径，在需要长程/多跳复杂推理时可能漏掉真正的逻辑链。
评测仍限于 WebQSP/CWQ 两个标准 benchmark：分布漂移是人工切分 D1/D2/D3 模拟的，真实手机上长期累积的数据漂移更复杂，泛化性待进一步验证。
作者也在 ethics 中指出个性化系统可能引入偏见，留作未来工作。

评分¶

新颖性: ⭐⭐⭐⭐ — 首个端侧可训练 KGQA，embedding 哈希+互信息证明、逐步标注生成两个组件都不是简单拼装，针对性强。
实验充分度: ⭐⭐⭐⭐ — 真机 Jetson 测能耗/限频、两 benchmark、多 embedding/多 LLM、哈希维度与标注质量消融齐全，分布漂移设计扎实。
写作质量: ⭐⭐⭐⭐ — 两个研究问题牵引全文，方法与动机对应清晰，图表完整；理论部分略压缩需查附录。
价值: ⭐⭐⭐⭐ — 隐私+资源约束下的端侧个性化 KGQA 有明确落地价值，为端侧 RAG/KGQA 提供了可复用的工程与理论范式。