跳转至

Talk, Snap, Complain: Validation-Aware Multimodal Expert Framework for Fine-Grained Customer Grievances

会议: AAAI2026
arXiv: 2511.14693
作者: Rishu Kumar Singh, Navneet Shreya, Sarmistha Das, Apoorva Singh, Sriparna Saha
代码: GitHub
领域: 图像生成
关键词: 多模态投诉分析, Mixture-of-Experts, Chain-of-Thought, 语义对齐, 细粒度分类

一句话总结

提出VALOR框架,结合Chain-of-Thought推理的多专家路由架构与语义对齐验证机制,在多轮多模态客服对话中实现细粒度投诉方面(Aspect)和严重度(Severity)的联合分类,较最强baseline Gemma-3绝对提升12.94%/6.51%。

背景与动机

问题背景

现有投诉分析研究主要依赖单模态短文本(推文、产品评论),而实际客服场景中用户通常同时提供文本投诉和视觉证据(截图、产品照片),且投诉信息分散在多轮对话中。传统ABSA方法仅分配情感极性,无法提供可操作的细粒度洞察。

已有工作不足

  • 大多数方法仅处理单轮短文本,缺乏多轮语境建模能力
  • 多模态投诉方法依赖静态特征或简单融合,忽略跨模态交互
  • 缺乏专门的多模态对话投诉数据集,评估局限于产品评论
  • 现有LLM和VLM未针对模态对齐、歧义消解和跨模态推理进行优化

核心动机

将投诉分析重新定义为多轮对话上的细粒度多模态分类任务,联合建模对话流和图像信息,实现Aspect类别和Severity级别的精确分类。

核心问题

  1. 如何在多轮客服对话中有效融合文本和图像线索,实现细粒度投诉理解?
  2. 如何设计专家路由机制,在复杂多模态场景下保证推理质量和可解释性?
  3. 如何构建并标注多模态客服对话数据集,支撑系统性评估?

方法详解

CIViL数据集构建

从Kaggle Customer Support on Twitter数据集中筛选Apple Support对话(2-10轮),随机抽样2,004段对话,标注细粒度Aspect(6类)和Severity(4级)。通过CLIP语义匹配为对话分配4,478张视觉证据图像。Fleiss' Kappa: Aspect=0.68,Severity=0.75。

VALOR框架(Phase 1: Prediction)

编码器:文本通过BERT-base编码得到 \(\mathbf{H}_t \in \mathbb{R}^{B \times L \times d}\),图像通过ViT-patch16编码得到 \(\mathbf{H}_i \in \mathbb{R}^{B \times 196 \times d}\)\(d=768\))。

跨模态融合:8头Cross-Attention,query来自文本、key/value来自图像:

\[\text{Attention}(\mathbf{Q}_h, \mathbf{K}_h, \mathbf{V}_h) = \text{softmax}\left(\frac{\mathbf{Q}_h \mathbf{K}_h^\top}{\sqrt{d/H}}\right)\mathbf{V}_h\]

输出经mean pooling得到统一表示 \(\mathbf{x} \in \mathbb{R}^{B \times d}\)

语义对齐分数(SAS):将 \(\mathbf{h}_t\)\(\mathbf{h}_i\) 投射到共享512维空间,经MLP+tanh输出标量 \(s \in [-1,1]^B\)

CoT专家路由\(\mathcal{K}=4\) 个基于DeepSeek-6.7B的Chain-of-Thought专家。门控函数:

\[\mathbf{g} = \text{softmax}(\mathbf{x}\mathbf{W}_r + \mathbf{b}_r) \in \mathbb{R}^{B \times \mathcal{K}}\]

Hard top-1路由选择 \(k_b^* = \arg\max_k g_{b,k}\),负载均衡正则化:

\[L_{\text{lb}} = \sum_{k=1}^{\mathcal{K}}\left(\frac{1}{\mathcal{K}} - \frac{1}{B}\sum_{b=1}^{B}g_{b,k}\right)^2\]

VALOR框架(Phase 2: Validation)

\(\mathcal{L}_v=2\) 个DeepSeek验证专家进行二次推理,通过三重度量评估: - Alignment:专家间logits余弦相似度 \(R_{\text{avg}}\) - Dominance:MoE输出与验证输出的相关性 - Complementarity:softmax归一化logits的熵 \(U_{\text{avg}}\)

Meta-fusion网络聚合所有信号,经SAS调整得最终预测:

\[\ell_{\text{final}} = \ell_f + \lambda_s \cdot s \cdot \mathbf{1}_{\mathcal{C}_a}, \quad \lambda_s = 0.1\]

总训练目标

\[L_{\text{total}} = L_{\text{aspect}} + L_{\text{severity}} + \lambda_{\text{lb}}L_{\text{lb}} + \lambda_{\text{val}}L_{\text{val}} + \lambda_s L_{\text{sas}} + \lambda_R L_{\text{Alignment}} + \lambda_S L_{\text{dominance}} + \lambda_U L_{\text{complementarity}}\]

实验关键数据

基线对比(CIViL数据集,20 epochs fine-tuning)

模型 ACD Acc ACD F1 SD Acc SD F1
Gemma-3 (9B) 0.69 0.66 0.65 0.66
DeepSeek-VL 0.66 0.65 0.66 0.65
Paligemma (3B) 0.65 0.66 0.65 0.64
CLIP ViT-B/32 0.59 0.56 0.55 0.56
ViLT 0.55 0.56 0.55 0.54
VALOR 0.8194 0.7696 0.7251 0.6791

消融实验关键结果

配置 ACD Acc SD Acc ACD F1 SD F1
VALOR (完整) 81.94% 72.51% 76.96% 67.91%
CoT (无Validation) 73.74% 62.62% 70.44% 52.84%
Transformer专家+Validation 77.08% 63.98% 70.24% 60.24%
MLP专家+无Validation 70.43% 57.35% 63.82% 48.55%

Validation MoE带来 +8.2% Aspect准确率提升(73.74%→81.94%)。

人工评估(200样本,Win-Loss-Draw)

  • VALOR vs Gemma-3: Aspect胜率42.3%/负率18.7%,Severity胜率38.5%/负率22.1%

亮点

  • 端到端多模态投诉理解:首次在多轮对话场景中融合文本+视觉的细粒度投诉分析
  • 双阶段验证-预测架构:Phase 1的CoT专家做预测,Phase 2的验证专家做质量保证,显著提升可靠性
  • 三重度量评估体系:Alignment/Dominance/Complementarity三个维度评估专家行为,增强可解释性
  • 可学习语义对齐分数:动态SAS优于静态cosine相似度,自适应调节跨模态权重
  • 新数据集CIViL:2,004段标注对话+4,478张图片,填补多模态对话投诉理解的数据空白

局限与展望

  • 数据规模有限:仅2,004段Apple Support对话,领域覆盖单一
  • 类别不均衡严重:Software类占82.9%(1,662/2,004),Price仅23例,影响泛化
  • 计算成本高:使用4个DeepSeek-6.7B作为CoT专家+2个验证专家,部署成本较高
  • 图像-对话匹配非原生:视觉证据是通过CLIP匹配后爬取的,非对话中真实嵌入
  • 仅支持英文:未涉及多语言场景
  • 严重度主观性:用户语气差异导致模型低估或误分类Severity级别

与相关工作的对比

  • vs ABSA方法:传统ABSA仅分配情感极性,VALOR做细粒度Aspect+Severity联合分类
  • vs VisualBERT/ViLT:这些VLM缺乏专家路由和CoT推理能力,F1低约20个百分点
  • vs Gemma-3 (9B):尽管参数量大,但缺乏验证机制和语义对齐,ACD准确率低12.94%
  • vs 标准MoE:CoT专家利用分步推理捕捉投诉细微语义,优于MLP/Transformer专家

启发与关联

  • 验证-预测双阶段设计可推广至其他需要高可靠性的多模态分类任务
  • 三重度量体系(Alignment/Dominance/Complementarity)提供了评估MoE专家质量的通用方法论
  • 可学习SAS对齐分数的思路可应用于任何需要跨模态一致性评估的场景

评分

  • 新颖性: ⭐⭐⭐⭐ — 多专家CoT+验证的双阶段架构在投诉分析领域首创
  • 实验充分度: ⭐⭐⭐⭐ — 消融充分、人工评估完整,但数据集规模和领域覆盖有限
  • 写作质量: ⭐⭐⭐ — 方法描述详尽但表述较冗长,符号系统复杂
  • 价值: ⭐⭐⭐ — 实际应用价值明确,但计算成本和数据局限性制约推广