Talk, Snap, Complain: Validation-Aware Multimodal Expert Framework for Fine-Grained Customer Grievances¶
会议: AAAI2026
arXiv: 2511.14693
作者: Rishu Kumar Singh, Navneet Shreya, Sarmistha Das, Apoorva Singh, Sriparna Saha
代码: GitHub
领域: 图像生成
关键词: 多模态投诉分析, Mixture-of-Experts, Chain-of-Thought, 语义对齐, 细粒度分类
一句话总结¶
提出VALOR框架,结合Chain-of-Thought推理的多专家路由架构与语义对齐验证机制,在多轮多模态客服对话中实现细粒度投诉方面(Aspect)和严重度(Severity)的联合分类,较最强baseline Gemma-3绝对提升12.94%/6.51%。
背景与动机¶
问题背景¶
现有投诉分析研究主要依赖单模态短文本(推文、产品评论),而实际客服场景中用户通常同时提供文本投诉和视觉证据(截图、产品照片),且投诉信息分散在多轮对话中。传统ABSA方法仅分配情感极性,无法提供可操作的细粒度洞察。
已有工作不足¶
- 大多数方法仅处理单轮短文本,缺乏多轮语境建模能力
- 多模态投诉方法依赖静态特征或简单融合,忽略跨模态交互
- 缺乏专门的多模态对话投诉数据集,评估局限于产品评论
- 现有LLM和VLM未针对模态对齐、歧义消解和跨模态推理进行优化
核心动机¶
将投诉分析重新定义为多轮对话上的细粒度多模态分类任务,联合建模对话流和图像信息,实现Aspect类别和Severity级别的精确分类。
核心问题¶
- 如何在多轮客服对话中有效融合文本和图像线索,实现细粒度投诉理解?
- 如何设计专家路由机制,在复杂多模态场景下保证推理质量和可解释性?
- 如何构建并标注多模态客服对话数据集,支撑系统性评估?
方法详解¶
CIViL数据集构建¶
从Kaggle Customer Support on Twitter数据集中筛选Apple Support对话(2-10轮),随机抽样2,004段对话,标注细粒度Aspect(6类)和Severity(4级)。通过CLIP语义匹配为对话分配4,478张视觉证据图像。Fleiss' Kappa: Aspect=0.68,Severity=0.75。
VALOR框架(Phase 1: Prediction)¶
编码器:文本通过BERT-base编码得到 \(\mathbf{H}_t \in \mathbb{R}^{B \times L \times d}\),图像通过ViT-patch16编码得到 \(\mathbf{H}_i \in \mathbb{R}^{B \times 196 \times d}\)(\(d=768\))。
跨模态融合:8头Cross-Attention,query来自文本、key/value来自图像:
输出经mean pooling得到统一表示 \(\mathbf{x} \in \mathbb{R}^{B \times d}\)。
语义对齐分数(SAS):将 \(\mathbf{h}_t\) 和 \(\mathbf{h}_i\) 投射到共享512维空间,经MLP+tanh输出标量 \(s \in [-1,1]^B\)。
CoT专家路由:\(\mathcal{K}=4\) 个基于DeepSeek-6.7B的Chain-of-Thought专家。门控函数:
Hard top-1路由选择 \(k_b^* = \arg\max_k g_{b,k}\),负载均衡正则化:
VALOR框架(Phase 2: Validation)¶
\(\mathcal{L}_v=2\) 个DeepSeek验证专家进行二次推理,通过三重度量评估: - Alignment:专家间logits余弦相似度 \(R_{\text{avg}}\) - Dominance:MoE输出与验证输出的相关性 - Complementarity:softmax归一化logits的熵 \(U_{\text{avg}}\)
Meta-fusion网络聚合所有信号,经SAS调整得最终预测:
总训练目标¶
实验关键数据¶
基线对比(CIViL数据集,20 epochs fine-tuning)¶
| 模型 | ACD Acc | ACD F1 | SD Acc | SD F1 |
|---|---|---|---|---|
| Gemma-3 (9B) | 0.69 | 0.66 | 0.65 | 0.66 |
| DeepSeek-VL | 0.66 | 0.65 | 0.66 | 0.65 |
| Paligemma (3B) | 0.65 | 0.66 | 0.65 | 0.64 |
| CLIP ViT-B/32 | 0.59 | 0.56 | 0.55 | 0.56 |
| ViLT | 0.55 | 0.56 | 0.55 | 0.54 |
| VALOR | 0.8194 | 0.7696 | 0.7251 | 0.6791 |
消融实验关键结果¶
| 配置 | ACD Acc | SD Acc | ACD F1 | SD F1 |
|---|---|---|---|---|
| VALOR (完整) | 81.94% | 72.51% | 76.96% | 67.91% |
| CoT (无Validation) | 73.74% | 62.62% | 70.44% | 52.84% |
| Transformer专家+Validation | 77.08% | 63.98% | 70.24% | 60.24% |
| MLP专家+无Validation | 70.43% | 57.35% | 63.82% | 48.55% |
Validation MoE带来 +8.2% Aspect准确率提升(73.74%→81.94%)。
人工评估(200样本,Win-Loss-Draw)¶
- VALOR vs Gemma-3: Aspect胜率42.3%/负率18.7%,Severity胜率38.5%/负率22.1%
亮点¶
- 端到端多模态投诉理解:首次在多轮对话场景中融合文本+视觉的细粒度投诉分析
- 双阶段验证-预测架构:Phase 1的CoT专家做预测,Phase 2的验证专家做质量保证,显著提升可靠性
- 三重度量评估体系:Alignment/Dominance/Complementarity三个维度评估专家行为,增强可解释性
- 可学习语义对齐分数:动态SAS优于静态cosine相似度,自适应调节跨模态权重
- 新数据集CIViL:2,004段标注对话+4,478张图片,填补多模态对话投诉理解的数据空白
局限与展望¶
- 数据规模有限:仅2,004段Apple Support对话,领域覆盖单一
- 类别不均衡严重:Software类占82.9%(1,662/2,004),Price仅23例,影响泛化
- 计算成本高:使用4个DeepSeek-6.7B作为CoT专家+2个验证专家,部署成本较高
- 图像-对话匹配非原生:视觉证据是通过CLIP匹配后爬取的,非对话中真实嵌入
- 仅支持英文:未涉及多语言场景
- 严重度主观性:用户语气差异导致模型低估或误分类Severity级别
与相关工作的对比¶
- vs ABSA方法:传统ABSA仅分配情感极性,VALOR做细粒度Aspect+Severity联合分类
- vs VisualBERT/ViLT:这些VLM缺乏专家路由和CoT推理能力,F1低约20个百分点
- vs Gemma-3 (9B):尽管参数量大,但缺乏验证机制和语义对齐,ACD准确率低12.94%
- vs 标准MoE:CoT专家利用分步推理捕捉投诉细微语义,优于MLP/Transformer专家
启发与关联¶
- 验证-预测双阶段设计可推广至其他需要高可靠性的多模态分类任务
- 三重度量体系(Alignment/Dominance/Complementarity)提供了评估MoE专家质量的通用方法论
- 可学习SAS对齐分数的思路可应用于任何需要跨模态一致性评估的场景
评分¶
- 新颖性: ⭐⭐⭐⭐ — 多专家CoT+验证的双阶段架构在投诉分析领域首创
- 实验充分度: ⭐⭐⭐⭐ — 消融充分、人工评估完整,但数据集规模和领域覆盖有限
- 写作质量: ⭐⭐⭐ — 方法描述详尽但表述较冗长,符号系统复杂
- 价值: ⭐⭐⭐ — 实际应用价值明确,但计算成本和数据局限性制约推广