Talk, Snap, Complain: Validation-Aware Multimodal Expert Framework for Fine-Grained Customer Grievances¶

会议: AAAI2026
arXiv: 2511.14693
作者: Rishu Kumar Singh, Navneet Shreya, Sarmistha Das, Apoorva Singh, Sriparna Saha
代码: GitHub
领域: 图像生成
关键词: 多模态投诉分析, Mixture-of-Experts, Chain-of-Thought, 语义对齐, 细粒度分类

一句话总结¶

提出VALOR框架，结合Chain-of-Thought推理的多专家路由架构与语义对齐验证机制，在多轮多模态客服对话中实现细粒度投诉方面(Aspect)和严重度(Severity)的联合分类，较最强baseline Gemma-3绝对提升12.94%/6.51%。

背景与动机¶

问题背景¶

现有投诉分析研究主要依赖单模态短文本（推文、产品评论），而实际客服场景中用户通常同时提供文本投诉和视觉证据（截图、产品照片），且投诉信息分散在多轮对话中。传统ABSA方法仅分配情感极性，无法提供可操作的细粒度洞察。

已有工作不足¶

大多数方法仅处理单轮短文本，缺乏多轮语境建模能力
多模态投诉方法依赖静态特征或简单融合，忽略跨模态交互
缺乏专门的多模态对话投诉数据集，评估局限于产品评论
现有LLM和VLM未针对模态对齐、歧义消解和跨模态推理进行优化

核心动机¶

将投诉分析重新定义为多轮对话上的细粒度多模态分类任务，联合建模对话流和图像信息，实现Aspect类别和Severity级别的精确分类。

核心问题¶

如何在多轮客服对话中有效融合文本和图像线索，实现细粒度投诉理解？
如何设计专家路由机制，在复杂多模态场景下保证推理质量和可解释性？
如何构建并标注多模态客服对话数据集，支撑系统性评估？

方法详解¶

CIViL数据集构建¶

从Kaggle Customer Support on Twitter数据集中筛选Apple Support对话（2-10轮），随机抽样2,004段对话，标注细粒度Aspect（6类）和Severity（4级）。通过CLIP语义匹配为对话分配4,478张视觉证据图像。Fleiss' Kappa: Aspect=0.68，Severity=0.75。

VALOR框架（Phase 1: Prediction）¶

编码器：文本通过BERT-base编码得到 \(\mathbf{H}_t \in \mathbb{R}^{B \times L \times d}\)，图像通过ViT-patch16编码得到 \(\mathbf{H}_i \in \mathbb{R}^{B \times 196 \times d}\)（\(d=768\)）。

跨模态融合：8头Cross-Attention，query来自文本、key/value来自图像：

\[\text{Attention}(\mathbf{Q}_h, \mathbf{K}_h, \mathbf{V}_h) = \text{softmax}\left(\frac{\mathbf{Q}_h \mathbf{K}_h^\top}{\sqrt{d/H}}\right)\mathbf{V}_h\]

输出经mean pooling得到统一表示 \(\mathbf{x} \in \mathbb{R}^{B \times d}\)。

语义对齐分数(SAS)：将 \(\mathbf{h}_t\) 和 \(\mathbf{h}_i\) 投射到共享512维空间，经MLP+tanh输出标量 \(s \in [-1,1]^B\)。

CoT专家路由：\(\mathcal{K}=4\) 个基于DeepSeek-6.7B的Chain-of-Thought专家。门控函数：

\[\mathbf{g} = \text{softmax}(\mathbf{x}\mathbf{W}_r + \mathbf{b}_r) \in \mathbb{R}^{B \times \mathcal{K}}\]

Hard top-1路由选择 \(k_b^* = \arg\max_k g_{b,k}\)，负载均衡正则化：

\[L_{\text{lb}} = \sum_{k=1}^{\mathcal{K}}\left(\frac{1}{\mathcal{K}} - \frac{1}{B}\sum_{b=1}^{B}g_{b,k}\right)^2\]

VALOR框架（Phase 2: Validation）¶

\(\mathcal{L}_v=2\) 个DeepSeek验证专家进行二次推理，通过三重度量评估： - Alignment：专家间logits余弦相似度 \(R_{\text{avg}}\) - Dominance：MoE输出与验证输出的相关性 - Complementarity：softmax归一化logits的熵 \(U_{\text{avg}}\)

Meta-fusion网络聚合所有信号，经SAS调整得最终预测：

\[\ell_{\text{final}} = \ell_f + \lambda_s \cdot s \cdot \mathbf{1}_{\mathcal{C}_a}, \quad \lambda_s = 0.1\]

总训练目标¶

\[L_{\text{total}} = L_{\text{aspect}} + L_{\text{severity}} + \lambda_{\text{lb}}L_{\text{lb}} + \lambda_{\text{val}}L_{\text{val}} + \lambda_s L_{\text{sas}} + \lambda_R L_{\text{Alignment}} + \lambda_S L_{\text{dominance}} + \lambda_U L_{\text{complementarity}}\]

实验关键数据¶

基线对比（CIViL数据集，20 epochs fine-tuning）¶

模型	ACD Acc	ACD F1	SD Acc	SD F1
Gemma-3 (9B)	0.69	0.66	0.65	0.66
DeepSeek-VL	0.66	0.65	0.66	0.65
Paligemma (3B)	0.65	0.66	0.65	0.64
CLIP ViT-B/32	0.59	0.56	0.55	0.56
ViLT	0.55	0.56	0.55	0.54
VALOR	0.8194	0.7696	0.7251	0.6791

消融实验关键结果¶

配置	ACD Acc	SD Acc	ACD F1	SD F1
VALOR (完整)	81.94%	72.51%	76.96%	67.91%
CoT (无Validation)	73.74%	62.62%	70.44%	52.84%
Transformer专家+Validation	77.08%	63.98%	70.24%	60.24%
MLP专家+无Validation	70.43%	57.35%	63.82%	48.55%

Validation MoE带来 +8.2% Aspect准确率提升（73.74%→81.94%）。

人工评估（200样本，Win-Loss-Draw）¶

VALOR vs Gemma-3: Aspect胜率42.3%/负率18.7%，Severity胜率38.5%/负率22.1%

亮点¶

端到端多模态投诉理解：首次在多轮对话场景中融合文本+视觉的细粒度投诉分析
双阶段验证-预测架构：Phase 1的CoT专家做预测，Phase 2的验证专家做质量保证，显著提升可靠性
三重度量评估体系：Alignment/Dominance/Complementarity三个维度评估专家行为，增强可解释性
可学习语义对齐分数：动态SAS优于静态cosine相似度，自适应调节跨模态权重
新数据集CIViL：2,004段标注对话+4,478张图片，填补多模态对话投诉理解的数据空白

局限与展望¶

数据规模有限：仅2,004段Apple Support对话，领域覆盖单一
类别不均衡严重：Software类占82.9%（1,662/2,004），Price仅23例，影响泛化
计算成本高：使用4个DeepSeek-6.7B作为CoT专家+2个验证专家，部署成本较高
图像-对话匹配非原生：视觉证据是通过CLIP匹配后爬取的，非对话中真实嵌入
仅支持英文：未涉及多语言场景
严重度主观性：用户语气差异导致模型低估或误分类Severity级别

与相关工作的对比¶

vs ABSA方法：传统ABSA仅分配情感极性，VALOR做细粒度Aspect+Severity联合分类
vs VisualBERT/ViLT：这些VLM缺乏专家路由和CoT推理能力，F1低约20个百分点
vs Gemma-3 (9B)：尽管参数量大，但缺乏验证机制和语义对齐，ACD准确率低12.94%
vs 标准MoE：CoT专家利用分步推理捕捉投诉细微语义，优于MLP/Transformer专家

启发与关联¶

验证-预测双阶段设计可推广至其他需要高可靠性的多模态分类任务
三重度量体系（Alignment/Dominance/Complementarity）提供了评估MoE专家质量的通用方法论
可学习SAS对齐分数的思路可应用于任何需要跨模态一致性评估的场景

评分¶

新颖性: ⭐⭐⭐⭐ — 多专家CoT+验证的双阶段架构在投诉分析领域首创
实验充分度: ⭐⭐⭐⭐ — 消融充分、人工评估完整，但数据集规模和领域覆盖有限
写作质量: ⭐⭐⭐ — 方法描述详尽但表述较冗长，符号系统复杂
价值: ⭐⭐⭐ — 实际应用价值明确，但计算成本和数据局限性制约推广