手机网站一般宽度做多大的,云虚拟主机 wordpress,公众号排名优化,仕德伟做的网站图片怎么修摘要
在对话系统中#xff0c;具有相似语义的话语在不同的语境下可能具有不同的情感。因此#xff0c;用说话者依赖来建模长期情境情绪关系在对话情绪识别中起着至关重要的作用。同时#xff0c;区分不同的情绪类别也不是很简单的#xff0c;因为它们通常具有语义上相似的…
摘要
在对话系统中具有相似语义的话语在不同的语境下可能具有不同的情感。因此用说话者依赖来建模长期情境情绪关系在对话情绪识别中起着至关重要的作用。同时区分不同的情绪类别也不是很简单的因为它们通常具有语义上相似的情绪。为此我们采用监督对比学习使不同的情绪相互排斥从而更好地识别相似的情绪。同时我们利用一个辅助反应生成任务来增强模型处理上下文信息的能力从而迫使模型在不同的上下文中识别具有相似语义的情绪。为了实现这些目标我们使用预先训练好的编码器-解码器模型BART作为我们的主干模型因为它非常适合于理解和生成任务。在四个数据集上的实验表明我们提出的模型在对话情绪识别方面比现有的模型获得了更有利的结果。消融研究进一步证明了监督对比损失和生成损失的有效性。
介绍
随着个人智能终端技术和社交网络的发展和普及构建一个能够理解用户情绪和意图并进行有效对话互动的对话系统的重要性显著增加。对话系统中的一个关键模块是自然语言理解模块它可以分析用户的行为如意图或情绪。利用上下文关系分析用户情绪是简单情绪分类任务的一个高级步骤更适合于现实世界中的使用场景具有更多的研究价值。对话中的情感识别ERC的任务是为具有语境关系的历史对话中的所有话语分配情感标签。同时每个历史对话都包含了多个不同说话者之间的交互如图1所示。 ERC面临着三个挑战。
(1)第一个挑战是每一个话语的情绪都可能会受到上下文信息的影响。例如特定的情绪将取决于上下文的某些话语。同时具有相同表达方式的话语在不同的语境中可能有完全不同的情绪。因此有效地建模上下文依赖和说话人依赖是区分该任务与传统情绪分类的主要因素。(2)第二个挑战是每个说话者的情绪都会受到谈话中其他说话者的话语的影响所以说话者的情绪可能会发生突然的变化。(3)第三个挑战在于语义上相似但不同的情绪类别比如“沮丧”到“悲伤”“快乐”到“兴奋”等等。很难区分这些语义上相似的情绪类别。
最近的相关工作使用各种图网络解决上下文依赖和说话者关系(Shen等2021bGhosal等2019年石谷等2020年Sheng等2020年。然而随着层数的加深过度平滑的现象开始出现Chen et al. 2020a开始出现导致类似情绪的表现难以区分。
这项工作通过更好地建模上下文和说话者信息和辅助生成任务来处理上述挑战。
首先我们引入了一个对话级TransformerVaswani et al. 2017层来建模话语之间的长期上下文依赖关系。一个预先训练过的语言模型捕捉了每个话语的表示。与以往仅采用预先训练好的模型作为特征提取器Liu et al. 2019并将提取出的特征作为下游图网络的节点表示的方法相比纯Transformer结构做出的先前结构假设更少Lin et al. 2021。
其次我们采用监督对比学习SCLKhosla et al. 2020来缓解相似情绪分类的困难在充分利用标签信息的情况下使具有相同情绪的凝聚和不同情绪的样本互斥。与有噪声标签的交叉熵损失相比有监督的对比损失可以提高训练的稳定性提高模型的泛化性Gunel et al. 2021。与常规的SCL不同我们复制一批中所有样本的隐藏状态并分离其梯度作为它的多视图表示。原因是现有ERC数据集中的类别高度不平衡有些类别可能存在于一个只有一个样本的批次中。如果只使用原始的SCL它将导致不正确的损失计算。
第三我们引入了一个辅助响应生成任务以增强ERC捕获上下文信息的能力。对下一句话语的预测使模型充分考虑了上下文的依赖性从而迫使模型在识别对话中的情绪时考虑上下文中的信息并依赖于当前的话语本身。此外通过在说话前直接将说话者拼接起来作为说话者信息的提示说话者和话语之间的依赖关系得到了充分的建模并且没有额外的参数。
最后我们利用BARTLewis et al. 2020一个预先训练过的具有编译码器结构的Transformer作为我们的骨干模型并通过对比和生成损失来增强它。我们提出的协同约束和生成增强的BARTCoG-BART在四个ERC数据集上与基线模型相比获得了最先进的结果。此外消融实验和案例研究证明了对比损失和生成损失在ERC任务中的有效性。
综上所述我们的主要贡献可以总结如下
据我们所知我们首次在ERC中使用监督对比学习显著提高了模型区分不同情绪的能力。通过将响应生成作为辅助任务当涉及到某些上下文信息时ERC的性能得到了提高。我们的模型很容易实现因为它不依赖于外部资源比如基于图的方法。
方法
问题定义
在对话情绪识别中数据由多个对话{c1、c2、···、cN }组成每个对话由多个话语[u1、u2、··、]和情绪标签Yci {y1、y2、···、ym}∈S组成其中y表示情绪类别。对于一个话语它由几个tokenut[wt、1、wt、2、····、wt、n]组成。对话中的每一句话都由一个说话者说可以用pci(pu1、·、pui、·、pum和pui∈P表示其中P表示说话者的类别或名称。因此整个问题可以表示为在一段对话中根据上下文和说话者信息获取每个话语的情感标签 Yci fcipci。
针对ERC的监督对比学习
话语编码
为了模拟说话者和话语之间的依赖关系对于对话中的某个话语我们在话语之前拼接说话者的名字或类别。在使用说话人信息的标记话语后我们得到 其中,和被视为特殊的标记来表示话语的开始和结束。然后是将标记化后的token序列输入到BART的共享嵌入层获取话语中每个标记的隐藏状态然后将其发送给BART的编码器和解码器。将Ht发送到BART后获得当前话语的表示
对话建模
由BART-Model获得的表示Ht进行最大池化以获得话语的聚合表示如下 为了建模对话的历史上下文信息我们利用对话级TransformerVaswani et al. 2017层作为上下文编码器。多头注意力机制可以在多轮对话中捕捉不同对话之间的交互作用并聚合不同的特征得到最终的隐式表征从而充分建模不同话语和语境关系之间的复杂依赖关系。对于一个语境中的所有话语对话ˇhj、ˇhk中两个不同话语之间隐藏状态的多头注意得分可以通过以下公式计算 因此通过上述对话级Transformer可以获得建模上下文依赖性的话语表示
监督对比学习
监督对比学习假设一些关键方面得到注意当在预训练模型上进行微调时允许小样本学习更稳定Gunel et al. 2021。典型的对比学习只使用一对正样本而所有其他的样本都被视为负样本。监督对比学习通过充分利用标签信息将该批中所有具有相同标签的例子视为正样本。
对于ERC某些数据集中每个类别的样本数量Li et al. 2017是高度不平衡的而监督对比学习在计算损失时会掩盖自己。如果批中某个类别只存在一个样本则不能直接用于计算损失。因此通过复制话语Hd-win的隐藏状态得到-Hd-win并分离其梯度。并且参数优化保持稳定。
对于有N个训练样本的批次每个样本采用上述机制进行操作获得多视图2N个样本那么一个批次中所有样本的监督对比损失可以用下式表示
辅助响应生成
为了便于模型在确定话语情绪时考虑更丰富的上下文信息模型需要在给出当前话语ut的情况下生成其后续话语ut1。ut1中每个token的输出隐藏状态由BART解码器按顺序生成。
模型训练
模型训练的损失包括三个部分上下文建模中通过多层感知器得到的隐藏状态Hd-win以获得计算交叉熵损失。另一部分是有监督的对比损失和响应生成的损失。损失是三个分量的加权和它们的权重的和等于1。CoG-BART的总体框架如图2所示。
实验设置
本节将详细介绍实验中采用的数据集、基线模型、实验条件和参数设置。
实验设置
BART的代码框架和初始重量来自于拥抱脸的变形金刚Wolf et al. 2020。应用于模型训练的优化器是一个线性计划的热身策略。本实验调整的参数包括批大小、学习率、预热率、α和β。我们通过保留的验证集对模型训练进行了超参数搜索。测试集上的结果来自于验证集中的最佳检查点我们对来自5个不同的随机种子的得分取平均值。所有实验均在GeForce RTX 3090 GPU上进行。
数据集
四个基准数据集MELDPouria等人2019年、EmoryNLPZahiri和Choi2018年、每日对话框Li等人2017年和IEMOCAPBusso等人2008年用于与基线模型进行比较。
四个数据集的详细统计数据如表1所示其中“#Dial”表示train/dev/tese/中对话的数量“#Utter”表示对话中所有话语的数量“#CLS”表示每个数据集的情绪类别数量。
指标
对于MELD、EmoryNLP和IEMOCAP我们采用加权平均f1作为评价指标。由于“中性”在DailyDialog中占多数我们采用micro-F1作为该数据集的评价指标我们在计算结果时忽略了“中性”的标签Zhu等2021Shen等2021b。
结果与分析
表2和表3记录了四个数据集上CoG-BART与基线模型的比较结果。 在基于序列的模型及其变体中所选的基线模型包括BERTDevlin等2019年、RoBERTaLiu等2019年、HiTransLi等2020年、DialogXLShen等2021年a和XLNet (Yang等2019年。在MELDPoria等人2019年中CoG-BART比之前最先进的bart大有大约1.24%的改进Lewis等人2020年。 对于基于图的模型列出了KET钟、王、苗2019)、RGAT石谷等2020)、 DialogGCNGhosal等2019)、 DialogCRN胡、魏、淮2021)、COSMIC对话等2020)和DAG-ERCShen等2021b。 与基于图的模型相比CoG-BART比COSMIC提高了0.53个点Ghosal et al. 2020。值得注意的是COSMIC使用RoBERTa-large作为特征提取器而CoG-BART只采用BART-large骨干结构获得竞争结果这表明在 MELD 中对有效模拟上下文之间依赖关系的预训练模型进行充分的知识转移也能获得可喜的结果。 我们可以从EmoryNLPZahiri和Choi 2018的结果中观察到使用预先训练的模型作为特征提取器的基于图的模型总体上比仅使用预先训练的模型作为主干网络的模型效果更好。同时CoG-BART仍取得了显著的改进效果。此外与基于预训练的模型相比基于图的模型可以在 IEMOCAP上获得更高的F1值Busso et al. 2008。