对话GCN:对话中情感识别的图卷积神经网络
绪论
会话中的情感识别(ERC)最近受到了研究者的广泛关注,因为它在医疗,教育和人力资源等各个领域都有潜在的广泛应用。 在本文中,我们介绍了对话图卷积网络(DialogueGCN),这是一种基于图神经网络的ERC方法。 我们利用对话者的自我和说话者之间的依存关系来为情感识别建模会话上下文。 通过图网络,DialogueGCN解决了当前基于RNN的方法中存在的上下文传播问题。 我们凭经验表明,这种方法可以缓解此类问题,同时在许多基准情感分类数据集上的表现要优于当前水平。
1 引言
几十年来,情绪识别一直是一个活跃的研究主题(K. D’Mello等,2006; Busso等,2008; Strapparava和Mihalcea,2010)。 然而,最近在社交媒体平台(例如Facebook,Twitter,Youtube和Red dit)上开放式对话数据的激增引起了热烈的关注(Poria等人,2019b; Majumder等人,2019; Huang等人。 (2019年),从研究人员转向对话中的情感识别(ERC)。 不可否认,ERC在情感对话系统(如图1所示)中也很重要,在这种对话中,机器人可以理解用户的情绪并产生连贯和移情反应的情绪。
图1:情感对话的插图,其中情感取决于上下文。 健康助手了解用户的情感状态,以生成情感和移情反应
有关ERC的最新工作是使用递归神经网络(RNN)按顺序处理对话的构成话语。 图2(Poria et al。,2019b)中说明了这种方案,该方案依赖于将语境和顺序传播到话语中。 因此,我们将对话提供给双向门控循环单元(GRU)(Chung等,2014)。 但是,与大多数当前模型一样,由于在基准数据集中缺乏对这些方面的关注,因此我们也忽略了意向模型,主题和个性。 从理论上讲,像长期短期记忆(LSTM)(Hochreiter and Schmidhuber,1997)和GRU之类的RNN应该传播长期的上下文信息。 然而,实际上并非总是如此(Bradbury et al。,2017)。 这会影响基于RNN的模型在包括ERC在内的各种任务中的效率。
为了缓解此问题,最新技术的某些变体DialogueRNN(Ma jumder et al。,2019)采用注意力机制,根据目标话语汇集来自整个或部分对话的信息。但是,这种集合机制在话语的形成以及目标话语中其他话语的相对位置中不考虑说话者。说话者信息对于提高说话者之间的依存关系是必需的,这使模型能够了解说话者如何致使其他说话者的情绪变化。同样,通过扩展,说话者内部或自我依赖可以帮助理解个体说话者惯性的情绪模型,在这种情况下,说话者抵制外部影响而抵制自己情绪的变化。另一方面,对目标和上下文话语相对位置的考虑决定了过去话语如何影响未来话语,反之亦然。虽然过去的话语会影响未来的话语是很自然的,但相反的过程可能会帮助模型填充一些相关的缺失信息,这是说话者背景知识的一部分,但会在以后的对话中明确出现。我们通过构建图来对会话进行建模来利用这两个因素。图中的节点表示各个话语。一对节点/话语之间的边表示这些话语的说话者之间的依存关系,以及它们在会话中的相对位置。通过将此图馈送到图卷积网络(GCN)(Defferrard et al。,2016),该图卷积网络由两个连续的卷积运算组成,我们在远距离语音之间传播上下文信息。我们推测,与DialogueRNN相比,这些表示具有与情感相关的更丰富的上下文。这在第5节中有经验地显示。
图2:对象A和对象B之间的二元对话期间不同控制变量之间的交互。灰色和白色圆圈分别表示隐藏变量和观察到的变量。 P代表个性,U代表话语,S代表对话者的状态,I代表对话者的意图,E代表情感,Topic代表对话的话题。可以很容易地扩展到多方对话。
本文的其余部分按以下顺序组织:第二部分简要讨论了有关ERC的相关工作; 第三节详细介绍了该方法。 第4节列出了实验; 第5节显示并解释了实验结果; 最后,第六部分总结了论文。
2 有关工作
对话中的情感识别是自然语言处理中的热门研究领域(Kratzwald等人,2018; Colneric和Dem- sar,2018),因为其在广泛的系统领域(包括意见挖掘, 卫生保健,推荐系统,教育等。
然而,由于开源对话数据集可用性的提高,对话中的情感识别仅在过去几年中才引起研究人员的关注(Chen等人,2018; Zhou等人,2018; Poria等人。 ,2019a)。 还提出了许多用于多模式数据(即具有文本,声音和视觉信息的数据集)中的情绪识别的模型。 一些重要的著作包括(Po ria等人,2017; Chen等人,2017; Zadeh等人,2018a,b; Hazarika等人,2018a,b),其中基于深度学习的技术主要有 仅在文本和多模式设置中被用于对话中的情感识别。 当前对话中情感识别的最新模型是(Majumder等人,2019),作者在其中引入了基于政党状态和全局状态的递归模型来对情感动态进行建模。
图神经网络最近也非常流行,并已应用于半监督学习,实体分类,链接预测,大规模知识库建模以及许多其他问题(Kipf and Welling,2016; Schlichtkrull等。 ,2018; Bruna等,2013)。 图神经网络的早期工作包括(Scarselli等,2008)。 我们的图模型与(Schlichtkrull等人,2018)中引入的图关系建模工作密切相关。
3 方法
对话中情感识别的最重要策略之一是上下文建模。 我们确定了ERC中的两种主要上下文类型-顺序上下文和说话者级上下文。 继波里亚等。 (2017年),我们针对每个目标话语通过相邻的言语对这两种类型的上下文进行建模。
上下文的计算建模还应该考虑对话中对话者的情感动态。在二元和多方对话系统中,情感动力通常要受到两个主要因素的影响:说话者之间的依赖性和自我依赖性。说话者之间的依赖性是指说话者中产生的相互情感影响。这种依赖性与以下事实密切相关:在对话过程中,说话者倾向于反馈对方以建立融洽的关系(Navar retta等,2016)。但是,必须考虑到,并非所有参与者都会以相同的方式影响演讲者。每个参与者通常以独特的方式影响彼此。相反,自立性或情绪惯性处理的是说话者在谈话过程中对自己的情绪影响。对话中的参与者可能会由于自己的情绪惯性而坚持自己的情绪状态,除非对方发起改变。因此,在对话中,说话者之间的依赖性和自我依赖性之间总是存在着主要的相互作用。
我们推测,将这两种截然不同却又相关的上下文信息方案(顺序编码和说话者编码)组合起来,将会创建增强的上下文表示,从而更好地理解会话系统中的情感动力。
3.1问题的定义
假设在对话中有M个演讲者/参与者p1,p2,…pM。 任务是预测构成对话u1,u2,…,uN的情感标签(快乐,悲伤,中立,愤怒,兴奋,沮丧,厌恶和恐惧),其中对话ui由说话者ps(ui)发出的,而s是说话者与其对应说话者的索引之间的映射。 我们还将ui∈RDm表示为话语的特征表示,它是使用下面描述的特征提取过程获得的。
3.2 上下文无关的话语级特征提取
卷积神经网络(Kim,2014年)用于从语音记录中提取文本特征。 我们使用单个卷积层,然后是最大池化和一个完全连接的层,以获取话语的特征表示。 该网络的输入是300维预训练的840B GloVe矢量(Pennington等,2014)。 我们使用大小为3、4和5的过滤器,每个过滤器中都有50个特征图。 然后将卷积的特征最大合并为一个窗口大小为2的窗口,然后进行ReLU激活(Nair和Hinton,2010)。 然后将它们合并并馈入100维完全连接层,其激活形成话语的表示。 该网络在话语级上使用情感标签进行训练。
3.3 模型
现在,我们介绍用于对话设置中情感识别的“对话图卷积网络(DialogueGCN1)”框架。 DialogueGCN由三个组成部分组成-顺序上下文编码器,说话者级上下文编码器和情感分类器。 所提出框架的总体架构如图3所示。
3.3.1 顺序上下文编码器
由于对话本质上是顺序的,因此上下文信息沿该顺序流动。 我们将对话馈送到双向门控的当前单元(GRU),以捕获此上下文形式:,其中i = 1、2。 。 。 N,其中ui和gi分别是上下文无关和顺序的上下文感知话语表示。
由于话语的编码与讲话者无关,因此这种初始编码方案与讲话者无关,这与现有技术Dia LogueRNN(Majumder等,2019)相反。
3.3.2 说话者级上下文编码器
我们以图形网络的形式提出说话者级上下文编码器模块,以捕获对话中与说话者相关的上下文信息。 有效地对说话者级别的上下文进行建模需要捕获参与者之间的相互依赖性和自依赖性。 我们从顺序编码的语音中设计一个有向图,以捕获参与者之间的这种交互。 此外,我们提出了一种基于局部邻域的卷积特征变换过程,以创建丰富的说话者级别的上下文编码特征。 此处详细介绍了该框架。
首先,我们引入以下表示法:具有N言语的会话表示为有向图G(V,E,R,W),顶点/节点vi∈V,标记的边(关系)rij∈E其中r ∈R是介于vi和vj之间的边的关系类型,αij是标记边rij的权重,其中0⩽αij⩽1,其中αij∈W和i,j∈1,2,…, N]。
图形构造:通过以下方式从话语构造图形
顶点:对话中的每个话语都表示为G中的顶点vi∈V。对于所有i∈1、2,…,N],每个顶点vi都使用相应的顺序编码特征向量gi进行初始化。 我们将此向量表示为顶点特征。 当将基于邻域的转换过程应用于说话者级别的上下文进行编码时,顶点特征可能会在下游发生变化。
边:边E的构造取决于要建模的上下文。 例如,如果我们假设每个话语(顶点)在上下文中都依赖于对话中的所有其他话语(在对说话人的水平进行编码时),那么将构建一个完全连接的图。 也就是说,每个顶点都通过一条边连接到所有其他顶点(包括自身)。 但是,这导致边的数量为O(N2),这对于具有大量顶点的图在计算上非常昂贵。 一个更实际的解决方案是通过保持过去的上下文窗口大小为p和将来的上下文窗口大小为f来构造边。 在这种情况下,每个话语顶点vi都有一个边,这些边具有过去的话语:vi-1,vi-2,… vi-p,将来的话语:vi + 1,vi + 2,…vi + f及其本身:vi。 对于本文中的所有实验,我们考虑过去的上下文窗口大小为10,将来的上下文窗口大小为10。
如图所示,两个顶点可以在两个方向上具有不同关系的边。
边权重:使用基于相似度的注意力模块设置边权重。 注意函数的计算方式是,对于每个顶点,输入的一组边的总权重为1。考虑过去的上下文窗口大小为p,将来的上下文窗口大小为f,权重计算为
这确保了顶点vi的传入边具有顶点vi-p,…。 。 。 ,vi + f(作为话语者级别的上下文)获得的总权重贡献为1。
关系:边rij的关系r取决于两个方面:
说话者依存关系—关系取决于构成顶点的说话者:ps(ui)(vi的说话者)和ps(uj)(vj的说话者)。
时间依赖关系-这种关系还取决于会话中ui和uj出现的相对位置:ui是在uj之前还是之后发出。 如果对话中有M个不同的讲话者,则图G中最多可以有M个(ui的讲话者)* M(uj的讲话者)* 2(ui在uj之前或之后出现)= 2M2个不同关系类型r。
对话中的每个说话者都会受到彼此唯一的影响,因此,我们假设在图表中明确声明这种关系边将有助于捕获游戏中说话者之间的相互依赖性和自相关性。 继承将促进说话者级别的上下文编码。
作为说明,让两方p1,p2参与具有5个发声的二元对话,其中u1,u3,u5由p1管控,u2,u4由p2管控。 如果我们考虑一个完全连接的图,则将按照表1所示构造边和关系。
特征转换:我们现在开始描述使用图网络转换顺序编码的特征的方法。 顶点特征向量(gi)最初是独立的说话者,然后使用两步图卷积过程转换为说话者相关的特征向量。 这两种转换都可以理解为基本可区分消息传递方法的特殊情况(Gilmer等人,2017)。
第一步,使用特定于关系的转换,通过汇总局部邻近信息(在这种情况下,过去和将来上下文窗口大小指定的邻居),为顶点vi计算一个新的特征向量h(1)i。 灵感来自(Schlichtkrull等人,2018):
其中,αij和αii是边权重,Nri表示关系r∈R下顶点i的相邻索引。ci,r是问题特定的归一化函数,可以预先设置,因此 或可以在基于梯度的学习设置中自动学习。 σ是激活函数,例如ReLU,W(1)r和W(1)0是转换的可学习参数。 在第二步中,将基于本地领域的另一个变换应用于第一步的输出,其中,W(2)和W(2)0是这些变换的参数,而σ是激活函数。
等式(2)和(3)的这种转换栈有效地累积了局部邻域(邻域的特征)的归一化总和,即图中每个话语的邻域说话者信息。 自连接可确保自相关特征转换。
情感分类器:上下文编码的特征向量gi(来自顺序编码器)和h(2)i(来自说话者级编码器)被级联,并且基于相似度的注意力机制被应用于获得最终的话语表达:
最后,使用完全连接的网络对话语进行分类:
表1:ps(ui)和ps(uj)表示说话者ui和uj。 对话中2个不同的话语人表示2 * M2 =2 * 22 =8个不同的关联类型。 最右边的列表示具有最左边的列表示的关系类型的构成边的顶点的索引。
训练设置:我们使用分类交叉熵和L2正则化作为训练期间的损失(L)度量:
其中N是样本/对话的数量,c(i)是样本i中话语的数量,Pi,j是对话的话语j的情感标签的概率分布,yi,j是话语的预期类别标签 对话框i的j,λ是L2稳压器权重,θ是所有可训练参数的集合。 我们使用了基于随机梯度下降的Adam(Kingma and Ba,2014)优化器来训练我们的网络。 使用网格搜索对超参数进行了优化。
4训练设置
4.1 训练数据集
本文使用IEMOCAP(2008),AVEC(2012) ,MELD(2019)三种数据集,进行训练。
下表为三种数据集的对话数量,话语数量。
其中IEMOCAP,AVEC没有划分训练集和验证集,本文就使用训练集10%作为验证集。
4.2 基准模型
基准模型共有以下几种:CNN(2014) ,Memnet(2015),c-LSTM(2017),c-LSTM+Att(2018),CMN(2018),ICON(2018),DialogueRNN(2019).
以下是AVEC数据集和MELD数据集的效果图
下表是顺序编码和说话者级别编码各种组合之后的数据
下表是说话者依赖关系和时间依赖关系的各种组合数据
5.5 对出现的错误进行分析
我们分析了预测的情绪标签,发现错误分类通常是类似的情绪类别。 在混淆矩阵中,我们观察到我们的模型将“沮丧”的几个样本误分类为“愤怒”和“中立”。 这是由于沮丧和愤怒之间的细微差别。 此外,我们还观察到类似的“兴奋”样本误分类为“快乐”和“中性”。 我们在实验中使用的所有数据集都是多峰的。 几句话,例如“好。 是的,带有非中性情绪的人被归类为错误的,因为我们在实验中没有利用音频和视觉方式。 在这种话语中,我们发现了音频和视频(在本例中,高音调和皱着眉头的表情)形式,提供了关键信息来检测潜在的情感(在上述话语中感到沮丧),而DialogueGCN只是无法理解 看文本的上下文。
6 结论
在这项工作中,我们提出了对话图卷积网络(DialogueGCN),该模型可以改善相互之间和自身的依存关系,从而改善上下文理解,从而在对话中进行话语级情感检测。 在三个基准ERC数据集上,DialogueGCN的表现明显优于强大的基准和现有技术水平。 未来的工作将着重于将多模式信息纳入DialogueGCN,说话者级情感转移检测以及对话情感推理的概念基础。 我们还计划在对话系统中使用Dia logueGCN生成情感响应。
来源:CSDN
作者:永远的小白虾
链接:https://blog.csdn.net/qq_41487299/article/details/104238476