本文解读的是 ICASSP 2020 论文《MULTIMODAL LEARNING FOR CLASSROOM ACTIVITY DETECTION 》,作 者来自好未来 。
作者 | 李 航
编辑 | 丛 末
论文地址:https://arxiv.org/abs/1910.13799
1
研究背景
在教育领域,课堂活动检测(Class Activity Detection)一直是一个热门话题。自1980年开始就不断有人在这方面进行研究,之前已有研究证明,通过分析学生和老师在课堂中的行为,可以使人更容易注意到并纠正老师和学生在上课时犯的错误。通过这种方式,可以同时提升老师的教学技能和学生的学习效率。
目前大多数教学质量检测的方法都是基于高质量、细粒度的课堂活动记录来实现的,这些记录通常需要包括老师和学生的说话内容以及对应时间等信息。然而,除非同时让老师和学生都各自佩戴上独立的收声设备,如麦克风,否则课堂中老师和学生各自单独的活动记录是非常难以获取的。而实际上,大部分现有教室都只有单独的一个收声设备,只能获取课堂进行中包含多人说话混合的音频,这就使得相应的研究很难进行。
因此,基于上述背景,我们的研究团队根据实际课堂环境产出的多种模态的数据,使用了多模态注意力机制将多种模态的数据进行结合,提出了一种先进的可以通过课堂混合音频来提取课堂活动信息的方法。
具体而言,我们使用课堂录音及其自动转录出的文本,将它们视作两种模态的数据,并将这两种模态的数据通过多模态注意力机制进行结合,充分发挥各自的优势,达到准确判断课堂录音中的每句话的相应说话人角色的目的。并且,不同于部分研究中需要预先录制授课老师声纹数据用于分离老师说话部分的方法,我们设计的方法完全实现从教室录音设备到最终结果的端到端课堂活动检测。
2
预备知识
1、问题定义
给定 为一节课堂录音切分出的片段序列,记为 ,其中 表示这节课中的第 i 句对话,N 表示这节课的总对话数。令 表示对应的标签序列,记为 ,其中 表示每个音频片段的说话人是学生还是老师。对于每个片段,我们提取它的音频特征 和文本特征 。 和 分别表示两种特征的维度。令 和 表示片段序列的音频特征和文本特征,其中 。结合上文提到的课堂活动检测任务的内容,我们现在可以将此任务定义为一个序列标注问题:
给定一个课堂录音片段序列及其对应的音频特征和文本特征,我们的目标是找到最有可能的课堂活动类别序列 :
其中 Y 为所有可能的标签序列。
2、相关工作
通过课堂音频或者视频对于老师和学生的课堂行为研究具有很长的历史,例如,Owens[1]等人提出了DART系统(Decibel Analysis for Research in Teaching),用来分析预测课堂中花费在单独说话(如:演讲),混合说话(如:讨论)或者无人说话(如:思考问题)等活动上的时间。Cosbey[2]等人通过使用RNN网络对DART系统的表现进行了提升。Mu[3]等人提出了ACODEA框架(Automatic Classification of Online Discussions with Extracted Attributes)用来对在线讨论进行全自动的切割和分类。
与我们的研究最相似的,是Wang[4]等人提出的LENA系统,他们基于此系统对课堂中的三种活动进行了识别:教师讲课、课堂讨论以及学生小组活动。我们与Wang等人的研究的不同之处在于:我们提出了一种全新的多模态注意力机制,用于在真实课堂环境中进行课堂活动检测。而Wang等人的研究仍然需要教师全程佩戴LENA系统,从而可以通过音量与音色的差异来区分学生和老师的说话时间段。
对于本文定义的目标任务,一种简单直观的方法是将说话人分离与说话人角色识别作为两个独立的模型,采用两阶段结合的方式进行连接。这也是在已有研究中被实践且证实有效的方法。然而,这种两阶段方法存在着一些明显的弊端:首先,不同阶段的模型所产生的误差会在整个预测流程中进行积累,导致最终结果的不准确;其次,两个独立任务分别优化是非常缺乏效率的,单一阶段的优化并不能完全保证最终结果的提升;最后也是最重要的,由于两个阶段的分离,多模态信息之间的交互被完全忽略了。
3
技术细节
1、数据描述
图1(a):课堂活动检测数据形式
在正式开始介绍我们的方法之前,首先描述一下本文实验所基于的数据形式。首先,我们的音频数据均来源于教室内单一的麦克风,收录了整节课堂的完整录音。我们的文本数据来源于使用自动语音识别(ASR)系统对麦克风收录得到的课堂录音进行转录得来。图1(a)中展示了一段学生与老师的对话数据,图中文本框的颜色区分了不同的说话人,蓝色文本框表示老师说话内容,黄色文本框表示学生说话内容。从图中我们可以看出,对话的内容包含大量的信息,其中一些句子可以非常容易的分辨出说话人的角色。以第三个句子为例,该说话人说:“How is your day in school”,从句子的内容可以很容易的判断出该说话人应该是老师。然而,并不是所有的句子都像这样容易判断,比如图中对话的前两句问候语句,很难分辨出说话人是老师还是学生。
图1(b):课堂活动检测数据形式
为了解决这些通用对话内容造成的说话人角色难以分辨的问题,我们想到了使用同一说话人所说的其他具有角色特点的语句一同帮助进行判断,如图1(b)中所示。举例来说,图中展示的第一句对话很难分辨出说话人角色,但如果我们知道第一句话与第三句话属于同一个人说的,那我们可以很轻易的判断出第一句话也是老师所说。至于如何判断出第一句话与第三句话属于同一个说话人所说,则需要从音频信息入手,通过两句话的说话人音色的相似度进行判断。在这里,音频信息的作用像是一座桥梁,将同一说话人的对话信息连接整合到了一起使它们易于判断。
2、模型结构
图2:(a) 整体模型结构 (b) 多模态注意力层
模型整体结构如图2(a)中所示,主要包含3个部分:1、特征提取层,用于提取单个模态的特征;2、多模态注意力层,用于混合两个模态的信息;3、输出层,用于最终输出判断每句话的说话人角色。
1)特征提取层
本文所使用的文本数据与音频数据均是来源于完整的课堂数据,并且使用ASR的VAD(Voice Activity Detection)模块切分得到句子级别的数据()。文本特征()和音频特征()来源于两个事先预训练得到的编码器。音频特征的编码器为使用GE2E[5]在大量不同说话人音频数据上训练得到,用于将一段音频信号编码为一个特征向量;文本特征来源于使用word2vec在大量课堂录音经过ASR转录得到的文本上训练的词向量,通过Mean-Pooling层,将一句文本编码为一个特征向量。因此,对于课堂录音中的每一句话i,我们通过不同的预训练编码器,从音频与文本两个方面提取了句子在不同模态下的特征信息。
2)多模态注意力机制
在得到每句话的文本特征向量与音频特征向量之后,将它们输入进一个多模态注意力层,如图2(b)中所示。我们令 ,其 中Q、K和V是经典自注意力机制(self-attention)中的Query、Key和Value; 。注意力权重矩阵 通过Q与K的点乘结果经过softmax归一化计算得到。最后,多模态混合表征 H,通过A与V的点乘计算得出,完整的公式如下:
将混合表征( )与每句话的文本特征( )拼接后( )输入一个BiLSTM网络,用于引入整堂课的上下文信息。最后将BiLSTM的输出经过一个全连接层之后输出预测该句话的说话人是老师还是学生。
3)注意力正则项
图3:注意力正则项
为了使得多模态注意力机制能够更好的发挥作用,更加准确的预测相同说话人的音色相似度,我们设计了一个注意力正则项来对不同说话人的音频之间的注意力权重进行惩罚,如图(3)中所示。具体来说,在3.2.2的多模态注意力机制中,注意力权重矩阵表示了整堂课所有切分出的句子两两之间的说话人音色相似度,我们约束注意力矩阵中对应不同说话人的音色相似度的项越小越好:
(1)
其中, 代表了本节课中切分出的第 i 句话与第 j 句话。
4)训练损失函数
本文所提出的模型的训练损失函数包含两个部分,第一个部分是标准的二分类交叉熵(BCE)损失:
(2)
第二个部分则是(1)式中的注意力正则项,将两项相加就得到了最终的损失函数:
(3)
其中为超参数,用来控制注意力正则项所占的比重。
4
实验
表1:线上课堂与线下课堂测试集上的实验结果, 与 分别表示学生与老师的 指标
本文实验中,我们收集了两种类型的数据用于实验,分别来源于线上课堂与线下课堂。线上课堂数据包含400节来源于第三方平台的线上课堂,线下课堂数据包含50节来源于线下教室的监控设备收录的课堂数据。每节课的数据如3.2.1中所说,按照ASR的VAD模型剔除静音片段,将包含人声的部分切分为以句为单位的小片段,每个片段的标签为老师或学生。对于那些包含多人混合说话的片段,我们将其标注为片段中主要说话人的角色。
我们使用线上课堂数据中的350节课作为训练集,包含大约350个小时的音频与对应的ASR转录文本,并使用剩下的50节线上课程与全部50节线下课程数据作为测试集。
为了证明我们的方法的有效性,我们设置了一系列的baseline模型用于对比实验,实验结果如表1中所示。
表中前4个模型,我们将模型的输入从多模态输入改变为单一模态输入,并尝试了不同的模型结构, 用于验证我们的多模态结合方法的有效性。其中第1与第3个模型为分别使用了单一音频与文本特征的BiLSTM模型;第2与第4个模型为分别使用音频与文本特征的结合了传统注意力机制的BiLSTM模型。
表中第5个模型将3.2.2中的多模态注意力机制改为了将两个模态的特征简单拼接,用于验证我们设计的多模态注意力机制的有效性。
表中第6与第7个模型使用了2.2中最后一段提到的两阶段模型,并选用了不同类型的第一阶段说话人分离模型,用于对比验证我们设计的端到端模型的有效性。第6个模型为使用了谱聚类模型[6]作为第一阶段模型,对同一说话人片段进行聚类后输入给第二阶段模型进行角色分类;第7个模型为使用了UIS-RNN[7]作为第一阶段的说话人分离模型。这两种模型分别代表了不同时间段内的SOTA模型。
从表中可以看出,我们设计的端到端多模态注意力模型在线上课堂与线下课堂测试集上都超过了所有baseline模型,显示了该模型的优越性。
参考文献:
[1] Melinda T Owens, Shannon B Seidel, MikeWong, Travis E Bejines, Susanne Lietz, Joseph R Perez, Shangheng Sit,ZahurSaleh Subedar, Gigi N Acker, Susan F Akana, et al.,“Classroom sound can beused to classify teaching practices in college science courses,” Proceedings ofthe National Academy of Sciences, vol. 114, no. 12, pp. 3085–3090, 2017.
[2] Robin Cosbey, Allison Wusterbarth, andBrian Hutchinson, “Deep learning for classroom activity detection from audio,”in ICASSP. IEEE, 2019, pp. 3727–3731.
[3] Jin Mu, Karsten Stegmann, ElijahMayfield, Carolyn Rose, and Frank Fischer, “The acodea framework: Developingsegmentation and classification schemes for fully automatic analysis of onlinediscussions,” International Journal of Computersupported CollaborativeLearning, vol. 7, no. 2, pp. 285–305, 2012.
[4] Zuowei Wang, Xingyu Pan, Kevin FMiller, and Kai S Cortina, “Automatic classification of activities in classroomdiscourse,” Computers & Education, vol. 78, pp. 115–123, 2014.
[5] Li Wan, Quan Wang, Alan Papir, andIgnacio Lopez Moreno, “Generalized end-to-end loss for speaker verification,”in ICASSP. IEEE, 2018, pp. 4879–4883.
[6] Quan Wang, Carlton Downey, Li Wan,Philip Andrew Mansfield, and Ignacio Lopz Moreno, “Speaker diarization withlstm,” in ICASSP. IEEE, 2018, pp. 5239–5243.
[7] Aonan Zhang, Quan Wang, Zhenyao Zhu,John Paisley, and Chong Wang, “Fully supervised speaker diarization,” inICASSP. IEEE, 2019, pp. 6301–6305.
来源:oschina
链接:https://my.oschina.net/u/4394698/blog/4325011