sSD

ε祈祈猫儿з 提交于 2019-12-02 06:50:41

论文笔记—Linguistic Features Identify Alzheimer's Disease in Narrative Speech

作者:Kathleen C. Fraser, Jed A. Meltzer and Frank Rudzicz

单位:University of Toronto

出版时间:2015

出版刊物:Journal of Alzheimer’s Disease

1. Introduction

(1)人口老龄化社会,AD的发生率不断增加;

(2)口语代表着一个人的认知状态,对口语进行手工量化分析很费时间,且受到人的主观影响;

(3)计算语言学的发展使自动分析口语和书面语来区分AD患者和正常人成为可能,甚至疾病的具体种类;

(4)内侧颞叶导致的记忆损伤是AD患者的独有特征,但语言问题也是另一大特征;

(5)AD患者经常表现出命名障碍,随着疾病的发展,语言的所有方面都会受到影响,从语义到语法,再到音韵学;

(6)目标一:使用机器学习方法测试口语样本的分类精度;

(7)目标二:使用探索性因子分析法分析AD患者语言损伤的异质性;

(8)与前人工作的不同之处:使用了更大的样本;使用了更多的特征;使用因子分析法刻画异质性的模式;


2. Materials and Methods

2.1 Materails

(1)数据集:pitt corpus

(2)数据集来源:DementiaBank
corpus

(3)数据集的详细信息:

  • 测试者让被试人员描述一张黑白图片里面的内容,如下图所示:

    图1 cookie theft
  • 这些数据由人工根据TalkBank CHAT (Codes for the Human Analysis of
    Transcripts) 协议转录而成;

  • 整个pitt corpus数据集里面的dementia-cookie样本有309个,即患病样本,control-cookie样本有242个,即正常样本;具体样本如下:

图2 control-cookie

图3 dementia-cookie
  • 作者使用了167个参与者产生的240个AD或probable AD样本,97个参与者产生的 233个正常样本;

  • 所有参与者的年龄在44岁以上,至少受过7年的教育,没有神经系统疾病史或服用过神经类药物,简易精神量表(MMSE)的初始得分为10或更高,并能给与知情同意,具体信息如下:

图4 人口统计学习学信息
  • 缺陷:dementia组与control组的年龄和教育经历不匹配;

(4)作者只保留了单词级的转录和口语句子边界切分信息,丢弃了形态学分析、不流畅注释和其他相关信息,这一做法是为了避免使用人为标记的信息;

(5)在进行词性标注前,作者对文本内容进行了一些处理,具体如下:

  • 去掉了单词中以少于两个字母开头的部分。如c-cookie jar变为cookie jar;
  • 去掉了文本中的填补停顿符号,主要有uh, um, erh和ah,如The um um boy 将会变成 The boy;
  • 保留了不流畅的部分,如重复、 修正,、言语错乱和对任务的评论;

(5)作者同时使用了每个文本所附带的语音数据进行词汇和声学分析;

2.2 Methods

作者选取了370多个特征进行分析,下面选取了几个主要的特征进行介绍;

2.2.1 词性(part-of-speech)

(1)AD会影响病人的语言,这一变化可以通过语言中的词性来衡量,具体影响如下:

  • 影响代词和动词的使用数量;
  • 名词比例的下降,代词比例、形容词比例和动词比例的升高;

(2)作者使用Stanford tagger提取词性信息;

(3)作者计算了不同词性(pos)出现的频率,根据每句话里面的总词数来正则化;

(4)作者也计算了名词与动词的比率,代词与名词的比率;

(5)作者也去掉了filled pauses(填充暂停词),比如uh,um,er和ah,但是会记录每种类型出现的频率[49];

(6)作者将未在英文词典中出现的的词标记为NID(not in dictionary),包括paraphasias和在预处理阶段没被去掉的word fragments;

(7)作者使用文本语料里面自带的的词性标签测试stanford tagger的表现效果,结果发现在control data上的准确率为85.4%,在AD data上的准确率为84.8%;

2.2.2 句法复杂度(Syntactic complexity)

(1)AD对句法复杂度的影响程度无法确定;

(2)作者使用比较常见的标准来衡量句法复杂度,主要有:

  • 句子的平均长度
  • T-units
  • 从句

(3)作者使用Stanford parser语法树工具计算这些特征的得分,主要包括

  • 树的高度
  • 树的平均、总的和最大Yngve depth((a measure of embeddedness);

2.2.3 语法成分(Grammatical constituents)

(1)作者在一个上下文无关语法的特征集合中量化组成语法树中的成分。因为先前有文献表明这些特征能够区分失语和正常组[51];

(2)为了计算这些特征,作者计算了不同语法成分出现的频率,然后使用样本中的语法成分总数来正则化。比如统计名词短语(NP)的数量,包括限定词(DT)和一个名词(i.e,NP->DT,NN),一个名词没有限定词(NP—>NN),一个代词(NP—>PRP)等。

(3)作者使用 Penn Treebank tagset 提取symbols;

(4)作者同样考虑了rate,proportion和名词词组(NP),动词词组(VP)和介词词组(PP)的平均长度;[52]

(5)这些特征根据整个对话库来计算,而不是根据每个对话来计算;

2.2.4 心理语言学(Psycholinguistics)

(1)语义损伤表现为对非常熟悉单词的依赖程度增加,作者使用现存的心理语言学规则来统计每个单词的比率;

(2)具体来讲,他使用SUBTL频率准则与 combined Bristol and Gilhooly-Logie norms来计算熟悉度,想象力和语言学习关键期;(不好翻译)

(3)作者对于所有的实义词都计算了这些特征的平均量,也分别计算了名词和动词;

2.2.5 词汇丰富度(Vocabulary richness)

(1)作者使用许多不同的衡量指标来评估一个叙述样本的词汇丰富度,这些衡量指标包括类符/形符比,滑动平均类符/形符比,Brunet‘s index和Honore’s statistic。

(2)类符/形符比(TTR)虽然被广泛使用,但是依赖于文本长度 [56][57];

(3)滑动平均类符/形符比由Covington和McFall[58]提出,是对TTR的改进 ,特点是不依赖与文本的长度;

(4)据报道,在一项针对失语的语言研究中,MATTR被认为是最好的衡量指标之一,因为对于词汇丰富度,其可以提供一个无偏见的衡量指标;

(5)Brunet's index和Honore‘s statistic是计算词汇丰富度备选的方案,这两种方法前人已经使用 过了[1,3,5]。

2.2.6 信息内容(Information Content)

(1)在看图说话的任务中,先前的研究表明AD患者的信息内容会逐渐减少。作者通过搜索相关的词汇项目,来计算信息内容,这些词汇项目指向由Croisile所列出的期望信息单元之上[34]。比如,单词boy,son或者brother都表明“boy”这个信息单元已经被提及;

(2)作者使用的信息单元是二进制的,要么与给定的信息单元相关的单词已经被提及,要么没有提及;

(3)对于类似于“the boy or stool falling“这种描述动作的信息单元,作者使用Stanford parser来定位fall作为动词,boy或stool作为主语的词组。这种方法有很明显的限制:如果一个单词被使用在错误的上下文中,他将会被应用到错误的信息单元,或者如果一个讲述者以一种难以预料的方式引用一个概念,这个信息单元也不会被计数。但是这种方法提供了一个简单自动化的信息含量的估计方法;

(4)一位经过认证的语言病理学家也对这些数据中随机选取的5%的部分进行了标记,作者将这些手工标记的信息单元与自动识别的信息单元作比较。得到了98.02%的观察一致性,相对应的kappa系数为0.8037,这是所观察到的边际频率的最大可能值(p<0.05)。

(5)作者同样计算了与cookie theft picture相关单词的频率。比如,mother和woman都指的是“woman”信息单元;但是通过计算两个单词分别出现的频率,能够探查到是否哪一个组比另一个组更可能将woman作为mother;作者将这些特征称为“关键词”,他们的频率值为整数;

(6)先前已有工作展示了对简单的二进制和频率单位图的利用。相比之下,作者并没有考虑所有可能的unigram空间,而是仅仅考虑了一个更小的集合,这个集合被作者视为与期望的信息内容相关。同样避免了数据稀疏问题,有助于提升对所选特征的解释性;

2.2.7 重复(Repetitiveness)

(1)在看图说话任务中,Nicholas等人[28]发现,相比正常患者和流利型失语患者,AD患者重复单词和词组的频率更高;Tomoeda等人[65]同样发现,相比于正常患者,AD患者更可能重复同一个观点,并且重复的频率与痴呆症的严重程度无关;

(2)作者使用词袋模型(bow)计算会话中一对语句的余弦距离。在考虑到类似于“He is standing on the stool“和”He is holding the cookie“这种句子相对相似,因为句子中有he,is和the,作者去掉了小部分的停用词;余弦距离为0的两句话表明两句话在单词统计数字上(不是顺序)是一模一样的;作者通过计算平均距离来探查重复内容的出现次数,发现有些语句对出现的比列低于一些门槛值;

2.2.8 声学信息(Acoustics)

(1)作者选取了很多能够体现病态语言特点的特征[2,43,62,66];

(2)作者同样选取了一些基于梅尔倒谱系数(MFCC)的特征,这些特征在语音识别相关的研究中无处不在;

(3)

2.2.9 机器学习分类

(1)作者使用多元逻辑线性回归函数作为分类器,输出为名义上的输出,以便于在类别和系数之间交互;

(2)作者选取的评价指标为准确率(accuracy),即预测正确的样本数占所有样本数的比例;

(3)起初作者打算在文本特征和声学特征上分开训练模型,但是正如文献[69]所展示的那样,使用所有可用的手段做特征选择,相比单独使用文本特征或声学特征具有更高的准确率。其中的结果是可以预料到的,因为在所选择的特征之间的任一形态上,他减少了期望中的冗余度;

(4)作者采用10则交叉验证的方法来训练模型;

(5)为了优化训练样本与维度的比例,作者选取了在每个特征和两种类别之间的N个具有最高皮尔逊相关系数的特征。因为在每一则交叉验证时,仅仅基于数据集的子集来选择特征,而在每次迭代中并不要求这些特征一模一样,即使如增补材料所展示的那样,当N<100时,每则验证之间差异性很小;

3. Results

  图1展示了逻辑回归的平均准确率和标准差。当使用排在前面的 35个特征时,平均分类准确率可以达到81.92%。当选取的特征数量达到50个时,准确率急剧下降,变为78.72%。因此,作者选取前50个特征作因子分析。这些特征与诊断结果的关系如表2所示。当使用全部370个特征时,分类的平均准确率为58.51%,鉴于此,作特征选择很有必要。

图1 准确率和标准差,横轴表示特征数,纵轴表示准确率

表2 诊断的相互关系(第一列)和 斜交旋转因子导入,Loadings小于0.1的被排除,粗体表示大于0.3

3.1 因子分析(Factor analysis)

(1)由于数据不满足多元正太分布假设,作者采用Fabrigar[70]所推荐的主轴因子法(PAF)来做因子分析,一共选取了50个特征;

(2)一个筛查测试表明4个因子足够解释大多数变化;

(3)为了解释因子结构,通常会进行旋转。即使最大变异法是最流行的旋转方法,这是一个直角的旋转方法并能够产生不想关的因子。为了公平地检测AD患者语言损伤异质性的程度,作者选择了斜交旋转方法,这种方法允许一个因子与其他每个因子都相关;[71]

(4)表2展示了4个因子的Feature loadings;更高的因子得分代表更加严重的损伤。如传统探索性因子分析那样,作者对因子进行了命名和主观的解释,如下:

reference:

  1. 因子分析的解释 https://wenku.baidu.com/view/1db9761f10a6f524ccbf855f.html

  2. 数据分析之因子分析https://www.jianshu.com/p/bd6a6ed29f9f

  3. 数据分析之因子分析https://www.jianshu.com/p/bd6a6ed29f9f

3.1.1 因子1:语义损伤(Semantic impairment)

(1)所有高负荷(high loadings)都反映了语义贫乏语言的特征,如同语义痴呆中见到的一样;

(2)在这项因子上得分高的人会产生很多代词(+NP)和很少的名词(-nouns),更偏向于更短的(-word length)和频率更高(+frequency,+verb frequency)的单词;他们也使用多样性更少的词(-Honore statistic),并且表现为重复内容次数的增加(-cosine distance);

(3)代词和频率高的单词意味着空洞,模糊和不具体的语句;

(4)名词比例的减少,动词比例的增加与语言损伤中见到的模式一模一样;语义损伤的患者寻找更加具体的名词和动词可能会有困难,因此,他们可能会用一般的,高频的单词作为替代;

(5)负的Honore statistic数据表明低的词汇多样性,负的余弦距离表明高重复率;

(6)副词结构的例子,如the little girl’s reaching up there和a tree coming up here,也就是说,这些副词是具有指示的目的,这种现象在语义损伤的失语症上更加常见[77];

3.1.2 因子2:声学异常(Acoustic abnormality)

(2)

3.1.3 因子3:句法损伤( Syntactic impairment)

3.1.4 因子4:信息损伤(Information impairment)

image-20191024201020419

chrome

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!