集合语义空间提高动提取同义词能力
集合语义空间提高动提取同义词能力 文章出发点:医学界需要统一医学文章的专用词语言,从而针对医学文本同义词提取精度有限的问题,进行提高同义词从其他语义关系中分离开的能力。 方法概括:(1)语料库预处理 (2)从两个语料库(和联合语料库)构建语义空间,(3)识别最有利的单个语料库(和联合语料库))组合,(4)识别最有利(不相交)的多语料组合,(5)单个语料库(包括联合语料库)和多个语料库组合的评估,(6)候选术语的后处理,和(7)频率阈值实验。 具体步骤: 运用材料:(1)临床语料库,包括健康记录的注释,和 (2)医学语料库,包括医学期刊文章 主要概念:RI随机索引:RI是LSA的增量,通过分配稀疏的、内部的和随机生成的d维索引向量来实现 给予某一术语静态的唯一表示值,为每个唯一术语分配相同维度d的初始空上下文向量。然后通过添加目标术语出现的上下文的(加权)索引向量,用上下文信息递增地填充上下文向量。 【然而LSA是什么呢】LSA是潜在语义分析,具体说来就是对一个大型的文档集合使用一个合理的维度建模,并将词和文档都表示到该空间,而将文档表示到此空间的过程就是SVD奇异值分解和降维的过程。 具体的做法是将词项文档矩阵做SVD分解,其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列, 矩阵的元素为词项的tf-idf值