中文句子相似度之計算與應用
原文:http://www.aclweb.org/anthology/O05-1008 中文句子相似度之计算与应用 郑守益 梁婷国立交通大学信息科学系 摘要 近年來受惠于国内外各项语料库资源的建置及网际网路上的大量中文语料,使计算机语文辅助教材的涵盖层面日趋广泛。因此如何产生大量且具高质量之辅助教材日益受到许多自然语言处理研究者的重视。有鉴于此,本論文提出以中文句子相似度为基础的研究与应用。相似度的计算乃考虑句子的组合及聚合性。我们实作此一应用,并提出解决未知词的语意计算问题的方法。实验结果显示系统的检索 MRR 值可以提升到 0.89 且每一检索句皆可找到可堪用之例句。1. 绪論句子是可完整表达语意的基本单位[21],也是语法的具体表现。因此,在语言学习中,学童若是学会了各种句型,也就学会了隐含在句型中的语法规则。藉由语言学家的归纳整理[14],我们知道句子的结构并不是词语的随意组合,而是依照一定的「语法规则」。根据[15],语法规则可进一步分为「组合规则」及「聚合规则」。组合规则是指语法单位的横向组合,例如,「我」、「买」、「书」这三个词汇可以组合成「我买书」,但却不能组合成「书买我」。当词组合成结构之后,将具有语法意义,并使得整体结构的意义大于个别词汇的意义总和,例如:「綠」、「葉」这兩个词各自有其意义,但组合之后则形成了「綠」修饰「葉」的语法意义。至于聚合规则是指在句子中