中文分词算法基础
中文分词算法现在一般分为三类:基于词典的字符串匹配,基于理解,基于统计的分词。 基于词典的字符串匹配分词:机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。。。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率;或将分词与词类标注结合。 基于理解分词:分词同时进行句法语义分析等模拟人对句子的理解,包括分词子系统,句法语义系统,总控部分。总控部分协调下,分词字系统可以获得有关词,句子等的句法和语义信息对分词歧义进行判断。需要大量的语言知识信息。 基于统计分词:相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,不需要切词字典,但错误率很高。可以考虑:使用基本词典进行关键词分词,使用统计方法识别新词组,两者结合。 语义理解中文分词:解决一词多义问题,为用户建立个性化数据库。 中文分词存在问题:计算机与人对歧义的定义无法统一;字典中未收录的词识别率低。 分词系统判断标准(待解决问题):歧义识别,新词(未登录词)识别 分词算法设计中的几个基本原则: 1、颗粒度越大越好