Python3 jieba分词
参考文章: Github上的项目———jieba 中文分词 对于NLP(自然语言处理)来说,分词是一步重要的工作,市面上也有各种分词库, 11款开放中文分词系统比较 。 1.基于词典:基于字典、词库匹配的分词方法;(字符串匹配、机械分词法) 2.基于统计:基于词频度统计的分词方法; 3.基于规则:基于知识理解的分词方法。 第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。 第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。 jieba分词,完全开源,有集成的python库,简单易用。 jieba分词是基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG),动态规划查找最大概率路径, 找出基于词频的最大切分组合 安装jieba 在安装有python3 和 pip 的机子上,安装jieba库很简单,使用pip即可: pip install jieba jieba分词特性 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式