各分词工具对比 jieba、pkuseg、thulac、nlpir、基于BI-LSTM+ CRF自训练

為{幸葍}努か 提交于 2020-03-10 00:17:26

 jieba
    主要接口
      cut
        https://github.com/fxsjy/jieba
        默认精准切词,尽量保留长词
        cut_all模式,在精准模式下增加一些短词
      cut_for_search
        切出尽量多的词用于搜索
    特性
      日常切词效果最好,比如三个字的动词一般会比较全,“打不开”,“扫一扫”,如何实现的,目前未知? 但多个字的名词会容易切掉,可能主要原因是语料较老,主要是1998人民日报
      算是目前实用性较高的工具
        目前最有效的方法就是将清华的高质量词库以及自己整理的专有词库导入jieba
      jieba与其他最大的区别是,jieba以预先整理的词库为优先,尽量匹配最长的词。而其他是通过模型预测BMES,再分词
  pkuseg
    特性
      主要基于人民日报,三个字的动词或形容词会容易切断,比如“打不开”,“好得多”
      https://github.com/lancopku/PKUSeg-python
  thulac
    特性
      与pkuseg效果基本差不多,主要基于人民日报
      https://github.com/thunlp/THULAC-Python
  nlpir
    特性
      与pkuseg效果基本差不多,主要基于人民日报
  BI-LSTM + CRF
    特性
      与pkuseg效果基本差不多,主要基于2014人民日报
      偶尔还能比前三个更好,比如“门禁卡号”
      https://github.com/GlassyWing/bi-lstm-crf
  其他资料
    中文各领域词库,含词频(IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物)/清华2016
      https://github.com/thunlp/THUOCL
  经验
    在中英文混杂复杂的情况下,建议将中英文分开处理再合并,能保证特殊英语词会的完整切词

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!