分词————jieba分词(Python)

本小妞迷上赌 提交于 2020-05-08 09:23:09
要使用分词器来看下各个分词器对文本数据的分词效果,找了很多资料发现有推荐最多的开源分词工具就是结巴(jieba)分词和清华NLP分词库(thulac),下面简单说下中文分词器的jieba分词,只写了切词和用户自定义词典两种方法,其他的功能后面再补充:
 
一、分词
         
1 import jieba
2 str = u'李建华为人民'
3 word = jieba.cut(str, HMM=True) # 产生一个生成器对象
4 word_list = [val for val in word]
5 for each in word_list:
6     print each
在上述代码中第1行导入jieba库; 第3行对词进行切分,生成一个生成器对象(HMM的参数就是是否使用隐马尔可夫的方式分词, HMM后面单独写一个再深入理解一下)。
简单程序运行结果如下:
 
二 、用户自定义词典
         在jieba文件目录下,添加用户自定义词典 (例如:‘userdict.txt’) 将自定义的词、词频次和词性(词性可加可不加)加入(空格间隔)。
          
       在程序中执行下列代码即可
jieba.load_userdict('userdict.txt')   # 加载上述用户字典
       例句:
              他来到了网易杭研大厦    
        加载用户自定义字典之前,粉刺结果如下图:
            
       加载用户词典‘userdict.txt’后分词结果如下图:
        
            
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!