jieba分词 简单实现步骤
jieba分词在处理中文文本分析是比较常用的工具,这里主要是基于自学后得到的实现文本jieba分词的常用流程: 加载自定义词典――>获取关键词――>去除停用词――>数据处理 1、加载自定义词典 jieba分词自带词典,可能不能包括一些专业词汇,会造成分词结果不准确,可以通过自定义词典解决这一问题。 # 加载自定义词典 jieba.load_userdict( "newdic.txt" ) 其中“newdic.txt”是自定义词典的路径。其中自定义词典的格式:一个词占一行;每一行分三部分,一部分为词语,另一部分为词频(可省略),最后为词性(可省略),用空格隔开 2、获取关键词 主要借助jieba.cut()和jieba.lcut()两个函数完成,两个函数生成的对象不同,要注意后续操作。 # jieba.cut 生成generator # 全模式分词 seg_list = jieba.cut( "我来北京上学" , cut_all=True) print( "Full Model " + '/' .join(seg_list)) # 精确模式 (默认) seg_list = jieba.cut( "我来北京上学" , cut_all=False) # jieba.lcut 生成List tags = jieba.lcut(text) tags_df = pd.DataFrame({