Note of Jieba ( 词云图实例 )
Note of Jieba jieba库是python 一个重要的第三方中文分词函数库,但需要用户自行安装。 一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。 (2) jieba 库支持3种分词模式: 精确模式:将句子最精确地切开,适合文本分析。 全模式:将句子中所以可以成词的词语都扫描出来,速度非常快,但是不能消除歧义。 搜索引擎模式:在精确模式的基础上,对长分词再次切分,提高召回率,适合搜索引擎分词。 二、安装库函数 (1) 在命令行下输入指令: pip install jieba(2) 安装进程: 三、调用库函数 (1) 导入库函数:import <库名> 使用库中函数:<库名> . <函数名> (<函数参数>) (2) 导入库函数:from <库名> import * ( *为通配符 ) 使用库中函数:<函数名> (<函数参数>) 四、jieba 库函数 (1) 库函数功能 模式 函数 说明 精确模式 cut(s) 返回一个可迭代数据类型 lcut(s) 返回一个列表类型 (建议使用) 全模式 cut(s,cut_all=True) 输出s中所以可能的分词 lcut(s,cut_all=True)