1.jieba,cut(需要分词的字符串,cut_all控制是否采用全模式,HMM控制是否使用HMM模型)---------返回一个可迭代的generator,可用for循环获得每个词语。
2.jieba.cut_for_search(需要分词的字符串,是否使用HMM模型)---------返回一个可迭代的generator,可用for循环获得每个词语。
3.jieba.lcut()和jieba.lcut_for_search()-------返回list
4.jieba.load_userdict(file_name):加载用户字典
5.jieba.add_word(word,freq=None,tag=None)和jieba.del_word(word)在程序中动态修改词典。
6.jieba.suggest_freq(segment,tun=True)可以调节单个词语的词频,使其能(或不能)被分出来。
7.基于TF-IDF算法抽取关键词:import jieba.analyse------jieba.analyse.extract_tags(待提取文本,topK=返回几个权重最大的关键词,默认20,withWeight=是否一并返回关键词的权重值,默认False,allowPOS=(仅包括指定词性的词,默认为空,不筛选))。
8.关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径:jieba.analyse.set_idf_path(file_name)。 关键词提取所使用的停止词文本语料库可以切换成自定义语料库路径:jieba.analyse.set_stop_words(file_name)
9.基于TextRank算法抽取关键词:jieba.analyse.textrank(sentence,topK,withWeight,alloePOS)。 新建自定义TextRank:jieba.analyse.TextRank()
10.标记句子分词后每个词的词性,采用和ictclas兼容的标记法:import jieba.posseg as pseg ----------pseg.cut(sentence)------生成器。
11.新建自定义分词器:jieba.posseg.POSTokenizer(tokenizer=指定内部使用的jieba.Tokenzer分词器,默认为None,即jieba.posseg.dt)。
12.并行分词:jieba.enable_parallel(num)----开启并行分词模式,参数为并行进程数。
关闭并行分词模式:jieba.disable_parallel()
13.jieba.tokenize(sentence,mode=默认模式或搜索模式search):返回词语在原文的起止位置。