pyhanlp 停用词与用户自定义词典功能详解
hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。 其核心词典形式如下: 自定义词典 自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。更复杂的内容请参考后边的第二段代码。 简单的例子 from pyhanlp import * text = "攻城狮逆袭单身狗,迎娶白富美,走上人生巅峰" # 怎么可能噗哈哈! print(HanLP.segment(text)) CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary") CustomDictionary.add("攻城狮") # 动态增加 CustomDictionary.insert("白富美", "nz 1024") # 强行插入 #CustomDictionary.remove("攻城狮"); # 删除词语(注释掉试试) CustomDictionary.add("单身狗", "nz 1024 n 1") # 展示该单词词典中的词频统计 展示分词 print(CustomDictionary.get("单身狗")) print(HanLP.segment(text)) # 增加用户词典