分词并去停用词自定义函数:seg_word(sentence)。
import jieba
def seg_word(sentence):
"""使用jieba对文档分词"""
seg_list = jieba.cut(sentence)
# 读取停用词文件
stopword_list = [k.strip() for k in open('stopwords.txt', encoding='utf8').readlines() if k.strip() != '']
# 去除停用词
return list(filter(lambda x: x not in stopword_list, seg_list))
print(seg_word("今天是开心的一天"))
输入一个句子"今天是开心的一天",函数返回值为:[‘今天’, ‘开心’, ‘一天’]。
来源:CSDN
作者:北青萝、
链接:https://blog.csdn.net/weixin_43919570/article/details/104310685