分词并去停用词自定义函数:seg_word(sentence)

南笙酒味 提交于 2020-02-15 10:15:04

分词并去停用词自定义函数:seg_word(sentence)。

import jieba
def seg_word(sentence):
    """使用jieba对文档分词"""
    seg_list = jieba.cut(sentence)
    # 读取停用词文件
    stopword_list = [k.strip() for k in open('stopwords.txt', encoding='utf8').readlines() if k.strip() != '']
    # 去除停用词
    return list(filter(lambda x: x not in stopword_list, seg_list))
print(seg_word("今天是开心的一天"))

输入一个句子"今天是开心的一天",函数返回值为:[‘今天’, ‘开心’, ‘一天’]。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!