结巴分词

▼魔方 西西 提交于 2020-03-06 17:37:56

1.文本形式:

import jieba
text = '我们在野生动物园玩'
wordlist=jieba.lcut(text) # wordlist默认是列表形式
print(wordlist)

输出结果:
在这里插入图片描述
2.文件形式

import jieba
import jieba.analyse

jieba.load_userdict("D:/python course/wordsegment/dict/dict.txt")  # 匹配的词语词典
jieba.analyse.set_stop_words("D:/python course/wordsegment/dict/stop_words.txt")  # 停用词词表

def splitSentence(inputFile, outputFile):
    fin = open('D:\python course\wordsegment\data\input.txt', 'r')  # 待分词文本
    fout = open('D:\python course\wordsegment\data\output.txt', 'w')  # 分词结果
    for line in fin:
        line = line.strip()
        line = jieba.analyse.extract_tags(line)
        outstr = " ".join(line)  # 分词结果
        print(outstr)
        fout.write(outstr + '\n')
    fin.close()
    fout.close()
splitSentence('input.txt', 'output.txt')

输出结果:
在这里插入图片描述

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!