用Python做中文分词与词云制作
作者:梅昊铭 1. 导读 在大数据时代,我们经常在媒体或者网站上看到各种各样的信息图。词云是文本大数据可视化的重要方式,可以将大段文本中的关键语句和词汇高亮展示。对于中文文本的可视化,我们需要先将中文文本进行分词;然后再将文本中的关键词做词云展示。本文将教大家如何使用Python来做中文分词并制作词云,欢迎大家跟着教程一步步实现。 项目地址: https://momodel.cn/workspace/5e77afb7a8a7dc6753f582b9?type=app 2. 中文分词 2.1 分词入门 所谓分词即是将文本序列按完整的意思切分成一个一个的词儿,方便进行下一步的分析(词频统计,情感分析等)。而英文词与词自带空格作为分隔符,相比于中文分词要简单。这里我们以中文分词为例来介绍。Python 为我们提供了 Jieba 库进行分词,接下来如何使用 Jieba 库进行中午呢分词。 import jieba # 文本数据 text = "MomodelAI是一个支持在线数据分析和AI建模的平台。" result = jieba.cut(text) # 将切分好的文本用" "分开 print("分词结果: " + " ".join(result)) ''' 分词结果: MomodelAI 是 一个 支持 在线 数据分析 和 AI 建模 的 平台 。 ''' 2.2 特殊名词