利用Python实现主题建模和LDA 算法(附链接)
主题建模是一种用于找出文档集合中抽象“主题”的统计模型。LDA(Latent Dirichlet Allocation)是主题模型的一个示例,用于将文档中的文本分类为特定的主题。LDA算法为每一个文档构建出一个主题,再为每一个主题添加一些单词,该算法按照Dirichlet分布来建模。 那便开始吧! 数据 在这里将使用到的数据集是15年内发布的100多万条新闻标题的列表,可以从Kaggle下载。 先来看看数据。 1048575 图1 数据预处理 执行以下步骤: 标记化——将文本分成句子,将句子分成单词,把单词变为小写,去掉标点符号。 删除少于3个字符的单词。 删除所有的句号。 词形还原——将第三人称的单词改为第一人称,将过去和未来时态中的动词改为现在时。 词根化——将单词简化为词根形式。 加载gensim 和nltk库 [nltk_data] Downloading package wordnet to[nltk_data] C:\Users\SusanLi\AppData\Roaming\nltk_data…[nltk_data] Package wordnet is already up-to-date!True 编写一个函数,对数据集执行词形还原和词干预处理。 预处理之后选择要预览的文档。 源文件:[‘rain’, ‘helps’, ‘dampen’, ‘bushfires’