主题模型LDA:从入门到放弃
宏观理解 LDA有两种含义 线性判别器(Linear Discriminant Analysis) 隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA) 本文讲解的是后者,它常常用于浅层语义分析,在文本语义分析中是一个很有用的模型。 LDA模型是一种主题模型,它可以将 文档集中的每篇文档的主题以概率分布的形式给出, 从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。 上面的大家在任何的地方都能看到一句话,然鹅我在第一看的时候一点都没有看懂。 如果用通俗的语言来讲,假设我们有一个文档集,里面有M个文档,对于第d个文档中会出现一堆单词,其中有一个单词是“周杰伦”,那么通过这个单词我们就可以理解为该文档的主题可能是“娱乐”,但是这个文档中还出现“姚明”,“孙杨”,“张继科”这些单词,此时该文档为“体育”主题的概率将大大上升,LDA模型就是要 根据给定一篇文档,推断这个文档的主题是什么,并给出各个主题的概率大小是多少。 那么对于我们刚刚提到的文档,“周杰伦”,“姚明”,“孙杨”,“张继科”,为”娱乐“主题的概率为1/4,为“体育”主题的概率为3/4,此时的LDA模型就说这个文档的主题为"体育"。