Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2)
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2) 前一篇: Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) 1 前言 Spark 通过调用 RowMatrix 的 computeSVD 方法会得到三个重要的矩阵 U、S、V , 而且:原始矩阵 近似等于 U * S * V 它们含义分别如下: V: 每一行表示单词,列表示概念,矩阵的值表示单词在概念里面的重要程度 U: 每一行表示文档,列表示概念,矩阵的值表示文档在概念里面的重要程度 S: 对角矩阵,每一个对角线元素代表概念的重要程度 通过这个文档,首先想到的是文档中最重要的概念是什么?概念往往对应话题,这样基本就能确定文档的主题了,然后每个主题通过V矩阵可以得到重要的词,这样就可以给文档添加标签了,但是其实可以走的更远,本文将重点研究如何使用这两个矩阵,这里的用途很容易推广到LDA模型,LDA 模型得到 phi(词与topic关系矩阵) 和 theta(文档与topic的关系矩阵) 两个矩阵之后也可以干这些事。接下来主要尝试回答下面三个问题: 文档与文档关系如何? 词与词关系如何? 词与文档关系如何? 给出一系列查询词最相关的文档是哪些? 2 粗浅的解决方案 其实从最原始的词文档矩阵可以得到上面这些问题粗浅的答案