让我们来训练一个人工智能程序,来给我们提供的任意新闻文稿生成一组主题。我们可以把机器学习主题分为几类,有标签学习、无标签学习学习如何对持续数据进行操作的强化学习,但有更注重实际应用的分类方法,分别是判别的或者生成的。判别模型告诉我们一些数据是什么,它能够判别/区分/分类,例如这是什么电影、这类事物是什么等,生成模型,它们能够生成新的数据、图像、视频、音乐和文本。大多数机器学习的进展都在判别模型中,我们估算一个叫后验概率的函数,即给定x条件下y的概率,例如给定一个图片x,y是图片中物体是苹果,求给定图像模型多大程度相信是个评估。生成模型则估算一个叫做联合概率的函数,即x和y的概率,x是个图像,同时图中有个苹果的概率。因为用生成模型可以生成苹果图像,通过从x和y的概率中,对水果类型y和新图像进行采样。如今,有许多生成模型可供学习,自编码器尝试重建输入数据,接着我们用所学的密集式表示来生成一组相似的数据。
生成对抗网络由两个神经网络组成,其中一个通过呈现一组看上去真实,事实上是伪造的数据来骗过另外一个。当判别器改善时,生成器也一样直到数据与真实数据难以区分。
我们先从相对基础的生成模型讲起,叫做隐狄利克雷模型或LDA。隐狄利克雷是一种分布就像高斯分布,由包含每个主题对于变量的向量参数指定。是一种词袋模型,它认为文档是一组词构成的集合,词与词之间是无序的。一篇文档可以包含多个主题,文档中的每个词都是由某个主题生成的,LDA给出文档属于每个主题的概率分布,同时给出每个主题上词的概率分布。LDA是一种无监督学习,在文本主题识别、文本分类、文本相似度计算和文章相似推荐等方面都有应用。我们用下面公式表达:
隐是因为我们通过推断而不是直接观察得到的变量,称作隐变量。由于我们直接观察文字而不是主题,我们称作主题为隐变量,分布也是隐分布。我们为文本数据分配隐狄利克雷分布,LDA是一种从一组文档中自动找出主题的方法。主题建模是一种分析大量文本数据的有效方式,用于搜索引擎排名、分析一场会议中研究课题如何发展、通过用户推文来了解用户兴趣。假设我们有一组句子,我们可以利用LDA来自动发现句子中蕴含的主题,如果我们想要两个主题,第一个主题则为一组词,每个词都有百分比,百分比表示它与该类别的主题的相关性。第二个主题也是如此,然后它会为每个句子分配百分比来确定每个主题与该句子相关程度。
算法三步走:告诉算法几个主题,算法会把每个单词都发配到一个临时的主题下面,然后算法会检查和更新主题任务,遍历每一份文件里每一个单词。
生成模型主要学习输入和标签的联合概率分布,而判别式模型学习输入和标签的条件概率。主题模型是关于找出一系列文档中隐藏的语义结构,而隐狄利克雷分布是一个生成式的主题模型技术。
来源:CSDN
作者:_4444yl
链接:https://blog.csdn.net/yangliu_w/article/details/100857791