机器学习基础——带你实战朴素贝叶斯模型文本分类
本文始发于个人公众号: TechFlow <br> 上一篇文章当中我们介绍了 朴素贝叶斯模型的基本原理 。 <br> 朴素贝叶斯的核心本质是假设样本当中的变量 服从某个分布 ,从而利用条件概率计算出样本属于某个类别的概率。一般来说一个样本往往会含有许多特征,这些特征之间很有可能是有相关性的。为了简化模型,朴素贝叶斯模型 假设这些变量是独立的 。这样我们就可以很简单地计算出样本的概率。 <br> 想要回顾其中细节的同学,可以点击链接回到之前的文章: 机器学习基础——让你一文学会朴素贝叶斯模型 <br> 在我们学习算法的过程中,如果只看模型的原理以及理论,总有一些纸上得来终觉浅的感觉。很多时候,道理说的头头是道,可是真正要上手的时候还是会一脸懵逼。或者是勉强能够搞一搞,但是过程当中总会遇到这样或者那样各种意想不到的问题。一方面是我们动手实践的不够, 另一方面也是理解不够深入。 <br> 今天这篇文章我们实际动手实现模型,并且在 真实的数据集 当中运行,再看看我们模型的运行效果。 <br> <br> 朴素贝叶斯与文本分类 <br> 一般来说,我们认为 狭义的事件 的结果应该是有限的,也就是说事件的结果应该是一个 离散值 而不是连续值。所以早期的贝叶斯模型,在引入高斯混合模型的思想之前,针对的也是离散值的样本(存疑,笔者推测)。所以我们先抛开连续特征的场景,先来看看在离散样本当中