朴素贝叶斯实现垃圾信息分类

那年仲夏 提交于 2019-12-04 21:05:32

朴素贝叶斯实现垃圾信息分类

代码github

1.贝叶斯定义(贝叶斯算法介绍)

P(A|B) = P(B|A) * P(B) / P(A)

2.训练过程

中文分词(以下简称特征),过滤掉中英文符号,数字,字母,单个词
将所有特征组成一个去重的词向量列表
计算各个特征在所有分类下的概率

3.分类预测

将待分类数据,分词,向量化
根据贝叶斯公式计算各个分类下的概率,取最大概率即分类结果

4.优化

概率取对数,防止四舍五入对概率的影响
每个特征加1,防止单个特征概率为0

5.总结

训练9000条数据,预测2000条数据,正确率在95%左右
接下来还需要对特征进行处理,提高正确率,如过滤掉只出现一次的特征,加入语义相关性分析等

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!