朴素贝叶斯实现垃圾信息分类
代码github
1.贝叶斯定义(贝叶斯算法介绍)
P(A|B) = P(B|A) * P(B) / P(A)
2.训练过程
中文分词(以下简称特征),过滤掉中英文符号,数字,字母,单个词
将所有特征组成一个去重的词向量列表
计算各个特征在所有分类下的概率
3.分类预测
将待分类数据,分词,向量化
根据贝叶斯公式计算各个分类下的概率,取最大概率即分类结果
4.优化
概率取对数,防止四舍五入对概率的影响
每个特征加1,防止单个特征概率为0
5.总结
训练9000条数据,预测2000条数据,正确率在95%左右
接下来还需要对特征进行处理,提高正确率,如过滤掉只出现一次的特征,加入语义相关性分析等
来源:CSDN
作者:暗栈擎空
链接:https://blog.csdn.net/hua0704/article/details/78270046