使用机器学习做文本分类知识点总结
文本分类主要流程 获取数据集 使用爬虫从网上获取。 下载某些网站整理好的数据集。 公司内部数据资源。 数据预处理 数据预处理是按照需求将数据整理出不同的分类,分类预测的源头是经过预处理的数据,所以数据预处理非常重要,会影响到后期文本分类的好坏。 预处理主要分为以下几个步骤: 将数据集按类别做好不同分类 将分类好的数据集分为训练集和测试集 去除数据集中的空字段或对空字段添加标识 对文本进行分词 1. 加载自己需要的分词词典和停用词(使后期模型更加简单、准确) 2. 去除无用的字符符号 3. 进行分词 特征提取 对于文本分类的特征提取目前主要有Bag of Words(词袋法)、TfIdf、Word2Vec、Doc2Vec。 词袋法介绍 对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。没有考虑到单词的顺序,忽略了单词的语义信息。 TfIdf算法介绍 除了考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量,能够削减高频没有意义的词汇出现带来的影响,挖掘更有意义的特征,相对词袋法来说,文本条目越多,Tfidf的效果会越显著。缺点也是没有考虑到单词的顺序。 Word2Vec算法介绍 Word2Vec的优点就是考虑了一个句子中词与词之间的关系,关于两个词的关系亲疏,word2vec从两个角度去考虑。第一,如果两个词意思比较相近,那么他们的向量夹角或者距离