sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizer
分词这块之前一直用R在做,R中由两个jiebaR+Rwordseg来进行分词,来看看python里面的jieba. 之前相关的文章: R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解) R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较) . 文章目录 一、jieba分词功能 1、主要模式 支持自定义词典 . 2、算法 应用一:自定义词典或特定词识别 应用二:关键词提取 二、gensim的doc2bow实现词袋模型 分之一:BOW词袋模型 分支二:建立TFIDF 情况一:新的句子 . 情况二:tfidf模型的保存与内容查看 三 sklearn.feature_extraction抽取文本TFIDF特征 3.1 feature_extraction中几种情况 3.2 CountVectorizer与TfidfTransformer测试(合并为:TfidfVectorizer) 3.3 TfidfVectorizer 片段一:tfidf + LDA tfidf + sklearn的模型 3.4 HashingVectorizer 3.5 错误使用TfidfVectorizer方式,导致分类准确率一直为0.2 一、jieba分词功能 来源github:https://github.com/fxsjy/jieba 1、主要模式