数据分析练习报告二
一、今天完成了行业代码匹配,还有数据没有展示 二、文本匹配,添加行业代码。 设计思路:首先,我们需要将完全相同的行业代码进行匹配,其次将相似的行业代码进行文本相似匹配,选取符合要求的前面几个行业,追加行业代码。 判断完全相同的部分就不解释了,主要解释如何使用word2vec模式进行文本相似的匹配。 需要使用的库 1、首先我们需要创建数据集(主要看数据集是以何种方式储存的),接收数据集(使用何种函数)。 数据集中单个元素与单个元素之间以空格隔开。接受数据集 1 sentences = word2vec.Text8Corpus("../词库/商业类别词.txt") #text8为语料库文件名 View Code 2、构建模型 1 model=gensim.models.Word2Vec(sentences, sg=1, size=100, window=5, min_count=2, negative=3, sample=0.001, hs=1, workers=4) 2 # print(model) 3 # 该步骤也可分解为以下三步(但没必要): 4 # model=gensim.model.Word2Vec() 建立一个空的模型对象 5 # # model.build_vocab(sentences) 遍历一次语料库建立词典 6 # # model.train(sentences)