texts

python文本相似度算法详解

守給你的承諾、 提交于 2020-03-02 07:21:32
1.读取文档 2.对要计算的多篇文档进行访问 3.将文档整理成指定格式,方便后续进行计算 4.计算出词语的频率 5.对频率低的词语进行过滤 6.通过语料库建立词典 7.加载要对比的文档 8.将要对比的文档通过doc2bow转化为稀疏向量 9.对稀疏向量进行进一步处理,得到新语料库 10.将新语料库通过tfidfmodel进行处理,得到tfidf 11.通过token2id得到特征数 12.稀疏矩阵相似度,建立索引 13.得到最终相似度结果 from gensim import corpora, models, similarities import jieba from collections import defaultdict dog = "C:/Users/xt/PycharmProjects/similar/dog.txt" # 1.读取文档 cat = "C:/Users/xt/PycharmProjects/similar/cat.txt" d1 = open(dog).read() # 2.对要计算的多篇文档进行访问 c1 = open(cat).read() data1 = jieba.cut(d1) # 3.将文档整理成指定格式,方便后续进行计算 data2 = jieba.cut(c1) data11 = '' for item in data1: data11

keras使用多进程

柔情痞子 提交于 2020-01-14 20:02:39
最近在工作中有一个需求:用训练好的模型将数据库中所有数据得出预测结果,并保存到另一张表上。数据库中的数据是一篇篇文章,我训练好的模型是对其中的四个段落分别分类,即我有四个模型,拿到文本后需要提取出这四个段落,并用对应模型分别预测这四个段落的类别,然后存入数据库中。我是用keras训练的模型,backend为tensorflow,因为数据量比较大,自然想到用多进程,但是使用时发现每次都在model.predict上停在那不动了。在Windows上运行一点问题没有,但是在Linux服务器上就有这个问题 模型使用时大致如下: # -*- coding: utf-8 -*- import jieba import numpy as np import keras import tensorflow as tf from keras.preprocessing import sequence from keras.models import load_model from config import Config import json config_file = 'data/config.ini' model_path = Config(config_file).get_value_str('cnn', 'model_path') graph = tf.Graph() with graph

非常简单明了的404提示页面

我们两清 提交于 2019-12-10 17:48:09
非常简单明了的404提示页面 效果图: ① unauth.jsp < % @ page contentType = "text/html;charset=UTF-8" language = "java" % > < % @ include file = "common/common.jsp" % > < html lang = "zh" > < head > < meta charset = "UTF-8" > < title > ERROR - 错误提示 < / title > < link rel = "stylesheet" type = "text/css" href = "${add}/404/style.css" / > < / head > < body > < p class = "topimg" > < / p > < p class = "link" > < a target = "_self" href = "${add}/welcome.jsp" > & # 9666 ; 返回首页 < / a > < a target = "_self" href = "javascript:;" onclick = "javascript:window.history.back(-1);" > & # 9666 ; 返回上一页 < / a > < / p > < dl

Keras入门简介

匿名 (未验证) 提交于 2019-12-03 00:37:01
Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。 Keras的核心数据结构是“模型”,模型是一种组织网络层的方式。 Keras里有两种搭建模型的方式,一种是序贯模型(Sequential),一种是函数式模型(Model)。 序贯模型是多个网络层的线性堆叠,也就是“一条路走到黑”。使用序列模型,首先我们要实例化Sequential类,之后就是使用该类的add函数加入我们想要的每一层,从而实现我们的模型。或者通过向Sequential模型传递一个layer的list来构造该模型。 例: model = Sequential() model. add (Dense( 32 , input_shape=( 784 ,))) model. add (Activation( 'relu' )) Sequential的第一层需要接受一个关于输入数据shape的参数,后面的各个层则可以自动的推导出中间数据的shape,因此不需要为每个层都指定这个参数。 Keras函数式模型接口是用户定义多输出模型、非循环有向模型或具有共享层的模型等复杂模型的途径。一句话,只要你的模型不是类似VGG一样一条路走到黑的模型,或者你的模型需要多于一个的输出,那么你总应该选择函数式模型。 函数式模型是最广泛的一类模型,序贯模型

python爬虫爬取美团西安美食数据

匿名 (未验证) 提交于 2019-12-02 22:51:30
经历了一周的种种波折,参考了CSDN上N多博主的博客,终于搞定了美团西安美食数据,在此做简单记录: 愚蠢如我,不知如何让爬虫程序翻下一页,只好看了前后两页请求的网址有什么不同,后来发现第一页后缀是‘pn1’,第二页是‘pn2’,以此类推……所以手动查看了一共有15页之后,萌生了一个愚蠢的想法并实现了它,以下是部分代码: target = 'http://xa.meituan.com/meishi/' head={} head['authorization']='your ClientId' head['User-Agent'] = '' for i in range(16): if i==0: continue target_real=target+'pn'+str(i)+'/' req = requests.get(url=target_real,headers=head) html=req.text bf=BeautifulSoup(html,'lxml') texts=bf.find_all('script') text=texts[14].get_text().strip()(这部分也是很愚蠢的做法,实在是找不到别的方法了) text=text[19:-1] result=json.loads(text) result=result['poiLists'] result

聊天功能,实现:每增加一条消息整体往上移动,滚动查看聊天记录

别说谁变了你拦得住时间么 提交于 2019-12-02 13:01:29
如今直播APP火的简直不像样子了。在直播间里会有观众和主播交流的功能。主要方式是主播动口(说),观众动手(打字)。这篇文章讲解一下观众客户端聊天功能的实现。这里为了更清楚的看到效果功能,我做了一个客户端单机版来讲解。(该版本为 unity5 .3.2f1) 需求功能是:观众新发送了聊天消息会把之前的消息顶到上面,用户也可以通过滚动聊天栏翻看之前的用户聊天记录。 先看下面gif图功能: 下面讲如何实现: 第一:整个功能我分了三个组件,一个蓝色背景image,一个用来滑动的image(上图图中的黄色光芒图片),一个text的预设物体。(如下图:) 为了方便将这三个物体的pivot都设置为(0,0)。 如下图(根据需求可自定义大小坐标等): 第二:给蓝色背景图片添加滑动组件和Mask组件,指定滑动目标为光芒的那个图片。 添加脚本slidertext,然后把text的预设和预设生成的父物体(光芒的那个图片)拖到对应位置。 如下图: 第三:脚本slidertext的源码:(这才是重点) 该代码和之前我写的弹幕生产的方法相似(弹幕方法链接 http://www.manew.com/thread-95590-1-1.html ) 脚本里实现了两种文本移动方法:一种是直接跳到上面的位置,另个是缓慢移动上去(上面gif图的样子),缓慢移动使用了DoTween插件来实现。 [csharp] view

python3 爬虫继续爬笔趣阁 ,,,,,,,

三世轮回 提交于 2019-12-01 07:58:04
学如逆水行舟,不进则退 今天想看小说..找了半天,没有资源.. 只能自己爬了 想了半天.,,,忘记了这个古老的技能 捡了一下 import requests from bs4 import BeautifulSoup cookies = { 'bcolor': 'null', 'font': 'null', 'size': 'null', 'color': 'null', 'width': 'null', 'clickbids': '18836', 'Hm_lvt_30876ba2abc5f5253467ef639ca0ad48': '1571030311,1571030949,1571031218', 'Hm_lpvt_30876ba2abc5f5253467ef639ca0ad48': '1571031588', } headers = { 'Connection': 'keep-alive', 'Cache-Control': 'max-age=0', 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

织梦官方幻灯片调用以及幻灯片模糊的处理办法

◇◆丶佛笑我妖孽 提交于 2019-11-30 02:16:42
复制官方默认的模板里面的代码如下到幻灯片位置,后台新建栏目-首页幻灯,设置大小,typeid,f为勾选幻灯。 <div class="flashnews"><!-- size: 280px * 192px --> <script language='javascript'> linkarr = new Array(); picarr = new Array(); textarr = new Array(); var swf_width=280; var swf_height=192; //文字颜色|文字位置|文字背景颜色|文字背景透明度|按键文字颜色|按键默认颜色|按键当前颜色|自动播放时间|图片过渡效果|是否显示按钮|打开方式 var configtg='0xffffff|0|0x3FA61F|5|0xffffff|0xC5DDBC|0x000033|2|3|1|_blank'; var files = ""; var links = ""; var texts = ""; //这里设置调用标记 {dede:arclist flag='f' row='5' typeid='3'} linkarr[[field:global.autoindex/]] = "[field:arcurl/]"; picarr[[field:global.autoindex/]] = "[field