KHTML

python实现爱奇艺登陆的密码RSA加密

爷,独闯天下 提交于 2020-10-09 08:56:26
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 加企鹅群695185429即可免费获取,资料全在群文件里。资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等 本期,笔者通过Python实现对大麦网近期全国演唱会数据进行爬取,通过分析,我们发现大麦网属于Python爬虫策略中“中等型”难度网站,演唱会数据封装在json文件中。因此,我们简单的通过requests、json就可以将数据爬取出来,后期通过pandas进行数据筛选并保存至Excel文件中。 1.目标网站分析 检查一下看xhr中有没有我们需要的数据。 很好,就在xhr中用json封装了数据。 2.构造相应的Request URL request url中只有一个参数变化,那就是“Page=”这个选项变了,简单了😄,一共6页,直接循环构造了。 for i in range(1,7 ): url =f ' https://search.damai.cn/searchajax.html?keyword=&cty=&ctl=%E6%BC%94%E5%94%B1%E4%BC%9A&sctl=&tsg=0&st=&et=&order=1&pageSize=30&currPage={i}&tn= ' # print(url) 3

自动化运维-记自动添加客户负责人的工作开发

孤者浪人 提交于 2020-10-07 04:42:15
公司自动开始用钉钉后,企业的相关信息化软件开始使用钉钉上的应用程序。与销售公司相关的就是CRM系统。 CRM系统中客户是私人的,如果想多个人同时负责,需要添加客户负责人。由于公司的特殊性质,客户特别多,经常会有人要求增加客户负责人。每天都有几个小时在做这样的工作。钉钉消息、添加负责人,太繁琐了。 学以致用,开发个工具自动化处理任务。 闲话少说,开干。 设计思路 确认CRM是否有自动添加客户负责人的接口 确认钉钉的审批接口是否可以使用 确认接口数据都能拿到后,后台写个服务即可。 CRM 系统分配用户 1 、采集客户信息 分配客户负责人是通过客户的dataid来处理的,首先需要采集客户信息。幸好以前有定时服务采集客户信息。跳过 2 、分配客户负责人接口 客户负责人分配才是这次的自动化处理的关键,通过查看CRM的API接口。可以实现,按照下面的代码执行即可。 public static void ReqDistributionCustomer( string datatids, string distributionUserIds, string userid, string corpid, string token, Action< string > SuccessCallback = null , Action< string > FailCallback = null ) {

HAProxy 高级应用(一)

别等时光非礼了梦想. 提交于 2020-10-04 00:44:09
HAProxy 高级应用 ================================================================================ 概述: 本章将继续上章的内容介绍haprosy代理配置段的相关参数,具体如下: ACL控制访问列表; 4层检测机制: dst,dst_port,src,src_port 7层检查机制:path、req.hdr、res.hdr; http层访问控制相关的参数: block,http-request TCP层的访问控制参数 ================================================================================ 10.修改请求或响应报文首部相关: ★ option forwardfor [ except <network> ] [ header <name> ] [ if-none ] ⊙ 作用: AProxy把请求报文发往后端主机之前在请求报文添加“X-Forwared-For”首部;其值为客户端地址, ⊙ 范围: 都可以使用 ⊙ 参数: [ except <network> ]: 除了xxx不添加外,如从本地访问 [ header <name> ] : 可以自定义首部名称; [ if-none ]: 没有首部时才添加

如何让你在众多二手车中挑中满意的?python帮你实现(附源码)

家住魔仙堡 提交于 2020-08-20 07:08:50
前言 老司机带你去看车,网上的几千条的二手车数据,只需几十行代码,就可以统统获取,保存数据到我们本地电脑上 知识点: 1.python基础知识 2.函数 3.requests库 4.xpath适合零基础的同学 环境: windows + pycharm + python3 爬虫流程: 1.目标网址 2. 发送请求,获取响应 3. 解析网页 提取数据 4. 保存数据 加企鹅群695185429即可免费获取,资料全在群文件里。资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等 步骤: 1.导入工具 import io import sys import requests # pip install requests from lxml import etree # pip 2.获取汽车详情页面的url,解析网站 def get_detail_urls(url): # 目标网址 # url = 'https://www.guazi.com/cs/buy/o3/' # 发送请求,获取响应 resp = requests.get(url,headers= headers) text = resp.content.decode( ' utf-8 ' ) # 解析网页 html = etree.HTML(text) ul = html.xpath( ' //ul[

如何在html中禁止文字的复制

狂风中的少年 提交于 2020-08-19 17:07:33
如何在html中禁止文字的复制 在写页面时,会遇到需要禁止用户复制网页里的某些内容的情况,例如:小说网站等,这时我们就需要通过一些方法来控制,才能达到禁止复制这个目的。 1.禁止选中和禁止右键 在<body>标签中添加以下代码: οncοntextmenu='return false' 禁止右键 οndragstart='return false' 禁止拖动 onselectstart ='return false' 禁止选中 οnselect='document.selection.empty()' 禁止选中 οncοpy='document.selection.empty()' 禁止复制 onbeforecopy='return false' 禁止复制 οnmοuseup='document.selection.empty()' 示例代码如下: <body leftmargin=0 topmargin=0 oncontextmenu='return false' ondragstart='return false' onselectstart ='return false' onselect='document.selection.empty()' oncopy='document.selection.empty()' onbeforecopy='return false'

[分享] ApiPost如何使用测试校验?

て烟熏妆下的殇ゞ 提交于 2020-08-17 06:47:55
什么是测试校验? ​协作开发,版本升级,服务器升级,接口返回有可能因为一些bug,和我们预期结果不一致。为了便于开发&测试人员能够更快的发现bug,有利于整个产品质量以及进度的保证。我们推出测试校验功能。 如何使用测试校验? 1. 定义测试用例 2. 验证测试用例 例: 接口返回: { "errcode": 0, "errstr": "success", "post": [], "get": [], "request": [], "put": "", "header": { "Host": "echo.apipost.cn", "Connection": "keep-alive", "Content-Length": "0", "Accept": "application/json, text/javascript, */*; q=0.01", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN", "Content-Type": "application/json", "Cookie": "PHPSESSID=n3k73k06o6ghnie4e9re4rbf0t", "Origin": "https://echo.apipost.cn", "User-Agent": "Mozilla/5.0

python爬虫入门(一)urllib和urllib2同时使用

我们两清 提交于 2020-08-17 06:27:35
爬虫简介 什么是爬虫? 爬虫:就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。 SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。 浏览器发送HTTP请求的过程: 当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。 当我们在浏览器输入URL http://www.baidu.com 的时候,浏览器发送一个Request请求去获取 http://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。 浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。 浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。 当所有的文件都下载成功后,网页会根据HTML语法结构

python爬虫入门(二)Opener和Requests

风流意气都作罢 提交于 2020-08-17 04:07:22
Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener(也就是我们构建好的)。 但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTPS高级功能。所有要支持这些功能:   1.使用相关的Handler处理器来创建特定功能的处理器对象;   2.然后通过urllib2.build_opener()方法使用这些处理器对象,创建自定义opener对象;   3.使用自定义的opener对象,调用open()方法发送请求。 如果程序里所有的请求都使用自定义的opener,可以使用urllib2.install_open()将自定义的opener对象定义为全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择) 简单的自定义opener() # _*_ coding:utf-8 _*_ import urllib2 # 构建一个HTTPHandler处理器对象,支持处理HTTP的请求 http_handler = urllib2.HTTPHandler() # 调用build_opener()方法构建一个自定义的opener对象,参数是构建的处理器对象 opener =

02爬取豆瓣最受欢迎的250部电影

故事扮演 提交于 2020-08-15 01:45:10
# 爬取豆瓣最受欢迎的250部电影,并写入Excel表格中 import requests,xlwt from bs4 import BeautifulSoup # 请求豆瓣网站,获取网页源码 def request_douban(url): try : # 请求url headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"} response = requests.get(url,headers = headers) # 判断网页的返回码是不是200 print(response.status_code) if response.status_code == 200: return response.text except requests.RequestException: return None book = xlwt.Workbook(encoding = "utf-8",style_compression = 0 ) # 先定义一个Excel表格,写好名称,图片等信息 sheet = book.add_sheet("豆瓣电影Top250",cell

Python爬虫案例:爬取网易云音乐

旧巷老猫 提交于 2020-08-14 20:21:18
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:Jonsson 喜欢的朋友欢迎关注小编,除了分享技术文章之外还有很多福利,私信“资料”可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。 代码如下: import os from lxml import etree import requests # 设置头部信息,防止被检测出是爬虫 headers = { ' User-Agent ' : ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36 ' } url = " https://music.163.com/discover/toplist?id=3778678 " base_url = ' http://music.163.com/song/media/outer/url?id= ' # 新建一个字典用于存储最终所需要的数据 d = dict() re = requests.get(url=url, headers= headers).text #