KHTML

python打造seo必备工具-自动查询排名

心不动则不痛 提交于 2021-01-19 07:57:59
因为工作需要,利用业余时间开发的,可以查询百度排名+360排名工具,附上代码。 #360搜索排名查询 # -*- coding=utf-8 -*- import requests from lxml import etree headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36' } def ss360(keyword,num,search_url): search_datas='' for x in range(1,num+1): print(f"正在查询第{x}页搜索结果...") url=f"https://www.so.com/s?q={keyword}&pn={x}" html=requests.get(url,headers=headers).text #print(html) con=etree.HTML(html) #print(con) title=con.xpath('//h3[@class="res-title "]/a/text()') #print(title) #print(len(title)) datas=con.xpath('///h3

python 爬取bilibili 视频弹幕

独自空忆成欢 提交于 2021-01-12 10:01:41
1 # -*- coding: utf-8 -*- 2 # @author: Tele 3 # @Time : 2019/04/09 下午 4:50 4 # 爬取弹幕 5 import requests 6 import json 7 import os 8 from lxml import etree 9 10 11 def main(): 12 headers = { 13 " User-Agent " : " Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36 " , 14 } 15 # av13197279 16 url = " https://api.bilibili.com/x/web-interface/view?aid=13197279 " 17 response = requests.get(url, headers= headers) 18 if response.status_code == 200 : 19 cid = json.loads(response.content.decode())[ " data " ][ " cid " ] 20 print ( " cid: " ,

爬虫验证码处理与IP处理

一曲冷凌霜 提交于 2021-01-12 04:16:59
引入 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。   - 1.对携带验证码的页面数据进行抓取    - 2.可以将页面数据中验证码进行解析,验证码图片下载到本地    - 3.可以将验证码图片提交给三方平台进行识别,返回验证码图片上的数据值         - 云打码平台:          - 1.在官网中进行注册(普通用户和开发者用户)        - 2.登录开发者用户:      - 1.实例代码的下载(开发文档-》调用实例及最新的DLL-》PythonHTTP实例下载)      - 2.创建一个软件:我的软件-》添加新的软件      -3.使用示例代码中的源码文件中的代码进行修改,让其识别验证码图片中的数据值 代码展示: # 该函数就调用了打码平台的相关的接口对指定的验证码图片进行识别,返回图片上的数据值 def getCode(codeImg): # 云打码平台普通用户的用户名 username = ' bobo328410948 ' # 云打码平台普通用户的密码 password = ' bobo328410948 ' # 软件ID,开发者分成必要参数。登录开发者后台【我的软件】获得! appid = 6003 # 软件密钥,开发者分成必要参数。登录开发者后台

Python下载网络图片方法汇总与实现

懵懂的女人 提交于 2021-01-06 15:31:03
> 本文介绍下载python下载网络图片的方法,包括通过图片url直接下载、通过re/beautifulSoup解析html下载以及对动态网页的处理等。 >​本期小编推送2021初学者一定会用到的Python资料,含有小编自己呕心沥血整理的免费书籍/视频/在线文档和编辑器/源代码,关于`Python`的安装qun:850973621 ### 通过pic_url单个/批量下载 已知图片url,例如http://xyz.com/series-*(1,2..N).jpg,共N张图片,其链接形式较为固定,这样经简单循环,直接通过`f.write(requests.get(url).content)'即可以二进制形式将图片写入。 ``` import os import requests def download(file_path, picture_url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE", } r = requests.get(picture_url, headers=headers) with open(file_path

sqlmap

ぃ、小莉子 提交于 2021-01-02 19:20:08
sqlmap 1、保存数据包记得把sql注入参数后加上*号,告诉sqlmap注入点位置 GET /vulnerabilities/sqli/?id=1&Submit=Submit HTTP/1.1 Cache-Control: max-age=0 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 Accept-Language: zh-CN,zh;q=0.9 Cookie: PHPSESSID=vfkitbjkbdhqqjcr6ou8bjrb35; security=low Connection: close 2、sqlmap简单判断注入点 获取当前数据库用户名 sqlmap -r /路径/123.txt -v 3 --current-user 获取root账号密码 sqlmap -r /路径/123.txt -v 3 -

Python 爬虫实例(13) 下载 m3u8 格式视频

…衆ロ難τιáo~ 提交于 2020-12-29 22:28:40
Python requests 下载 m3u8 格式 视频 最近爬取一个视频网站,遇到 m3u8 格式的视频需要下载。 抓包分析,视频文件是多个 ts 文件,什么是 ts文件,请去百度吧: 附图:抓包分析过程 直接把 ts文件请求下来,然后合并 ts文件,如果想把 ts文件转换 MP4 格式,请自行百度吧。 完整下载代码: # coding=utf-8 import requests import re import time from bs4 import BeautifulSoup import os session = requests.session() def spider(): url = ' http://xueyuan.91yunxiao.com/videoLesson/play/4028e4115fc893fb015fecfc56240b66.html ' headers = { " Host " : " xueyuan.91yunxiao.com " , " Connection " : " keep-alive " , " Upgrade-Insecure-Requests " : " 1 " , " User-Agent " : " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,

抓取腾讯视频MP4文件

女生的网名这么多〃 提交于 2020-12-29 05:17:38
1. 获取视频播放页地址,如:https://v.qq.com/x/page/g0921owmtc0.html 2. 视频正片开播后,在H5播放器的右键菜单中选择“复制调试信息”。 注意,一定要是H5播放器!不是Flash播放器! 复制出来的信息如下: {"pid":"dac552a0ecf204cded02a7aca790645f","url":"https%3A%2F%2Fv.qq.com%2Fx%2Fpage%2Fg0921owmtc0.html","vid":"g0921owmtc0","version":"3.5.57","platform":"10201","playtype":1,"emsg2":"%7B%22flow%22%3A%5B%221577759284764%20getinfo%20ok%20603%22%5D%7D","id":"","action":"//btrace.qq.com/kvcollect?BossId=4372&Pwd=967411786","getinfo":"%2F%2Fvd.l.qq.com%2Fproxyhttp%2Fvinfoad%26charge%3D0%26defaultfmt%3Dauto%26otype%3Dojson%26guid%3D98d3c0469a9101f5abc5aa6b5dded4b4%26flowid

python urllib和urllib3包使用

依然范特西╮ 提交于 2020-12-26 07:56:50
urllib包 urllib是一个包含几个模块来处理请求的库。 分别是: urllib.request 发送http请求 urllib.error 处理请求过程中,出现的异常。 urllib.parse 解析url urllib.robotparser 解析robots.txt 文件 urllib.request urllib当中使用最多的模块,涉及请求,响应,浏览器模拟,代理,cookie等功能。 1. 快速请求 urlopen返回对象提供一些基本方法: read 返回文本数据 info 服务器返回的头信息 getcode 状态码 geturl 请求的url request.urlopen(url, data=None, timeout=10 ) # url: 需要打开的网址 # data:Post提交的数据 # timeout:设置网站的访问超时时间 from urllib import request import ssl # 解决某些环境下报<urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed ssl._create_default_https_context = ssl._create_unverified_context url = ' https://www.jianshu

C#爬虫使用代理刷csdn文章浏览量

拈花ヽ惹草 提交于 2020-12-25 03:39:52
昨天写了一篇关于“ c#批量抓取免费代理并验证有效性 ”的文章,接着昨天的目标继续完成吧,最终实现的目的就是刷新csdn文章的浏览量(实际上很简单,之前博客园的文章也是可以使用代理ip来刷的,后来不行了),刷文章的浏览量本身是可耻的,没有任何意义,当然技术无罪。之前是在csdn写文章,自从csdn改版之后就主要在博客园写。 1.如何维护代理IP库? 想要使用代理IP,那就必须有一个一定数量、足够有效的代理ip库,在学习阶段,随便玩玩那就只能从免费的代理IP网站上抓取,没有一定数量的代理刷文章流浪量非常慢,首先就是要维护好自己的代理Ip库 之前用过的 西刺代理 、 66ip 比较靠谱,西祠好像有反扒,遇到过一次,不知道是西祠网站的问题还是反扒的策略,这两个网站每分钟抓取的能用的代理大概有2,3个,这已经算的上比较客观的了, data5u、快代理、ip3366网页端更新的非常少,而且有效性比较低,快代理抓取网页还必须设置Useragent,发现设置后获取的ip的端口和网页端不一致,很玩味是吧,没办法免费的就是这样,不然人家就收费了,当然付费的代理也不稳定,但肯定是比免费的好很多。 维护代理质量 从网页端抓取下来的代理,肯定是要经过验证再入库的,最简单的方式就是发起一个请求状态码是否为200。我推荐的免费代理还是上面两个西刺代理和66ip,相对其他的免费代理有效性、数量都比较高。

《大秦赋》最近很火!于是我用Python抓取了“相关数据”,发现了这些秘密......

二次信任 提交于 2020-12-22 05:44:26
为什么需要加星标? 由于 微信公众号出现了 “乱序” 排列 的状况,也就是说: 文章不会按照 “时间顺序” 推送给你。 那么朋友们就不能第一时间,收到我的干货 。因此希望 您抽出一分钟,完成如下三步 。 01 02 03 1845 人已添加“ 星标 ” 文末获取“本文代码” 前言 最近,最火的电视剧莫过于《大秦赋了》,自12月1日开播后,收获了不错的口碑。然而随着电视剧的跟新,该剧在网上引起了 激烈的讨论 ,不仅口碑急剧下滑,颇有 高开低走的趋势 ,同时该剧的评分也由最初的8.9分,下降到了现在的6.5分。 虽然我还没有看过这个新剧,但是对于小伙伴们讨论的内容,却颇有兴趣(主要还是大家老是讨 论这个剧)。因此, 我用Python爬取了《大秦赋》的相关数据 ,进行了一波分析。 数据爬取 巧妇难为无米之炊,做数据分析之前最重要的就是 “数据获取” 。于是,我准备用Python爬取豆瓣上的 短评数据 以及一些 评论时间信息 、 评价星级信息 。 关于数据的爬取主要说以下几个内容: 1) 关于翻页操作 第一页: https://movie.douban.com/subject/ 26413293 /comments?status=P 第二页: https://movie.douban.com/subject/ 26413293 /comments?start= 20 &limit= 20