selenium+phantomjs

天大地大妈咪最大 提交于 2020-02-17 22:51:09

一.爬虫与反爬斗争—反爬策略
1.通过user-agent客户端标识来判断是不是爬虫
方法:封装请求头:user-agent
2.封ip
方法:设置代理ip
3.通过访问频率判断是否是非人类请求
方法:设置爬取间隔 和爬取策略
4.验证码
方法:识别验证码
5.页面请求不再直接渲染,通过前端js异步获取
方法:a通过selenium+phantomjs来获取数据
b.找到数据来源的接口(ajax接口)
二.页面技术操作
1.js一种语言
获取页面的元素,可以对这些页面元素进行操作,网络数据的获取
2.jquery
他是一个js库,这个库可以使得js编程变得容易一些
3.ajax
同步和异步请求
三.selenium+phantomjs
如果要解决页面js的问题,主要需要一个工具,这个工具(具备浏览器的功能)可以帮助我们来运行获取到js
1.什么是selenum
selenium是一个web自动化测试工具,但是他本身不具有浏览器功能,相当于一个驱动程序,通过工具可以帮我们自动操作一些具有浏览器功能的外部应用
2.什么是phantomjs
phantomjs是内置的无界面浏览器引擎,他可以像浏览器那样加载页面运行页面中的js代码
chromedriver.exe这个是谷歌浏览器驱动程序,通过这个程序可以使得selenium可以调用chrome浏览器。—有界面浏览器。
这两个的功能有界面的更加强大:很多网站还是可以识别你是不是用phantomjs来进行爬取的,也会被禁。
但是有界面的chrome浏览器是不会被禁的,他就像一个真正用户在请求一样
3.selenium和phantomjs的安装。
(1)下载phantomjs和chromedriver.exe
搜索phanomjs镜像
(2)安装:
解压
找到两个压缩包中exe文件,将其复制到anaconda/Scripts目录下面就ok了。
C:\Anaconda3\Scripts
C:\Anaconda3
(3)测试:
在cmd中输入:phantomjs
chromedriver
(4)selenium安装:pip isntall selenium==2.48.0

四、python的anaconda安装
path路径:里面的路径就是为了在cmd中进行命令输入时候进行exe工具查找。
python的安装最重要的两个工具:
python.exe
pip.exe----最重要
where pip 可以查看哪些路径下面有pip,在配置环境变量的时候,把anaconda的C:\Anaconda3\Scripts方法系统path环境变量最最前面。

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!