pyspider

pyspider.报错

◇◆丶佛笑我妖孽 提交于 2020-01-08 23:19:21
1、HTTPError: HTTP 599: SSL certificate problem: unable to get local issuer certificate  HTTP 599_ SSL certificate problem_ unable to get local issuer certificate错误_http___www.54tianzhisheng.cn_-CSDN博客.html( https://blog.csdn.net/tzs_1041218129/article/details/52853465 )  PySpider HTTP 599 arguement validate_cert _ 静觅.html( https://cuiqingcai.com/2703.html ) 2、 3、 https://v.taobao.com/v/content/live?catetype=704&from=taonvlang&page=1 4、 5、 来源: https://www.cnblogs.com/pythonzc/p/12169085.html

2、Pyspider使用入门

走远了吗. 提交于 2020-01-05 06:33:24
1、接上一篇,在webui页面,点击右侧【Create】按钮,创建爬虫任务 2、输入【Project Name】,【Start Urls】为爬取的起始地址,可以先不输入,点击【Create】进入: 3、进入爬取操作的页面 整个页面分为两栏,左边是爬取页面预览区域,右边是代码编写区域。下面对区块进行说明: 左侧绿色区域:这个请求对应的 JSON 变量,在 PySpider 中,其实每个请求都有与之对应的 JSON 变量,包括回调函数,方法名,请求链接,请求数据等等。   绿色区域右上角Run:点击右上角的 run 按钮,就会执行这个请求,可以在左边的白色区域出现请求的结果。   左侧 enable css selector helper: 抓取页面之后,点击此按钮,可以方便地获取页面中某个元素的 CSS 选择器。   左侧 web: 即抓取的页面的实时预览图。   左侧 html: 抓取页面的 HTML 代码。   左侧 follows: 如果当前抓取方法中又新建了爬取请求,那么接下来的请求就会出现在 follows 里。   左侧 messages: 爬取过程中输出的一些信息。   右侧代码区域: 你可以在右侧区域书写代码,并点击右上角的 Save 按钮保存。   右侧 WebDAV Mode: 打开调试模式,左侧最大化,便于观察调试。 4、代码编辑区 1 #!/usr/bin

Pyspider的基本使用 -- 入门

谁都会走 提交于 2020-01-01 16:17:47
简介 一个国人编写的强大的网络爬虫系统并带有强大的WebUI 采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器 官方文档: http://docs.pyspider.org/en/latest/ 安装 pip install pyspider 安装失败的解决方法 启动服务 命令窗口输入pyspider 打开Web界面 浏览器输入localhost:5000 创建项目 删除项目 删除某个:设置 group 为 delete ,status 为 stop ,24小时之后自动删除 删除全部:在启动服务的路径下,找到它自己生成的data目录,直接删除目录里的所有文件 禁止证书验证 加上参数 validate_cert = False 使用方法 on_start(self) 入口方法,run的时候,默认会调用 crawl() 生成一个新的爬取请求,类似于scrapy.Request,接受的参数是ur1和callback @every(minutes=2, seconds=30) 告诉scheduler两分30秒执行一次 @config(age=10 * 24 * 60 * 60) 告诉调度器(单位:秒)、这个请求过期时间是10天、10天之内不会再次请求 @config(priority=2) 优先级

从 pip install pyspider 到 运行pyspider 问题

允我心安 提交于 2020-01-01 01:12:22
环境 Python 3.7.6 windows10 系统 1. pip install pyspider 后面需要用到模块 pycurl 没有的 pip install pycurl 这一步能直接安装最好 如果安装失败 点击链接 下载回来安装 2. 运行 pyspider 1. 第一个坑: async 关键字错误 解决办法 找到 python 路径下的 Lib\site-packages\pyspider 路径 run.py fetcher\tornado_fetcher.py webui\app.py 把上述文件 的 async 替换成 其他变量名 2. 第二坑 :‘Curlasync_HTTPClient’ 包导入错误 解决办法 把 报错文件 的 ‘Curlasync_HTTPClient 替换成 CurlAsyncHTTPClient 3.第三坑:‘SimpleasyncHTTPClient’ 包导入错误 和上面一样替换成 SimpleAsyncHTTPClient 4.第四坑:一直卡在 result_worker starting… 解决办法 : 用 管理员权限运行 再不行 关闭防火墙 或者 配置防火墙的规则 运行: pyspider 访问: localhost:5000 5. 写 爬虫 跳转到下一个响应函数 的时候 报 HTTP 599: SSL certificate

pyspider + RabbitMQ 使用记

南笙酒味 提交于 2019-12-06 00:58:27
接到一个爬虫任务,项目比较巨大,原来想用 Requests 配合正则做爬虫。后来得知了 pyspider 这个神器,才知道之前的想法 low 爆了。 pyspider GitHub 按照 GitHub 上的安装教程安装好以后,我们就可以通过 pyspider 命令来启动这个神器,然后在浏览器中打开 http://localhost:5000/ 就可以看到界面了。首先是一个 Dashboard,我们在这里可以创建爬虫项目,点击 Create 然后输入项目名就可以看到代码了。 关于项目的帮助可以看文档,在 GitHub 上可以找到该项目的 Docs 链接,我们现在上来直接看代码,我用中文做下注释。 from pyspider.libs.base_handler import * # 引入 pyspider 的 base_handler,这个是用来当基类的。 # 以下就是我们写的类。 class Handler(BaseHandler): crawl_config = { } # 这个是作为整个项目的全局参数的设置,比如 proxy。 @every(minutes=24 * 60) # 这句话是定时启动的意思,这里就是说每一天启动一次。 # 以下为爬虫的入口 def on_start(self): # 抓 http://scrapy.org/ 的页面,将返回的内容交给 index

用Docker部署一个自己的可视化爬虫系统

China☆狼群 提交于 2019-12-06 00:50:38
Docker作为一种流行的容器技术,笔者也来玩玩,正好最近在开发一个可视化爬虫系统,Alpha版完成需要部署到服务器上,但是这个系统设计到的组建有点多,包括了Python3、Django、Pyspider、MySQL、MongoDB、Redis,好吧,涉及的框架确实有点多,Docker走起~ 为什么这么多呢~~因为 用户数据库采用mysql、消息队列采用redis、存储数据采用mongodb、web框架采用Django、爬虫框架采用pyspider,不要问我为什么不用一种数据库就好,我也不知道~~,好吧,开始搭建docker。 环境:Centos7 1、 安装docker sudo yum install docker 2、 启动docker服务,设置开机启动 systemctl start docker.service systemctl enable docker.service 3、 安装基础镜像 docker pull docker.io/mysql docker pull docker.io/redis docker pull docker.io/mongo docker pull pyspider 4、启动mysql服务 docker run --name 容器名称 -v 本地数据存储绝对目录路径:/var/lib/mysql -e MYSQL_ROOT

小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装

拟墨画扇 提交于 2019-12-05 21:58:25
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Linux基础入门 小白学 Python 爬虫(4):前置准备(三)Docker基础入门 小白学 Python 爬虫(5):前置准备(四)数据库基础 小编,你还有完没完!!!前置准备都准备这么多了,还不开始正文!!! 别急别急,前置准备的最后一篇了,我们这几篇总共介绍了基本类库的安装、 Linux 基础、 Docker 基础和本篇的爬虫框架的安装。主要是内容有些多,小编怕写在一起各位同学看不下去,所以才分成多篇内容(悄悄的说,这样小编也能多推几天嘛)。 pyspider 安装 pyspider 是由国人 binux 开源的强大的网络爬虫框架。 pyspider 自带 WebUI (这个很关键),这样我们可以实时的看到更多的数据,并且它还带有脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息队列,还支持JavaScript渲染页面的爬取,异常强大。 Github 链接: https://github.com/binux/pyspider 官方文档: http://docs.pyspider.org/ 开始安装,我们还是使用 pip 进行安装: pip

用PySpider搜集2017年高校招生章程

天涯浪子 提交于 2019-12-05 04:24:56
个人认为PySpider是一个十分容易上手而且功能强大的Python爬虫框架。支持多线程爬取、JS动态解析、出错重试、定时爬取等等的功能。最重要的是,它通过web提供了可操作界面,使用非常人性化。 最近由于工作的原因,秉承这服务广大高考考生和家长的态度ヾ(≧O≦)〃嗷~,我搜集了2017年2000多所高校的高校招生章程。 安装PySpider 首先先要安装pip跟phantomjs: 1 sudo apt install python-pip phantomjs phantomjs是一个基于webkit内核的无界面浏览器,提供JavaScript API接口。在PySpider中用于JS动态解析。 之后可以用pip直接安装PySpider: 1 sudo pip install pyspider 通过以下指令就可以启动PySpider啦: 1 pyspider all 打开浏览器访问http://localhost:5000可以看到web界面: 之后点击Create可以新建一个爬虫项目: 之后就可以看到一个爬虫操作的页面: 页面分开为两半。左半边是爬虫结果预览,右半边是爬虫代码编写区域。 左侧上半部分是爬虫的每个网络请求的解析。下半部分是爬虫页面浏览。 最下面有5个按钮: enable css selector helper按钮:点击它启动css selector helper

网络爬虫08: PySpider爬虫框架

别等时光非礼了梦想. 提交于 2019-12-04 03:49:11
爬虫的基础知识到这里,已经可以暂时告一段落,接下来就是学会使用框架来写爬虫,用框架会使爬虫代码更加简洁。在这之前,我也了解了一下关于Python爬虫都有哪些框架 Python常用爬虫框架 1.scrapy (推荐) 地址: https://scrapy.org/ Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。另外,Scrap,是碎片的意思,这个Python的爬虫框架叫Scrapy 2.Crawley 地址: http://project.crawley-cloud.com/ 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等 3.Portia 地址: https://scrapinghub.com/portia Portia 是 scrapyhub 开源的一款可视化爬虫规则编写工具。Portia 提供了可视化的 Web 页面,只需通过简单点击,标注页面上需提取的相应数据,无需任何编程知识即可完成爬取规则的开发。这些规则还可在 Scrapy 中使用,用于抓取页面 4.PySpider 地址: http://www.pyspider.cn/ PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI

让PIP源使用国内镜像,提升下载速度和安装成功率

a 夏天 提交于 2019-12-04 00:45:49
对于Python开发用户来讲,PIP安装软件包是家常便饭。但国外的源下载速度实在太慢,浪费时间。而且经常出现下载后安装出错问题。所以把PIP安装源替换成国内镜像,可以大幅提升下载速度,还可以提高安装成功率。 国内源: 新版ubuntu要求使用https源,要注意。 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 华中理工大学:http://pypi.hustunique.com/ 山东理工大学:http://pypi.sdutlinux.org/ 豆瓣:http://pypi.douban.com/simple/ 临时使用: 可以在使用pip的时候加参数-i https://pypi.tuna.tsinghua.edu.cn/simple 例如:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspider,这样就会从清华这边的镜像去安装pyspider库。 永久修改,一劳永逸: Linux下,修改 ~/.pip/pip.conf (没有就创建一个文件夹及文件。文件夹要加“.”,表示是隐藏文件夹)