pyspider

pyspider 安装使用过程的一些坑

别等时光非礼了梦想. 提交于 2019-12-03 06:30:22
1、没有正确安装对应版本的pycurl 原因分析: PyCurl 安装错误,需要安装 PyCurl 库(PyCurl 是一个Python接口, 是多协议文件传输库的 libcurl。类似于urllib Python模块,PyCurl 可以用来从Python程序获取 URL 所标识的对象) 解决方法: 访问 https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl ,下载对应的 wheel 文件,比如我是 Windows 10 64位,Python 3.6.5,则下载 pycurl‑7.43.0.3‑cp36‑cp36m‑win_amd64.whl, 然后使用命令 pip install pycurl‑7.43.0.3‑cp36‑cp36m‑win_amd64.whl 进行安装即可 2、启动pyspider提示语法错误 原因分析: 根据提示发现是async关键字错误,py3.7以上async是关键字 解决方法: 根据提示将对应的.py文件中的async关键字替换成别的名称 python\lib\site-packages\pyspider\run.py python\lib\site-packages\pyspider\fetcher\tornado_fetcher.py 3、提示配置错误 原因分析:

windows安装pyspider教程

匿名 (未验证) 提交于 2019-12-03 00:32:02
1、安装python或者anaconda(在添加环境变量,包括安装路径、Scripts路径等,) 3、在dos中运行pip install -U distribute 5、在浏览器中访问http://localhost:5000/,访问成功则表示pyspider安装成功。 pyspider运行测试: 1、创建项目: 2、对url进行爬取内容,如果url为https,则需要证书才能爬取: 解决方法: 使用 并参考https://cuiqingcai.com/2703.html或者参考 http://blog.csdn.net/asmcvc/article/details/51016485 文末。 文章来源: windows安装pyspider教程

pyspider用法示例

匿名 (未验证) 提交于 2019-12-03 00:22:01
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-06-03 10:12:10 # Project: today from pyspider.libs.base_handler import * import pymongo class Handler(BaseHandler): crawl_config = { } client = pymongo.MongoClient('localhost') db = client['trip'] @every(minutes=24 * 60) def on_start(self): self.crawl(' https://www.tripadvisor.cn/Attractions-g186338-Activities-London_England.h… ', callback=self.index_page) @config(age=10 * 24 * 60 * 60) def index_page(self, response): for each in response.doc('a[href^="http"]').items(): self.crawl(each.attr.href, callback=self.detail_page) next

pyspider框架的基本使用

匿名 (未验证) 提交于 2019-12-03 00:21:02
本文只对pyspider的简单使用作一介绍,有关pyspider的详细使用请看: 点击打开链接 。 1.安装:pip install pyspider 验证安装:pyspider all,安装完成之后,控制台会有如下的输出: 上面的命令意思就是启动pyspider的所有组件,可以看到最后一行输出的是webui界面在5000端口运行的意思,这时我们打开本地的5000端口(http://localhost:5000),看到的就是pyspider的webui界面,如图: 2.点击create,创建一个新的项目,名字随便取,开始的链接写你要抓取的网页的链接,完成之后进入如图的页面: from pyspider.libs.base_handler import * class Handler(BaseHandler): crawl_config = { } @every(minutes=24 * 60) def on_start(self): self.crawl('http://www.baidu.com', callback=self.index_page) @config(age=10 * 24 * 60 * 60) def index_page(self, response): for each in response.doc('a[href^="http"]').items():

pyspider框架学习

匿名 (未验证) 提交于 2019-12-03 00:06:01
1.pyspider的安装 pip install pyspider 2. 启动pyspider: 输入 pyspider all 但是启动pyspider 经常遇到没法正常启动,阻塞到 result_worker starting… ,感觉应该是源码有bug 存在,不过没关系,重新在开一个窗口,执行一下 pyspider all 就可以了。 3. 在通过浏览器访问:localhost:5000/ 进入源码编写界面: 查看result结果: 查看数据库存储: 源码可直接运行,先自行在mysql中手动创建表和字段,原本想在代码里链接数据库的时候通过代码创建表和字段,好像有点问题,暂时先注释掉,后续在来看这个问题: from pyspider . libs . base_handler import * import pymysql class Handler ( BaseHandler ): crawl_config = { } # 连接数据库 def __init__ ( self ): self . db = pymysql . connect ( host = '127.0.0.1' , port = 3306 , db = 'qunar' , user = 'root' , passwd = '123456' , charset = 'utf8' , use_unicode

开源爬虫框架哪家强?是骡子是马,拉出来溜溜就知道了!

匿名 (未验证) 提交于 2019-12-02 22:51:30
Project Language Star Watch Fork Nutch Java 1111 195 808 webmagic Java 4216 618 2306 WebCollector Java 1222 255 958 heritrix3 Java 773 141 428 crawler4j Java 1831 242 1136 Pyspider Python 8581 687 2273 Scrapy Python 19642 1405 5261 看到了吗?星星数排名第一的Scrapy比其他所有的加起来都要多,我仿佛听到他这样说: 优点: 极其灵活的定制化爬取。 社区人数多、文档完善。 URL去重采用布隆过滤器方案。 可以处理不完整的HTML,Scrapy已经提供了selectors(一个在lxml的基础上提供了更高级的接口),可以高效地处理不完整的HTML代码。 缺点: 不支持分布式部署。 原生不支持抓取JavaScript的页面。 全命令行操作,对用户不友好,需要一定学习周期。 结论 篇幅有限,就先选择这三个最有代表性的框架进行PK。他们都有远超别人的优点,比如:Nutch天生的搜索引擎解决方案、Pyspider产品级的WebUI、Scrapy最灵活的定制化爬取。也都各自致命的缺点,比如Scrapy不支持分布式部署,Pyspider不够灵活,Nutch和搜索绑定

python3.7.3安装pyspider遇到的坑

匿名 (未验证) 提交于 2019-12-02 22:51:30
接着上一篇,本来以为pyspider装成功了,后来失业pyspider all验证时,发现又报错了: 原因是从python 3.7开始async和await已经加入保留的关键字中,所以async不能最为函数的参数名 使用Notepad++将run.py中的async统一改为async1,重新运行pyspider all 发现tornado_fetcher.py中也有async,继续修改 发现竟然没有启动app和5000端口 此时再去访问http://localhost:5000端口是没用的,因为没有启动 将weibu目录下的app.py中的async改一下,再次启动pyspider all: 后来终于在网上找到了答案: 最后定位在了wsgidav3.x问题,pyspider会默认安装wsgdav3.x,解决办法是先把3.x卸载,再装2.x ( pip install wsgidav 会默认安装 2.x),为了保险起见,使用pip安装时加上具体版本号 python -m pip install wsgidav==2.4.1 然后pyspider all,发现app和5000端口被启用了,访问http://localhost:5000,发现也ok了 参考文章 pyspider安装中出现的一系列问题 关于pyspider这个问题你遇到了吗?

pyspider启动错误解决(Python 3.7)

匿名 (未验证) 提交于 2019-12-02 22:11:45
问题一 安装好pyspider之后,在启动的时候,报出上图错误。 原因 async 和 await 从 python3.7 开始已经加入保留关键字中. 参考: What’s New In Python 3.7 , 所以 async 不能作为函数的参数名. 解决办法 1. 打开安装Python的位置:python位置\Lib\site-packages\pyspider 参照地址: D:\Anaconda\Lib\site-packages\pyspider 2.修改下列python文件中的 async shark (全部替换) run.py fetcher\tornado_fetcher.py webui\app.py 问题二 管理权限打开命令窗口,运行 pyspider 命令,报下列错 d:\anaconda\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not supported on your platform. warnings.warn("timeout is not supported on your platform.", FutureWarning) [I 190504 11:20:38 result_worker:49] result_worker starting.

windows 下安装pyspider

匿名 (未验证) 提交于 2019-12-02 22:11:45
今天主要介绍一下在Windows下安装pyspider,pyspider是一款用python编写的网络爬虫框架,这个框架最好是在linux下运行,Windows下运行可能会出现兼容性问题,如果实在要在Windows下运行,最好选择32位版本,64位版本可能会出现运行崩溃问题。 https://www.python.org/downloads/windows/ https://bintray.com/pycurl/pycurl/pycurl/view#files 这里注意一点:一般安装python时已经安装了对应的pycurl,如果没有安装,就单独安装一下。(我一开始安装python 3.7,安装后发现没有安装pycurl,然后我看下载链接中没有对应3.7版本的pycurl,所以又卸载重新安装python 3.5,发现自动安装了pycurl) 3、安装好后要配置python环境变量。这里主要写两个路径,一个是python目录,一个是python目录下的scripts目录(这个主要是为了能使用pip命令)。 这里有个技巧,可以不用自己手动添加,在安装python时有个勾选框(add python to path),默认时不勾选的,如果勾选会自动添加环境变量。 http://localhost:5000 ,出现如下界面,说明可以开始使用了。 文章来源: windows

Python的两个爬虫框架PySpider与Scrapy安装

匿名 (未验证) 提交于 2019-12-02 22:11:45
Python的两个爬虫框架PySpider与Scrapy安装 win10安装pyspider: 最好以管理员身份运行CMD,不然可能会出现拒绝访问文件夹的情况! pyspider:pip install pyspider https://docs.pyspider.org/en/latest/ Win10安装Scrapy 最好以管理员身份运行CMD,不然可能会出现拒绝访问文件夹的情况! 1.安装wheel pip install wheel 2.安装lxml https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pip install 绝对路径 3.安装PyOpenssl https://pypi.python.org/pypi/pyOpenSSL#downloads pip install pyOpenSSL 或者 pip install 绝对路径 4.安装Twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted pip install twisted 或下载然后 pip install 绝对路径 5.安装pythwin32 pip install pywin32 https://pypi.org/project/pywin32/ 6.安装Scrapy pip install