scrapyd

scrapyd使用教程

故事扮演 提交于 2020-11-29 04:49:33
1. 安装服务器: pip install scrapyd 启动: scrapyd 访问:127.0.0.1:6800 2. 安装客户端 pip install scrapyd-client 3. 进入爬虫项目根目录:找到 scrapy.cfg 文件 修改如下 [settings] default = blog.settings [deploy:zwb] url = http://localhost:6800/ project = blog 4. 发布项目 scrapyd-deploy target -p prject 这里target 为你的服务器命令,prject是你项目的名字,发布项目之前我们的scrapyd.cfg必须修改,上面我们已经修改过了, 因此我的命令是:scrapyd-deploy zwb -p blog scrapyd-deploy < target> -p < project> --version < version> 4.2 启动爬虫 curl http://localhost:6800/schedule.json -d project=blog -d spider=demo 4.3 停止爬虫 curl http://localhost:6800/cancel.json -d project=blog -d job=demo blog:你爬虫项目的名字

scrapyd的Windows管理客户端

喜欢而已 提交于 2020-10-21 21:37:05
ScrapydManage GitHub地址: https://github.com/kanadeblisst/ScrapydManage 码云: https://gitee.com/kanadeblisst/ScrapydManage scrapyd的Windows管理客户端,软件只是将scrapyd的api集成到exe文件中,软件是由aardio写的,GitHub有源码,可以自行编译,也可以下载GitHub中release已编译的exe文件。 主机管理界面 右键菜单: 添加主机 添加主机顾名思义就是添加scrapyd的api地址,例如127.0.0.1:6800。不理解scrapyd怎么使用的可以参考官方文档: https://scrapyd.readthedocs.io/en/stable/index.html。其实很简单,pip install scrapyd,然后命令行输入scrapyd,或者先在当前目录创建scrapyd.conf,修改一些配置参数然后在输入scrapyd运行。 【参考配置】: [scrapyd] eggs_dir = D:/scrapyd/eggs logs_dir = D:/scrapyd/logs items_dir = D:/scrapyd/items jobs_to_keep = 5 dbs_dir = D:/scrapyd/dbs max

Python爬虫入门教程 82-100 在windows搭建scrapyd跑scrapy爬虫

我只是一个虾纸丫 提交于 2020-10-18 04:18:47
Python爬虫入门教程 82-100 写在前面 编写一个简单的scrapy爬虫 发布scrapy爬虫到scrapyd中 再次查看scrapy.cfg文件,并上传项目到scrapyd上 scrapyd运行你的项目 写在后面 梦想橡皮擦:2020年如果你还在用windows7系统的电脑写程序,那么你会碰到跟我一样的好多问题,幸运的是解决问题的过程是充满快乐的~ 爬虫百例教程导航链接 : https://blog.csdn.net/hihell/article/details/86106916 写在前面 完成这篇博客之前,你需要再次认识几个新的词语,第一个是 scrapy ,这个比较简单了,爬虫框架,我们可以用它写爬虫,第二个 scrapyd 就是今天标题里面的新单词,它相当于 来源: oschina 链接: https://my.oschina.net/u/4378879/blog/4541889

python学习之ajax和可视化管理工具

一曲冷凌霜 提交于 2020-08-17 10:45:32
Ajax爬虫 浏览器中可看到正常显示的数据,但使用requests得到的结果并没有。 这是什么原因呢? requests获取的是原始的HTML文档,而浏览器中的页面是经过JS处理数据后生成的结果。 这些数据的来源有哪些情况呢? Ajax加载、包含在HTML文档中、经过JavaScript和特定算法计算后生成 Ajax(Asynchronous JavaScript and XML)异步的JS和XML。原理是: 利用JS在保证页面 不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。 Ajax如何分析页面? 拖动刷新的内容由Ajax加载且页面的URL无变化,那么应该到哪里去查看这些Ajax请求呢? 开发者工具(F12)->Network选项卡, 获取页面加载过程中Browser与Server之间请求和响 应。 筛选出所有的Ajax请求。在请求的上方有一层筛选栏,直接点击XHR(Ajax特殊的响应类型) 模拟Ajax请求,提取我们所需要的信息。 打开Ajax的XHR过滤器,然后一直滑动页面以加载新的微博内容。可以看到,会不断有 Ajax请求发出。请求的参数有4个:type、value、containerid和page。 基于Ajax和requests采集器的微博爬虫 import os import requests from colorama import Fore

logstash配置

≡放荡痞女 提交于 2020-08-13 08:53:46
服务器:centos6.7 安装logstash sudo yum install logstash 启动: 其中scrapyd_conllect.conf为配置文件 nohup sudo /usr/share/logstash/bin/logstash -f scrapyd_collect.conf & logstash收集python scrapy日志并发送给ES的config文件如下: input { file { path => [ " /var/log/spiders/*/*/*.log " ] #收集/var/log/spiders/文件夹下的日志文件 codec => multiline { pattern => " ^%{TIMESTAMP_ISO8601} " negate => true what => " previous " } type => "spider _log " #类型名称 # tags =>[ " XX.XX.XX.XX " ] } } ##过滤 filter{ grok { match => { " message " => " %{DATA:log_date} %{TIME:log_localtime} \[%{DATA:log_class}\] %{WORD:log_type}: %{GREEDYDATA} " } } # if [log

logstash配置

落爺英雄遲暮 提交于 2020-08-13 05:05:57
服务器:centos6.7 安装logstash sudo yum install logstash 启动: 其中scrapyd_conllect.conf为配置文件 nohup sudo /usr/share/logstash/bin/logstash -f scrapyd_collect.conf & logstash收集python scrapy日志并发送给ES的config文件如下: input { file { path => [ " /var/log/spiders/*/*/*.log " ] #收集/var/log/spiders/文件夹下的日志文件 codec => multiline { pattern => " ^%{TIMESTAMP_ISO8601} " negate => true what => " previous " } type => "spider _log " #类型名称 # tags =>[ " XX.XX.XX.XX " ] } } ##过滤 filter{ grok { match => { " message " => " %{DATA:log_date} %{TIME:log_localtime} \[%{DATA:log_class}\] %{WORD:log_type}: %{GREEDYDATA} " } } # if [log

django--中运行scrapy框架

两盒软妹~` 提交于 2020-08-12 05:03:43
1.新建一个django项目, 2.前端展示一个按钮 <form action="/start/" method="POST"> {% csrf_token %} <input type="submit" value="启动爬虫"> </form> 3.在django项目的根目录创建scrapy项目 4.cmd命令行运行:scrapyd 启动服务 5.将scrapy项目部署到当前工程:scrapyd-deploy 爬虫名称 -p 项目名称 6.views.py # 首页 def index(request): return render(request,'index.html',locals()) def start(request): if request.method == 'POST': # 启动爬虫 url = 'http://localhost:6800/schedule.json' data = {'project': 'ABCkg', 'spider': 'abckg'} print(requests.post(url=url, data=data)) return JsonResponse({'result':'ok'}) 7.在本地6800端口点击jobs当前爬虫项目就在运行了。 8.写一个按钮,点击停止scrapy爬虫 def stop(request): if

Scrapyd-Deploy: SPIDER_MODULES not found

♀尐吖头ヾ 提交于 2020-08-09 17:19:34
问题 I am trying to deploy a scrapy 2.1.0 project with scrapy-deploy 1.2 and get this error: scrapyd-deploy example /Library/Frameworks/Python.framework/Versions/3.8/bin/scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please import from `w3lib.http` instead. from scrapy.utils.http import basic_auth_header fatal: No names found, cannot describe anything. Packing version r1-master Deploying to project "crawler" in http://myip:6843/addversion.json Server