官方文档

python爬虫----(4. scrapy框架,官方文档以及例子)

佐手、 提交于 2020-03-01 14:19:17
官方文档: http://doc.scrapy.org/en/latest/ github例子: https://github.com/search?utf8=%E2%9C%93&q=scrapy 剩下的待会再整理...... 买饭去...... --2014年08月20日19:29:20 の...刚搜狗输入法出问题,直接注销重新登陆,结果刚才的那些内容全部没了。看来草稿箱也不是太靠谱呀!!! 再重新整理下吧 -- 2014年08月21日04:02:37 (一)基本的 -- scrapy.spider.Spider (1)使用交互shell dizzy@dizzy-pc:~$ scrapy shell "http://www.baidu.com/" 2014-08-21 04:09:11+0800 [scrapy] INFO: Scrapy 0.24.4 started (bot: scrapybot) 2014-08-21 04:09:11+0800 [scrapy] INFO: Optional features available: ssl, http11, django 2014-08-21 04:09:11+0800 [scrapy] INFO: Overridden settings: {'LOGSTATS_INTERVAL': 0} 2014-08-21 04:09

varnish 4.0 官方文档翻译10-用户手册-Storage backends

我与影子孤独终老i 提交于 2019-12-05 14:47:22
Storage backends 存储后端 Intro varnish拥有可插入式的存储后端,它可以存储数据在在各种不同表现特性的后端中。默认的配置就是使用限制了大小的malloc后端(基于内存的)。对于一些vanish部署方式,你可能需要调整储存设置来适合相应的部署方式。 malloc syntax: malloc[,size] malloc是基于内存的后端。每个对象都将从内存中分配资源来存储。如果你的系统运行内存较小,swap将会被使用。 请注意,该尺寸限制只限制了实际存储,同时使用各种内部机制使得每个对象在内存中大约占1k,这种情况也包括在真实的存储中。 size参数指定最大分配给vanishd的内存数量。size的假定单位是byte,除非你指定下面的一个后缀: K, k The size is expressed in kibibytes. M, m The size is expressed in mebibytes. G, g The size is expressed in gibibytes. T, t The size is expressed in tebibytes. 默认size是不限制的 malloc的性能依赖于内存速度,所以很快。如果数据集大于可用内存,malloc的性能将依赖操作系统的实际分页能力。 file syntax: file[,path[

varnish 4.0 官方文档翻译9-用户手册- 向Vanish下发指令

别说谁变了你拦得住时间么 提交于 2019-12-04 18:04:03
CLI-bossing Varnish around CLI 向Vanish下发指令 一旦vanish启动,你可以使用命令行接口来控制它。 最轻松的使用CLI的方法是在运行varnishd的机器上运行,varnishadm varnishadm help 如果你想远程使用varnishadm,有两种方法。 你可以使用ssh登录到运行varnishd的机器上然后varnishadm ssh $http_front_end varnishadm help 同时你也可以配置vanishd接受远程的CLI连接,(使用-T和-S参数) varnishd -T :6082 -S /etc/varnish_secret 然后在远程主机上运行vanishadm,像这样 varnishadm -T $http_front_end -S /etc/copy_of_varnish_secret help 但是你也看到,ssh是更方便的。 如果运行vanishadm没有添加参数,它将会从标准输入读取CLI命令,如果你指定了参数,它将这些参数作为单个CLI命令来执行。 CLI总是返回一个状态码,告诉你操作的结果,'200'为成功,其他状态码就有问题了。 vanishadm退出时使用状态1,并且如果不是200的状态码,它将在标准错误输出中打印状态码。 What can you do with the CLI

varnish 4.0 官方文档翻译16-Backend servers/M/B/D/H

坚强是说给别人听的谎言 提交于 2019-12-02 07:53:51
Backend servers varnish有"后端"或者"源"服务器的概念。backend server提供给varnish加速的内容。 第一步设置是告诉varnish从哪儿找到backend server。使用你喜欢的编辑器打开varnishd引入的VCL文件。 VCL文件的开头有一小段有点像这样: # backend default { # .host = "127.0.0.1"; # .port = "8080"; # } 去掉注释后 backend default { .host = "127.0.0.1"; .port = "8080"; } 这样一段配置在varnish中定义了一个后端,被叫做default。(和c的函数定义有点相似),当varnish需要从后端获得内容时,它将连接127.0.0.1的8080端口。 varnish可以定义多个后端,也可以将几个后端放在一个后端集群里面已达到负载均衡的目的。 Multiple backends 某些情况下你可能需要让varnish缓存多个后端的内容。你可能想让varnish映射所有的url在单个后端上,或者是多个后端。这里有些参数可以满足这样的需求。 现在我们需要在PHP站点中引入java应用。java应用的链接都是以/java/开头的。 处理java应用的服务器监听在8000端口上。默认的default

varnish 4.0 官方文档翻译2-安装varnish

China☆狼群 提交于 2019-12-02 07:53:39
Varnish Installation varnish的安装 本节包含了varnish安装的准备工作,一步一步的安装过程,怎样获取帮助,在哪里寻求帮助,已经怎样报告bug。也包含了帮助你在某些特殊的系统上安装varnish的注意事项. Prerequisites Installing Varnish Source or packages? FreeBSD Red Hat / CentOS Debian/Ubuntu Compiling Varnish from source Build dependencies on Debian / Ubuntu Build dependencies on Red Hat / CentOS Compiling Varnish Installing Getting help IRC Channel Mailing Lists Trouble Tickets Commercial Support Reporting bugs Varnish crashes Varnish goes on vacation Varnish does something wrong Platform specific notes Transparent hugepages on Redhat Enterprise Linux 6 OpenVZ TCP keep

varnish 4.0 官方文档翻译7-用户手册-安全第一

余生颓废 提交于 2019-12-02 07:53:24
Security first 安全第一 如果你仅仅抓专注于运行varnish,或者所有人都是这个观点,那么就可以跳过该节了.我们保护你的方方面面当http请求来的时候. 如果你的web基础设施是外包的,管理是分开的,那么你就需要考虑安全了. Varnish在4个权威的等级提供安全,大致关系到怎样让命令生效和在哪儿生效. the command line arguments, the CLI interface, VCL programs, and HTTP requests. Command line arguments 命令行参数 最高安全定理是决定和定义varnish的启动参数在一个表单里面,我们使用这个策略是为了新的操作也是安全的. 最重要的的决定是确保这些: Who should have access to the Command Line Interface? 谁有命令行的权限? Which parameters can they change? 他们可以修改哪些参数? Will inline-C code be allowed? 哪些内建C代码是被允许的? If/how VMODs will be restricted? 是否VMODs是被限制,怎样被限制? CLI interface access CLI接口权限 命令行接口可以通过三个方式进入.

activeMQ5官方文档翻译-初始化配置

给你一囗甜甜゛ 提交于 2019-12-02 00:40:37
首先你需要把jar包加到classpath 所需的jar包 为了使ActiveMQ更容易使用,默认的 activemq-all.jar包 包含了所有需要用到的库文件。如果你喜欢以明确的控制jar包的方式来使用 ActiveMQ,那下面是每个需要用到的jar包的列表: activemq-broker.jar activemq-client.jar activemq-kahadb-store.jar activemq-spring.jar slf4j-api.jar slf4j-log4j12.jar log4j-1.2.17.jar J2EE APIs: 可以从sun公司(现在应该是oracle公司)下载j2ee.jar,也可以从你的j2ee容器中去获取或者你也可以使用apache Geronimoe服务器以自由软件的方式发布的geronimo-spec-j2ee.jar。If you are inside a servlet container and being dependent on the j2ee.jar causes you troubles,我们依赖到的j2ee相关的jar包如下: geronimo-spec-jms.jar geronimo-spec-jta.jar geronimo-spec-j2ee-management.jar

varnish 4.0 官方文档翻译17-Misbehaving servers

让人想犯罪 __ 提交于 2019-12-01 04:01:46
Misbehaving servers varnish有个关键特性,为misbehaving(行为不端,诡异的)web服务器或者应用服务器提供保护的能力。 Grace mode 当几个客户端请求同一个页面的时候,varnish只发送一个请求到后端服务器,然后让其他几个请求挂起并等待返回结果;获得结果后,其它请求再复制后端的结果发送给客户端。有些产品中需要调用其他来将请求合并,而varnish自动做这些。 但如果同时有数以千计的请求,那么这个等待队列将变得庞大,这将导致2类潜在问题: 惊群问题(thundering herd problem),即突然释放大量的线程去复制后端返回的结果,将导致负载急速上升; 没有用户喜欢等待; 为了解决这类问题,可以配置varnish在缓存对象因超时失效后再保留一段时间,以给那些等待的请求返回过期的内容(stale content)。 为了提供给用户过期的内容,我们必须先有这些内容。因此我们在VCL中配置如下,使得varnish能在内容过期过后依然保持2分钟: sub vcl_backend_response { set beresp.grace = 2m; } 现在Varnish允许在对象过期后2分钟内提供给客户端。同时varnish也将刷新这个对象。刷新动作是异步发生的,发生在新的对象将替换老对象的同时。 我们可以在vcl

varnish 4.0 官方文档翻译21-Reporting and statistics

谁都会走 提交于 2019-12-01 04:01:32
Reporting and statistics 本部分包括如何查看Varnish正在做什么,从每个http请求流的详细记录到汇总统计计数器。 Logging in Varnish Statistics varnishtop varnishhist varnishstat Logging in Varnish Varnish中一个很棒的特点是工作日志的记录方式。varnish不记录日志到日志文件,而是调用VSL记录到共享内存片段,VSL-varnish共享日志。当这个片段被写完后,varnish开始覆盖老数据。 这种方式比记录到文件快的多得多,并且不需要磁盘空间。除此之外VSL可以给到你需要的尽可能多的信息。 另一方面,如果你忘记有程序实际在写日志到磁盘,日志将会占用过多的磁盘。 varnishlog是可以用来查看varnish记录了什么的程序。varnish提供原生的日志,所有的都被写到日志里。其他一些客户端也能访问日志,一会儿向你展示。 在启动varnish的终端窗口键入varnishlog(varnish-4.0.3: varnishlog -v) 然后回车。 你将看到一些行,缓慢滚动(取决于你的日志量)像这样: 0 CLI - Rd ping 0 CLI - Wr 200 PONG 1273698726 1.0 varnish 主进程检查cache进程,为了查看是否一切ok

varnish 4.0 官方文档翻译17-Hashing

こ雲淡風輕ζ 提交于 2019-12-01 04:01:19
Hashing 实质上,当Varnish存储内容在缓存中时,它也把如何发现这个对象的哈希键和对象一起存储。默认设置的hash键是基于内容的的主机名或者ip地址和URL计算出的。(url+host或者url+ip) 默认的VCL: sub vcl_hash { hash_data(req.url); if (req.http.host) { hash_data(req.http.host); } else { hash_data(server.ip); } return (lookup); } 正如你看见那样,首先检查 req.url 然后如果 req.http.host 存在的话检查 req.http.host 。 需要指出的是在哈希之前varnish不会将hostname或者URL转换成小写,因此“Varnish.org/”和“varnish.org/”理论会导致不同的缓存条目。然而,浏览器,往往小写主机名。 你可以修改hash。这种方式你可以让Varnish根据任意算法提供不同的内容给不同的客户端。 你如果想基于源ip地址提供不同语言的页面给你的用户。你需要一些 根据ip地址判断是哪个国家的VMOD ,然后放在哈希中。看起来像这样: In vcl_recv: set req.http.X-Country-Code = geoip.lookup(client.ip);