集搜客网络爬虫

【03】基础:同种网页结构套用采集规则

[亡魂溺海] 提交于 2020-04-11 18:49:49
请先安装爬虫软件。 爬虫软件安装 经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了。 回顾一下,上个教程主要了解了MS谋数台的工作职责-定义采集规则,测试规则无误之后点击MS谋数台右上角的“爬数据”后弹出DS打数机,然后看到打数机窗口正在马不停蹄地抓取数据。这两个部件的工作配合地很紧密。 在学会将xml文件转成Excel之前,先解决当下的一个疑问?如果要采集其他博主主页的微博,是要重新做过规则吗?非也~ 用MS谋数台制定采集规则用了一个样本网址,既然是样本,可想而知,与样本相同结构的网页,都可以套用该规则进行采集了。 为一个采集规则添加一个相同结构的网址就是给该规则添加一个线索。 以后用该规则抓取数据的时候就会运行所有的线索而不仅仅是样本网址。 前一个教程采集微博博主主页是将宝宝主页的网址作为样本网址来制定采集规则的。宝宝之前参加过很火的《奔跑吧兄弟》,现在我想采集兄弟团所有成员的微博主页,只要将他们主页网址当成新的线索添加给之前做的“weibo_博主主页”采集规则就OK了。 怎么添加线索? 第一季兄弟团各个成员的主页网址如下: 学霸邓超: http://weibo.com/dengchao?profile_ftype=1&is_all=1#_0 大黑牛李晨: http://weibo.com/lichenlichen?profile_ftype=1&is_all=1#_0

【02】基础:单页采集(以微博博主主页采集为例)

痞子三分冷 提交于 2020-04-11 18:49:35
请先安装爬虫软件。 爬虫软件安装 ###前言 今天讲讲微博博主主页的采集。 目标是采集博主名称、微博内容、发博日期、微博内容、转发数、评论数和点赞数。 学习流程见下图—— ###一、加载页面,定义主题名 样本网址:最近很火的宝宝的微博主页 http://weibo.com/wbq?refer_flag=1001030101_&is_hot=1#_rnd1471331959489 操作参见图。 ###二、建立整理箱进行内容映射 点击操作栏中的“创建规则”,点击新建,给整理箱取一个名称,整理箱就是存放数据的地方,比如“列表”,箱子必须有,否则程序不知道把采集下来的数据放哪里。 接下来告诉整理箱要采集的数据有哪些,分别取个名字。右击“列表”,选择“添加”,选择“包容”。 输入抓取内容的名称(博主名称)之后,后点击保存。 接下来,右击“博主名称”,选择“添加”,选择“其后”,同理,输入抓取内容的名称后点击保存。 前面说了,我们要采集博主名称、微博内容、发博日期、微博内容、转发数、评论数和点赞数这些字段,那就重复上一步操作分别添加。 接下来要告诉爬虫哪些内容是想采集的(内容映射)—— 在MS谋数台的浏览器窗口,点击博主名称之后,会自动定位到网页标签中的A节点,双击展开A节点,找出包含博主名称的#text节点,我们看到文本内容窗口显示的内容是王宝宝,说明博主名称对应的节点选对了 右击

【05】中级:翻页采集(以微博博主主页采集为例)

蹲街弑〆低调 提交于 2020-04-11 18:04:07
请先安装爬虫软件。 爬虫软件安装 先回顾一下单页采集所讲到的内容。 以微博博主主页采集为例,目标是采集博主名称、微博内容、发博日期、微博内容、转发数、评论数和点赞数。 单页采集的流程共分为四步——加载页面、内容映射、样例复制、存规则和抓数据。 本次讲解的翻页采集的流程相较于单页采集而言,只增加了一个步骤,如图—— 前三个步骤与单页采集前三个步骤一样,这里不进行赘述了,可以回顾原来的文章 《【02】基础:单页采集(以微博博主主页采集为例》 。 现在重点讲解如何设定翻页采集。 四、通过‘爬虫路线’来设定翻页 通过新建爬虫路线来设定采集的翻页路线—— 跳转到爬虫路线工作台。 点击新建,创建一条线索。 选择线索类型,设置翻页线索时通常选择记号线索,本文主要介绍的就是记号线索。 勾选连贯抓取,表示在执行抓取任务时,爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。 勾选连贯抓取后,目标主题名自动填写当前规则主题名,在本规则内不应修改,表示翻页后继续使用当前规则进行抓取。 在爬虫路线工作台中点击定位选项。 线索定位选择偏好class。 (网页结构中的@id属性每个页面不同的几率较大,如果线索定位偏好@id,容易导致在后续的抓取中翻页失败。所以一般我们手工修改选择较为稳定不变的@class属性,作为线索定位的首选项。) 接下来的操作—— 往下滚屏,直到在网页上出现