【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>>
可能有朋友不知道贝壳采集器,我再介绍一下:贝壳采集器 一款谷歌插件,可以方便的抓取网页上的内容:文字、链接、图片、表格等,而无需写一行代码。
贝壳采集器有如下优点——
免费
不受操作系统限制,只要安装Chrome浏览器或者Chrome内核浏览器即可运行,比如360浏览器、QQ浏览器
操作简单,易上手。(很多没有技术背景的同学,都可以快速学会)
功能强大:不仅可以抓静态网页,对于js动态加载的数据,也很容易抓取
自动识别:绝大部分网站页面主体内容都能自动识别出来
根据已经测试的经历,下列类型网站均可抓取——
贝壳、京东、美团、链家、赶集等
微信公众号、简书、国美、知乎、博客等
淘宝、阿里巴巴、苏宁易购、网易严选等
可以在浏览器查看到的数据,基本都可抓取。
一、常见问题
1、下载了贝壳采集器插件安装包,但是不会安装怎么办?
如果你对插件的使用及安装没有接触过,一头雾水,没关系,可以从链接: http://www.728data.com/zh-cn/advanced/framework.html?id=title-Introi下的插件安装教程查看各种浏览器的安装方法。
比如谷歌下载好以后,将此插件安装包,拖到chrome://extensions/页面,按照提示安装即可。
2、贝壳采集器安装好后,如何使用呢?
有的同学,贝壳采集器安装成功,然后在浏览器右侧会看到安装好的贝壳采集器图标,然后鼠标左键 - -> 点击登录 - ->跳转登录界面,登录后就可以在首页输入想采集的网址,点击贝壳采集按钮就可以配置想采集的网址了。如下图所示:
3、打开配置页面后,没有自动识别出想采集的信息怎么办? 比如我想采集支教网的招募信息,但是点击贝壳采集后出现的配置页面自动识别出了区划大类,如下图:
此时就需要清空字段,然后将页面类型由自动采集改为手动识别列表,然后点击页面元素,
提示:!! 每次如果重新手动识别列表的话,都需要重新选择下页面类型:手动识别列表;另外使用方式是点击页面中列表下的两个不同单元的元素就可以识别出列表了;
4、数据有好多页,但实际为什么只抓取第一页就结束了? 你可能配置完成后忘记查看分页类型的状态栏是否识别成功了 ,一定要在每次配置完后看看下一页是否识别成功,正常识别成功后”下一页”按钮会会变色,分页类型栏会显示自动识别分页
5.采集的网站为滚动加载的怎么办? 很简单,只需要将配置页面的分类类型配置修改为滚动加载就行了:
6.采集的网站不光滚动,还有点击加载怎么办? 同学,这时候需要采集配置的里神器<预操作>来解决我们的难题了,比如我在采集简书的时候遇到过类似的问题,简书首页的特点是先滚动几次,才会到底部然后出现点击加载类的按钮。解决此类的问题的流程为: 点击预操作 - ->点击滚动页面 - -> 设置滚动次数、滚动间隔(根据具体次数调试设置)
- ->修改分页类型为:滚动加载(点击)-->点击页面‘阅读更多’按钮 这样就能正常采集了,操作流程如下图:
7. 需要用户登陆的网站怎么办,贝壳采集在哪里配置呢? 这个就是贝壳采集器比其他采集器优秀的地方了,贝壳采集器不需要模拟用户登录,本身就是替代用户的一个机器人,贝壳采集器不会记录你的用户名密码,假如需要登陆网站,你只需要像平常浏览网站一样在浏览器上登录下就可以了
8.遇到验证码反爬怎么办? 贝壳采集本身是替代用户做重复性的工作,所以本身就是真实的浏览器环境,我们测试了好多网站,出现验证码的几率很小,即使出了验证码,贝壳采集器也会智能识别出来,暂停采集任务,然后以弹窗的形式提示您,等您手工打码之后在任务运行监控页面再次点击开始采集任务就行了
9.我想采集页面的一个字段怎么办? 很简单,你只需要点击想采集的位置就行了,然后会给是信息 ,比如点击到选电影就会出现这样的提示框,如果你像采集整列,那么选中提取列表按钮;如果你像提取text、class、href全部信息,那么你可以选中提取全部信息,也可以挨个选中,光标放到图标还可以查看识别出来的内容。
10.下载后的数据在哪看呢? 贝壳采集器在采集过程中会有日志输出点击查看详细信息会看到正在采集的日志信息和数据信息
也可在左侧任务栏点击查看
来源:oschina
链接:https://my.oschina.net/u/4420176/blog/3152529