爬虫

爬取知乎60万用户信息之后的简单分析

那年仲夏 提交于 2019-11-27 08:38:10
爬取知乎60万用户信息之后的简单分析 标签 : webporter [TOC] 使用 Java+Elasticsearch+Kibana 爬取了知乎 60 万用户数据,做了简单的可视化分析。 项目源码 GitHub - webporter 动机 在知乎上看到有个叫 @路人甲 的大神每隔一段时间就爬爬豆瓣/B站等等网站,做了很多有意思的分析,加上之前因为实验室项目接触过 Nutch,浅尝辄止了,所以一直想好好玩玩爬虫。 网上 Python 的爬虫教程很多,而自己的主语言是 Java,本着宣传 Java,以练促学的目的,我使用 Java 爬取了知乎 60 万用户信息,主要想看看知乎上妹子多不多啊/是不是都是基佬啊,标配常青藤/年薪百万是不是真的啊,等等。 思路 为了保证数据的质量,避免爬到一些僵尸号什么的,我选择爬取关注列表而非粉丝列表。我随机挑选了一位粉丝过千的优秀回答者作为起始,爬取他的关注列表,再对列表中的每个人爬取其关注列表,以此类推…… 下载了大概 7 个小时,爬了 40 多万用户的关注列表,拿到了 10G 的数据,如图所示: 理论上有 800 多万用户,可惜有很多重复的,去重后将数据导入 Elasticsearch,得到 60+ 万用户数据: 数据验证 接下来简单看看下载下来的数据靠不靠谱,随手在知乎和我的 Kibana 分别搜了下轮子哥 @vczh 可以看到

手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫

℡╲_俬逩灬. 提交于 2019-11-27 05:55:08
系列教程 手把手教你写电商爬虫-第一课 找个软柿子捏捏 如果没有看过第一课的朋友,请先移步第一课,第一课讲了一些基础性的东西,通过软柿子"切糕王子"这个电商网站好好的练了一次手,相信大家都应该对写爬虫的流程有了一个大概的了解,那么这课咱们就话不多说,正式上战场,对垒尚妆网。 首先,向我们被爬网站致敬,没有他们提供数据,我们更是无从爬起,所以先安利一下尚妆网: 经营化妆品时尚购物,大数据为驱动,并依托智能首饰为入口的新一代智慧美妆正品电子商务平台。 其创始团队来自天猫、支付宝、欧莱雅、薇姿等互联网公司和化妆品集团。 好吧,我很懒,直接从百度知道里抄过来的,不过不代表我没有诚意。OK,言归正传,我们先把我们的工具包拿出来: 1、神箭手云爬虫框架,2、Chrome浏览器 3、Chrome的插件XpathHelper 不知道是干嘛的同学请移步第一课 古代战士上战场前,必须先好好的观察对手,所谓知己知彼,百战不殆。我们先来观察一下尚妆网 从首页大家能看出什么? 说美女很美的,还有说美女表情很到位的同学,你们可以先回家了。 剩下的同学,我们继续了: 可 以看出,作为一个完善的电商网站,尚妆网有着普通电商网站所拥有的主要的元素,包括分类,分页,主题等等。首先我们要确定我们希望要爬取哪一类数据,当然 作为爬虫来说,全部爬下来不是不行,不过对于做实验来说,就没必要了。好,我们假设

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

ぐ巨炮叔叔 提交于 2019-11-27 05:54:45
相关教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取 手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染 手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫 工具要求:教程中主要使用到了 1、神箭手云爬虫 框架 这个是爬虫的基础,2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确 基础知识:本教程中主要用到了一些基础的js和xpath语法,如果对这两种语言不熟悉,可以提前先学习下,都很简单 之前写了一个电商爬虫系列的文章,简单的给大家展示了一下爬虫从入门到进阶的路径,但是作为一个永远走在时代前沿的科技工作者,我们从来都不能停止 在已有的成果上,所以带上你的chrome,拿起你的xpathhelper,打开你的神箭手,让我们再次踏上征战金融数据之旅吧。(上个系列相对难一 些,建议如果是初学者,先看这个系列的教程) 金融数据实在是价值大,维度多,来源广。我们到底从哪里入手呢?想来想去,就从前一段时间风云变幻的p2p网贷开始吧。 同样,我们教程的一致风格就是先找个软柿子,上来不能用力过猛,逐渐培养自己的信心,等真正敌人来的时候,才不至于怯场害怕。 我们先去搜索一下p2p网站

爬虫以及爬虫如何解决ip封锁问题的探究

痴心易碎 提交于 2019-11-27 01:29:54
一、简介 网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。【从别人的网站爬取有用数据到自己本地数据库】 网络爬虫基本原理以及jsoup基本使用方法: http://my.oschina.net/xsh1208/blog/465121 二、分类 传统爬虫和聚焦爬虫。 传统爬虫:从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。 聚焦爬虫:工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后 ,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓 取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还 可能对以后的抓取过程给出反馈和指导。 三、防爬虫 KS-WAF:将爬虫行为分为 搜索引擎爬虫 及 扫描程序爬虫,可屏蔽特定的搜索引擎爬虫节省带宽和性能,也可屏蔽扫描程序爬虫,避免网站被恶意抓取页面。 四、爬虫技术 nutch httpclient Jsoup 等等

手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫

半城伤御伤魂 提交于 2019-11-26 18:01:40
系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取 手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染 四节课过去了,咱们在爬虫界也都算见过世面的人,现在再来一些什么ajax加载之类的小鱼小虾应该不在话下了,即使是淘宝这种大量的ajax,我们祭上我们的核武器,也轻松应对了,这一课主要是来看看除了技术上的页面处理外,我们还会遇上更棘手的问题,就是反爬虫,当然现在有各种各样的反爬虫,今天就先介绍最简单的一种:限制IP。 今天咱们的对手依然是业界大佬,马云最忌惮的男人,宅男心中爱恨交错的对象 - JD.COM 也不用我安利,特别是程序员,有几个没给京东送过钱的。废话不多说,先上工具: 1、神箭手云爬虫,2、Chrome浏览器 3、Chrome的插件XpathHelper 不知道是干嘛的同学请移步第一课 打开网站瞅一眼: 好了,相信我,截这张图绝对不是在虐你们这些单身狗。我们就是科学的研究一下这个页面,没啥特别的:大厂风,硬仗准备。 先来挑一个分类吧,这次挑一个大家都熟悉的互联网书类: http://search.jd.com/Search?keyword=Python&enc=utf-8&book=y&wq=Python&pvid=33xo9lni

使用爬虫爬取网站,常用的解决IP被封的办法

落花浮王杯 提交于 2019-11-26 15:38:25
我们经常在开发的过程中,会编写一些爬虫爬取特定网站的数据,为自己所用。但是问题来了,爬虫经常会被目标网站封掉IP,这个时候我们就需要一些额外的手段来解决这种问题了,下面是一些常见的解决办法。 方法1. 1.IP必须需要明确而且正确,这是前提条件。如果有条件,其实可以跟机房多申请外网IP。 2.在有外网IP的机器上,部署代理服务器。 3.使用轮训替换代理服务器来访问想要采集的网站。 好处: 1.程序逻辑变化小,只需要代理功能。 2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。 3.就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。 方法2. 有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for(貌似这么拼。。。)即可绕过。 大部分网站么,如果要频繁抓取,一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP,通过默认网关切换来实现IP切换,比HTTP代理高效得多,估计也比多数情况下的ADSL切换更高效。 方法3. ADSL + 脚本,监测是否被封,然后不断切换 ip 设置查询频率限制 正统的做法是调用该网站提供的服务接口。 方法4. 8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信区局,能跨省跨市更好,自己写好断线重拨组件,自己写动态IP追踪服务,远程硬件重置(主要针对ADSL猫