今天算是寒假的第一天?也不算,如果按考试结束就是假期的化,那我这该是第三天,但如果按学校的放假时间来算的话,这是提前1天,好了,废话到此结束,下面进入正题,爬虫的学习。
之前我也是用过爬虫的男人,还爬到了不少有趣的东西,就如我的第一个完整例子里面是全国大学排名,第二个是一堆电影,下一次就是作业---航班数据。这些呢,前两个呢,数据量少,且表格明确,非常容易上手,后面得就比较难了,需要伪登录以及页面跳转等等,下面是我的爬取过程:
伪登录:
但其实这一部分我也没搞清楚,所以暂时注释掉了,
找位置,获取
然后在输出,基本就可以得到自己的数据了,当然,中间的路程还是要靠自己走的,毕竟我也是一步一步自己磨出来的,
现在,老师给我们教程,学习webmagic爬虫,这是一款建立在java语言上的爬虫,这是webmagic的框架,本人还在研究中。
功能强大,易上手,wenbmagic只需要一个类加一些扩展包就能使用了,我自己试了试,但是没响应,后来我查看了一下,是教程上的网址404了,所以我还要去找另外的网站,或者找到这个网站,暂时还没有。
程序ing。。。。
来源:https://www.cnblogs.com/msdog/p/12177863.html