第7关 初识爬虫
你造吗,今天是个大喜的日子!来到这儿,就意味着你爬虫已经入门啦! 在这个重要又喜悦的日子里,我们就干三件事:回顾前路、项目实操、展望未来。 回顾前路,是为了复习0-6关所学的知识。项目实操,是通过写一个爬虫程序把所学的知识用起来。展望未来,是预告一下我们之后会遇到的风景。 马上开始吧~ 回顾前路 在前面,我们按关卡学了好多好多知识。而这么多的内容,我们用【项目实现】和【知识地图】两张图就能说清。 【项目实现】: 任何完成项目的过程,都是由以下三步构成的。 先需要明确自己的目标是什么,然后分析一下如何实现这个目标,最后就可以去写代码了。 当然,这不是一个线性的过程,而可能出现“代码实现”碰壁后然后折返“分析过程”,再“代码实现”的情形。 接下来是【知识地图】:前面6关所讲的爬虫原理,在本质上,是一个我们所操作的对象在不断转换的过程。 总体上来说,从Response对象开始,我们就分成了两条路径,一条路径是数据放在HTML里,所以我们用BeautifulSoup库去解析数据和提取数据;另一条,数据作为Json存储起来,所以我们用response.json()方法去解析,然后提取、存储数据。 你需要根据具体的情况,来确定自己应该选择哪一条路径。 也可以参考图片上的注释,帮助自己去回忆不同对象的方法和属性。不过,老师还是希望你能把这个图记在心里。 好啦,0-6关的内容就梳理完成啦~