1.1 网络爬虫简介
随着互联网的迅速发展,网络数据资源呈爆发式增长,信息需求者如何从网络中提取信息变得更加重要。如今,有效地获取网络数据资源地方式,便是网络爬虫。网络爬虫又成为网络蜘蛛或者Web信息采集器,是一种按照指定规则,自动抓取或下载网络资源的计算机程序或自动化脚本。 网络爬虫狭义上的理解 :利用标准网络协议(如HTTP、HTTPS等),根据网络超链接和信息检索方法(如深度优先)遍历网络数据的软件程序。 网络爬虫功能上的理解 :确定待采集的URL队列,获取每个URL对应的网页内容(如HTML和JSON等),根据用户要求解析网页中的字段(如标题),并存储解析得到的数据。 网络爬虫技术在搜索引擎中扮演者信息采集器的角色,是搜索引擎模块中的最基础不分。例如,我们常用的搜索引擎谷歌、百度、必应都采用网页爬虫技术采集海量的互联网数据。搜索引擎的大致结构分为如下几步。第一步,利用网络爬虫技术自动化地采集互联网中的网页信息。第二步,存储采集的信息。在存储过程中,往往需要检测重复内容,从而避免大量重复信息的采集;同时,网页之间的链接关系也需要存储,原因是链接关系可用来计算网页内容的重要性。第三步,数据预处理操作,即提取文字、分词、消除噪音以及链接关系计算等。第四步,对预处理的数据建立索引库,方便用户快速查找,常用的索引方法有后缀数组、签名文件和倒排文件。第五步,基于用户检索的内容(如用户输入的关键词)