爬虫技术

网络爬虫的合法性讨论

北城余情 提交于 2020-03-17 07:40:43
摘要:随着大数据时代的到来,数据已经渗透导生活和工作的各个领域,“网络爬虫”在大数据时代是一种不可或缺的高效获取海量数据的重要工具。 爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上是不被禁止的,但是利用爬虫技术获取数据这一行为是具有违法甚至犯罪的风险的。 1.网络爬虫和相关基本概念 1.1网络爬虫的概念 网络爬虫(又称为网页蜘蛛,网络机器人)是一种按照一定的规则,自动的抓取万维网信息的程序或脚本。 1.2爬虫的产生背景 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的搜索引擎Googel,百度和Yahoo!等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 1.3网络爬虫的应用领域 搜索引擎、新闻聚合、社交应用、舆情监控、行业数据等。 1.4Robots协议 robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛)