信息采集

模拟浏览器的神器

百般思念 提交于 2019-12-14 17:43:13
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 随着Web的发展,RIA越来越多,JavaScript和Complex AJAX Libraries给网络爬虫带来了极大的挑战,解析页面的时候需要模拟浏览器执行JavaScript才能获得需要的文本内容。 好在有一个Java开源项目 HtmlUnit ,它能模拟Firefox、IE、Chrome等浏览器 ,不但可以用来测试Web应用,还可以用来解析包含JS的页面以提取信息。 下面看看HtmlUnit的效果如何: 首先,建立一个maven工程,引入 junit 依赖和HtmlUnit依赖: <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.8.2</version> <scope>test</scope> </dependency> <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.14</version> </dependency> 其次,写一个junit单元测试来使用HtmlUnit提取页面信息: /** *

Python爬虫实战(3):安居客房产经纪人信息采集

前提是你 提交于 2019-11-30 12:45:32
### 1, 引言 Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类: 即时爬虫和收割式网络爬虫 。为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示: 本实战是上图中的“独立python爬虫”的一个实例,以采集安居客房产经纪人( http://shenzhen.anjuke.com/tycoon/nanshan/p1/ )信息为例,记录整个采集流程,包括python和依赖库的安装,即便是python初学者,也可以跟着文章内容成功地完成运行。 ### 2,Python和相关依赖库的安装 运行环境:Windows10 2.1,安装Python3.5.2 官网下载链接: https://www.python.org/ftp/python/3.5.2/python-3.5.2.exe 下载完成后,双击安装。 这个版本会自动安装pip和setuptools,方便安装其它的库 2.2,Lxml 3.6.0 Lxml官网地址: http://lxml.de/ Windows版安装包下载: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 对应windows下python3.5的安装文件为 lxml-3.6.0-cp35-cp35m-win32.whl 下载完成后,在windows下打开一个命令窗口,