模拟浏览器的神器
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 随着Web的发展,RIA越来越多,JavaScript和Complex AJAX Libraries给网络爬虫带来了极大的挑战,解析页面的时候需要模拟浏览器执行JavaScript才能获得需要的文本内容。 好在有一个Java开源项目 HtmlUnit ,它能模拟Firefox、IE、Chrome等浏览器 ,不但可以用来测试Web应用,还可以用来解析包含JS的页面以提取信息。 下面看看HtmlUnit的效果如何: 首先,建立一个maven工程,引入 junit 依赖和HtmlUnit依赖: <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.8.2</version> <scope>test</scope> </dependency> <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.14</version> </dependency> 其次,写一个junit单元测试来使用HtmlUnit提取页面信息: /** *