爬虫--[HttpClient]
爬虫技术可以获取互联网上开放的网页文档或其他文档,在java中HttpClient是比较好用的模拟请求和爬虫组件 下面看一个简单的职位爬去的实例: 1 下载HttpClient 最新HttpClient版本是4.x,我们可以去官网下载,本章所用版本为:commons-httpclient-3.0.1.jar 这是它的核心包,但是要编写一个完整的爬虫应用,它还需要依赖如下: 2 使用HttpClient进行模拟请求 2.1 创建HttpClient对象: HttpClient httpClient=new HttpClient(); 2.2 通过get或post方式请求页面: GetMethod getMethod=new GetMethod("http://www.51job.com"); 假如是post请求,那么就得使用: PostMethod postMethod=new PostMethod("http://www.51job.com"); 2.3 执行请求: httpClient.executeMethod(getMethod); 2.4 得到返回的网页: String html= getMethod.getResponseBodyAsString(); 假如网页非常大时,需要使用: getMethod.getResponseBodyAsStream();