nodeJs爬取网页数据
发现node可以爬虫,正好我在找暑期实习,然后就使用node爬一下网站数据找实习。 准备工作 安装node,npm安装依赖包[cheerio, express, eventproxy] http 和 express 模块的使用学习 爬取目标网站 //加载http模块 var http = require('http'); //目标网站,嘿嘿,这个网站有很多实习职位 var pageUrl = 'http://shixi.info/'; http.get(pageUrl, function(res) { var html = ''; res.on('data', function(data) { html += data; }); res.on('end', function() { console.log(html); }); }); http的get请求一个目标网站,回调函数的参数是response,绑定两个事件,一个'data'事件,会不断触发获取数据,数据获取完触发’end‘ 事件。 爬到的的数据就是目标网站的html源代码。 现在html代码有了,我们该怎么解析这个呢? 解析html代码 在这里我们使用cheerio模块,是服务器端的html解析模块,使用方法类型jQuery var http = require('http'); var cheerio = require