node.js 爬虫案例
本案例是爬的一部小说,爬取并存在本地 使用了动态浏览器头部信息,和 动态ip代理, 这2个方式可以有效的伪装自己,不至于被反爬,然后拉黑,之前已有记录,浏览器头部信息,也记录的有, app.js import request from ' request ' ; import userAgents from ' ./common/userAgent.js ' ; import Promise from ' bluebird ' ; import cheerio from ' cheerio ' ; // 类似jquery写法 import fs from ' fs ' ; const Iconv = require( ' iconv ' ).Iconv; const iconv = new Iconv( ' GBK ' , ' UTF-8 ' ); const URL = ' http://www.qb5200.org/xiaoshuo/62/62493/ ' ; let pageUrl = `${URL} 6161384 .html`; // 章节存放变量,初始化是第一章地址 // 这里只做测试,所以用变量存,而实际应用中,应该使用数据缓存 const expiryTime = 5 * 60 * 1000 ; // 过期间隔时间,毫秒 let ips = null ; //