怎么来爬取代理服务器ip地址?
由于我之前要搞去转盘网( http://www.quzhuanpan.com ),为了避免度娘禁爬虫,所以必须要先爬取一定的代理,现在将爬取代理的代码分享给大家。 数据库的话这里我就不分享了,可以看看sql的插入过程自己建就可以。 代码: #coding:utf-8 import json import urllib, urllib2 import datetime import time from Queue import Queue from bs4 import BeautifulSoup import MySQLdb as mdb DB_HOST = '127.0.0.1' DB_USER = 'root' DB_PASS = 'root' ID=0 ST=50 uk='3758096603' classify="nn" proxy = {u'http':u'222.39.64.13:8118'} class ProxyServer: def __init__(self): self.dbconn = mdb.connect(DB_HOST, DB_USER, DB_PASS, 'ebook', charset='utf8') self.dbconn.autocommit(False) self.next_proxy_set = set() self.chance=0