贴吧

百度贴吧图片抓取工具

自闭症网瘾萝莉.ら 提交于 2019-11-28 16:33:42
本着周末逛贴吧看图片,发现电脑运行内存太小,网页加载太慢,一怒之下写个爬虫把图片都下载到本地慢慢看 得到结果如下: 千张内涵图随意浏览 程序第一个选项: 对应的贴吧是: 第二个选项: 对应的贴吧是 抓取的对象为楼主所发的图片: 好的,开搞: 下面是基于python3写的 通过观察,得到爬虫思路为: 思路 1、搜索什么贴吧kw 2、贴吧内的什么贴qw 3、进入贴吧href="/p/ 4、图片<img src=" 5、页数pn= 第一步思路是构造网址,观察看到贴吧网址为: 代码为 # 输入的文字转码 kw = input("请输入贴吧:") qw = input("请输入进入的贴:") qw = urllib.parse.quote(qw.encode('gbk')) kw = urllib.parse.quote(kw.encode('gbk')) # 抓取的页数 page = input("你要抓取的页数(每页10个贴):") # 构造一级网址 url_1 = "http://tieba.baidu.com/f/search/res?isnew=1&kw=" + str(kw) + "&qw=" + str(qw) + "%ED&rn=10&un=&only_thread=1&sm=1&sd=&ed=&pn=" + str(page) 第二观察解析的网址

python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(四)

ぃ、小莉子 提交于 2019-11-27 00:35:36
接着直接进入主题,scrapy的启动文件begin.py: ''' 本scrapy的运行顺序: 》初始的begin.py ,打开tk界面,输入各个参数,保存在config文件,点击运行 》先进入pipeleines.py,调用open_spider,获取config里的数据,设定spider各个参数 》回到spider.py,正式开始运行parse 》程序结束时,再调用pipeleines.py的close_spider,log此次爬取日志''' #设定log的输出设置 logging.basicConfig(level=logging.WARNING, format='asctime: %(asctime)s \n' # 时间 'bug_line: line:%(lineno)d \n' # 文件名_行号 'level: %(levelname)s \n' # log级别 'message: %(message)s \n', # log信息 datefmt='%a, %d %b %Y %H:%M:%S', filename='日志.log', # sys.path[1]获取当前的工作路径 filemode='a') # 如果模式为'a',则为续写(不会抹掉之前的log) #用以启动爬虫 from scrapy.crawler import CrawlerProcess from