贴吧 | 易学教程

贴吧

百度贴吧图片抓取工具

阅读更多关于百度贴吧图片抓取工具

本着周末逛贴吧看图片，发现电脑运行内存太小，网页加载太慢，一怒之下写个爬虫把图片都下载到本地慢慢看得到结果如下：千张内涵图随意浏览程序第一个选项：对应的贴吧是：第二个选项：对应的贴吧是抓取的对象为楼主所发的图片：好的，开搞：下面是基于python3写的通过观察，得到爬虫思路为：思路 1、搜索什么贴吧kw 2、贴吧内的什么贴qw 3、进入贴吧href="/p/ 4、图片<img src=" 5、页数pn= 第一步思路是构造网址，观察看到贴吧网址为：代码为 # 输入的文字转码 kw = input("请输入贴吧：") qw = input("请输入进入的贴：") qw = urllib.parse.quote(qw.encode('gbk')) kw = urllib.parse.quote(kw.encode('gbk')) # 抓取的页数 page = input("你要抓取的页数（每页10个贴）：") # 构造一级网址 url_1 = "http://tieba.baidu.com/f/search/res?isnew=1&kw=" + str(kw) + "&qw=" + str(qw) + "%ED&rn=10&un=&only_thread=1&sm=1&sd=&ed=&pn=" + str(page) 第二观察解析的网址

python tkinter界面多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(四)

阅读更多关于 python tkinter界面多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(四)

接着直接进入主题，scrapy的启动文件begin.py： ''' 本scrapy的运行顺序：》初始的begin.py ，打开tk界面，输入各个参数，保存在config文件，点击运行》先进入pipeleines.py，调用open_spider，获取config里的数据，设定spider各个参数》回到spider.py，正式开始运行parse 》程序结束时，再调用pipeleines.py的close_spider，log此次爬取日志''' #设定log的输出设置 logging.basicConfig(level=logging.WARNING, format='asctime: %(asctime)s \n' # 时间 'bug_line: line:%(lineno)d \n' # 文件名_行号 'level: %(levelname)s \n' # log级别 'message: %(message)s \n', # log信息 datefmt='%a, %d %b %Y %H:%M:%S', filename='日志.log', # sys.path[1]获取当前的工作路径 filemode='a') # 如果模式为'a'，则为续写（不会抹掉之前的log） #用以启动爬虫 from scrapy.crawler import CrawlerProcess from

订阅贴吧

贴吧

百度贴吧图片抓取工具

python tkinter界面 多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(四)

python tkinter界面多进程启动scrapy爬取百度贴吧的回复，显示爬取进度，并可以搜索回帖人，指定时间生成词云图，用pyinstaller打包成exe(四)