多线程爬取与存储基础
多线程: 一般的python程序都是前台运行(主线程),即代表了顺序运行只有前面一个运行完毕后才能运行后面一个,但这样有时候会很浪费时间,比如下载两个数据第一个数据单独下载耗时t1而第二个单独下载耗时t2,时间是t1+t2,但是你将这个两个程序放入后台同时运行则时间时max(t1,t2),这似乎没什么但是数据一多优势就体现出来了 首先导入threading库 import threading xxx.threading.Thread(target=yyy,args=) 创造一个以yyy函数为后台运行的名字叫xxx的线程,args是yyy函数的传入参数 xxx.start()启动这个名字叫xxx的线程 xxx.join()堵塞这个线程:等这个线程执行完毕在进行下一个语句 一些存储与读取: 先介绍os库的两个函数 os.path.exsist(path) : 判断path路径是否存在返回bool值 xxx=os.getcwd() : 获得当前工作目录的绝对地址 写入文本(字符串)代码|脚本 import threading import os def write_file(path,data): ''' :param path: 要写入文件的路径 :param data:要写入文件的数据 :return: ''' f = open(path, 'wb') f.write(data