Python爬虫教程:爬取网站妹子图【附源码】
爬取图片是最常见的爬虫入门项目,不复杂却能很好地熟悉Python语法、掌握爬虫思路。当然有两个点要注意:一、不要侵犯版权,二、要注意营养。 ♦思路流程 第一步:获取网址的response,分页内容,解析后提取图集的地址。 第二步:获取网址的response,图集分页,解析后提取图片的下载地址。 第三步:下载图片(也就是获取二进制内容,然后在本地复刻一份)。 ♦代码 import requests from bs4 import BeautifulSoup import os import urllib import random class mzitu () : def all_url (self, url) : html = self.request(url) all_a = BeautifulSoup(html.text, 'lxml' ).find( 'div' , class_= 'all' ).find_all( 'a' ) for a in all_a: title = a.get_text() print( u'开始保存:' , title) path = str(title).replace( "?" , '_' ) if not self.mkdir(path): ##跳过已存在的文件夹 print( u'已经跳过:' , title) continue href