python爬虫实践——爬取“豆瓣top250”
1 ''' 2 主页: 3 https://movie.douban.com/top250 4 GET 5 User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36 6 7 re正则: 8 # PS: 电影详情页url、图片链接、电影名称、导演、主演、电影上映时间、电影评分、评价人数、简介 9 <div class="item">.*?href="(.*?)">.*?src="(.*?)" class="">.*?<span class="title">(.*?)</span>.*?导演:(.*?).*?主演: (.*?) /...<br>(.*?)</p>.*?content="(.*?)"></span><span>(.*?)人评价.*?<span class="inq">(.*?)</span> 10 ''' 11 ''' 12 每一页URL: 13 第一页:https://movie.douban.com/top250 14 第二页:https://movie.douban.com/top250?start=25&filter= 15 第三页:https://movie.douban