top250

爬取豆瓣电影Top250

徘徊边缘 提交于 2019-11-29 23:56:08
import requests from lxml import etree # 获取豆瓣电影排行前250的电影信息 count = 0 for page in range(0,10): url = 'https://movie.douban.com/top250?start=%s&filter='%(page*25) response = requests.get(url) root = etree.HTML(response.content) big_cate_list = root.xpath("//ol[@class='grid_view']/li") # 标签的 href 属性用于指定超链接目标的 URL for big_cate in big_cate_list: count = count + 1 # big_cate_href = big_cate.xpath("div/div/a/@href")[0] big_cate_alt = big_cate.xpath("div/div/a/img/@alt")[0] big_cate_src = big_cate.xpath("div/div/a/img/@src")[0] big_cate_intro = big_cate.xpath("div/div[@class='info']/div[@class='bd']/p

豆瓣图书Top250

久未见 提交于 2019-11-28 13:22:05
从豆瓣图书Top250抓取数据,并通过词云图展示 导入库 from lxml import etree #解析库 import time #时间 import random #随机函数 import pandas as pd import requests #请求库 import jieba #导入结巴分词 from pyecharts.charts import WordCloud from pyecharts import options as opts 抓取数据 #循环构造网址 def format_url(base_url,pages=10): urls=[] for num in range(0,pages * 25,25): urls.append(base_url.format(num)) return urls #解析单个页面 def parse_page(url,headers): #创建一个存储结果的容器 result=pd.DataFrame() html=requests.get(url,headers=headers) bs=etree.HTML(html.text) for i in bs.xpath('//tr[@class="item"]'): #书籍中文名 book_ch_name=i.xpath('td[2]/div[1]/a[1]/@title

9.python3实用编程技巧进阶(四)

谁说胖子不能爱 提交于 2019-11-28 01:34:50
4.1.如何读写csv数据 爬取豆瓣top250书籍 import requests import json import csv from bs4 import BeautifulSoup books = [] def book_name(url): res = requests.get(url) html = res.text soup = BeautifulSoup(html, 'html.parser') items = soup.find(class_="grid-16-8 clearfix").find(class_="indent").find_all('table') for i in items: book = [] title = i.find(class_="pl2").find('a') book.append('《' + title.text.replace(' ', '').replace('\n', '') + '》') star = i.find(class_="star clearfix").find(class_="rating_nums") book.append(star.text + '分') try: brief = i.find(class_="quote").find(class_="inq") except

day02 爬取豆瓣电影信息代码

假装没事ソ 提交于 2019-11-26 17:32:22
# 请求url: # https://movie.douban.com/top250 # 请求方式: # GET # 请求头: # User-Agent # cookies ''' 爬取豆瓣电影信息: 电影名称 电影url 电影导演 电影主演 电影年份 电影类型 电影评分 电影简介 电影评论 1.分析所有主页的URL 第一页:https://movie.douban.com/top250?start=0&filter= 第二页:https://movie.douban.com/top250?start=25&filter= 第三页:https://movie.douban.com/top250?start=50&filter= ''' import requests import re #爬虫三部曲 #1.发送请求 def get_page(url): reponse=requests.get(url) return reponse #2.解析数据 def parse_index(html): ''' <div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)"> .*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p> .*?<span