top250 | 易学教程

爬取豆瓣电影Top250

阅读更多关于爬取豆瓣电影Top250

import requests from lxml import etree # 获取豆瓣电影排行前250的电影信息 count = 0 for page in range(0,10): url = 'https://movie.douban.com/top250?start=%s&filter='%(page*25) response = requests.get(url) root = etree.HTML(response.content) big_cate_list = root.xpath("//ol[@class='grid_view']/li") # 标签的 href 属性用于指定超链接目标的 URL for big_cate in big_cate_list: count = count + 1 # big_cate_href = big_cate.xpath("div/div/a/@href")[0] big_cate_alt = big_cate.xpath("div/div/a/img/@alt")[0] big_cate_src = big_cate.xpath("div/div/a/img/@src")[0] big_cate_intro = big_cate.xpath("div/div[@class='info']/div[@class='bd']/p

豆瓣图书Top250

阅读更多关于豆瓣图书Top250

从豆瓣图书Top250抓取数据，并通过词云图展示导入库 from lxml import etree #解析库 import time #时间 import random #随机函数 import pandas as pd import requests #请求库 import jieba #导入结巴分词 from pyecharts.charts import WordCloud from pyecharts import options as opts 抓取数据 #循环构造网址 def format_url(base_url,pages=10): urls=[] for num in range(0,pages * 25,25): urls.append(base_url.format(num)) return urls #解析单个页面 def parse_page(url,headers): #创建一个存储结果的容器 result=pd.DataFrame() html=requests.get(url,headers=headers) bs=etree.HTML(html.text) for i in bs.xpath('//tr[@class="item"]'): #书籍中文名 book_ch_name=i.xpath('td[2]/div[1]/a[1]/@title

9.python3实用编程技巧进阶（四）

阅读更多关于 9.python3实用编程技巧进阶（四）

4.1.如何读写csv数据爬取豆瓣top250书籍 import requests import json import csv from bs4 import BeautifulSoup books = [] def book_name(url): res = requests.get(url) html = res.text soup = BeautifulSoup(html, 'html.parser') items = soup.find(class_="grid-16-8 clearfix").find(class_="indent").find_all('table') for i in items: book = [] title = i.find(class_="pl2").find('a') book.append('《' + title.text.replace(' ', '').replace('\n', '') + '》') star = i.find(class_="star clearfix").find(class_="rating_nums") book.append(star.text + '分') try: brief = i.find(class_="quote").find(class_="inq") except

day02 爬取豆瓣电影信息代码

阅读更多关于 day02 爬取豆瓣电影信息代码

# 请求url： # https://movie.douban.com/top250 # 请求方式： # GET # 请求头： # User-Agent # cookies ''' 爬取豆瓣电影信息：电影名称电影url 电影导演电影主演电影年份电影类型电影评分电影简介电影评论 1.分析所有主页的URL 第一页：https://movie.douban.com/top250?start=0&filter= 第二页：https://movie.douban.com/top250?start=25&filter= 第三页：https://movie.douban.com/top250?start=50&filter= ''' import requests import re #爬虫三部曲 #1.发送请求 def get_page(url): reponse=requests.get(url) return reponse #2.解析数据 def parse_index(html): ''' <div class="item">.*?(.*?).*?<a href="(.*?)"> .*?(.*?).*?导演: (.*?)主演: (.*?) (.*?) .*?<span