豆瓣

轻松使用python爬取豆瓣图书

社会主义新天地 提交于 2020-02-28 12:39:43
题目: 老师安排我们爬取豆瓣图书,恰好想学,所以把爬取的过程按照顺序写下来,主要是留个痕迹。在文中我会把爬虫所需的所有代码以图片形式一一讲解,图片里的代码就是全部的爬虫代码!!!如果你懒得自己敲的话,我上传了代码在: 代码在此处 ,有需要的可以自取。 步骤一: 引入包 。我用的request和beautifulsoup4。request是进行http请求。而有一点前端知识,懂得css样式的人用beautifulsoup4进行页面解析比较方便。 步骤二: 添加header信息 。设置header信息,模拟成浏览器或者app欺骗反爬系统,避免418。我刚开始的时候没有设置头部等信息,导致被豆瓣网站识别出来了,给我返回了“<[response418]>”。这个header我是在网上找的,如果想设置自己浏览器的header信息,请自行百度,很简单。 步骤三: 获取网页信息且解析网页 ,我爬取的是网页是: 豆瓣图书—小说 。 同学们如果自己想看看解析的网页,可以在得到soup后,“print(soup.text)”打印一下解析后的网页 步骤四: 从解析的文本中通过select选择器定位目标,返回一个列表 。通过select()选择,返回的是一个列表!!!我先把代码给出来: 有同学会疑问select(“h2“)、select(”div.pub“)…这些是怎么来的。1.首先进入刚才的网页:

豆瓣引流精准粉的玩法分享

旧街凉风 提交于 2020-02-26 05:48:45
不管线下还是线上,一个项目要想盈利,就必须要有客户。因此,引流也是行业里老生常谈的话题,流量渠道很多,但大体就分两类:花钱的和不花钱。 花钱的流量,可以投竞价,信息流等;免费流量,则是在有大量用户的平台分享内容进行导流,比如:贴吧,知乎,微博,小红书等。 微商要想让用户加你,首先得先明确你的产品,根据产品分析用户人群,再选择合适引流平台。 理论就不多讲了,今天给大家分享一个,豆瓣快速引流精准粉丝的思路。 知乎的伙伴,对豆瓣应该不会陌生,我就不多介绍了。 根据易观1月份数据显示,豆瓣目前的活跃用户为659万,大概是知乎的三分之一。 虽然用户量不算大,不像抖音、微博那样有上亿用户,但豆瓣依旧是一个值得尝试的平台。 要知道,豆瓣引流的优势不在于用户基数,而在于来的的流量很精准,且粉丝群体粘性较高。 最重要得是,豆瓣引流没有贴吧那么激烈,总体来说是一个很不错的引流平台。 我把豆瓣的流量入口分为3类:日记,小组,搜索引擎,这里重点讲一下小组的玩法。 兴趣小组,类似于豆瓣站内的“贴吧”,用户可以自己组建各种各样的“兴趣小组”,比如:减肥,健身,运动等,而基本上关注小组的用户,都是对这个主题感兴趣的用户,所以这些流量都是非常精准的。 很多人会选择自己去创建小组,因为豆瓣小组首页,是可以直接留微信号的,可以获取最大的曝光。 但是需要注意的是,豆瓣创建新的小组,短时间内并不会有人关注,因为搜索关键词

豆瓣引流精准粉的玩法分享

十年热恋 提交于 2020-02-26 05:48:39
不管线下还是线上,一个项目要想盈利,就必须要有客户。因此,引流也是行业里老生常谈的话题,流量渠道很多,但大体就分两类:花钱的和不花钱。 花钱的流量,可以投竞价,信息流等;免费流量,则是在有大量用户的平台分享内容进行导流,比如:贴吧,知乎,微博,小红书等。 微商要想让用户加你,首先得先明确你的产品,根据产品分析用户人群,再选择合适引流平台。 理论就不多讲了,今天给大家分享一个,豆瓣快速引流精准粉丝的思路。 知乎的伙伴,对豆瓣应该不会陌生,我就不多介绍了。 根据易观1月份数据显示,豆瓣目前的活跃用户为659万,大概是知乎的三分之一。 虽然用户量不算大,不像抖音、微博那样有上亿用户,但豆瓣依旧是一个值得尝试的平台。 要知道,豆瓣引流的优势不在于用户基数,而在于来的的流量很精准,且粉丝群体粘性较高。 最重要得是,豆瓣引流没有贴吧那么激烈,总体来说是一个很不错的引流平台。 我把豆瓣的流量入口分为3类:日记,小组,搜索引擎,这里重点讲一下小组的玩法。 兴趣小组,类似于豆瓣站内的“贴吧”,用户可以自己组建各种各样的“兴趣小组”,比如:减肥,健身,运动等,而基本上关注小组的用户,都是对这个主题感兴趣的用户,所以这些流量都是非常精准的。 很多人会选择自己去创建小组,因为豆瓣小组首页,是可以直接留微信号的,可以获取最大的曝光。 但是需要注意的是,豆瓣创建新的小组,短时间内并不会有人关注,因为搜索关键词

07 豆瓣小程序项目

帅比萌擦擦* 提交于 2020-02-10 15:31:14
搜索栏实现: 背景图片无法加载本地的图片, 方法: 1,将图片传到服务器上, 2,将图片变为 base64 电影模块布局: 布局的重构: 将重复的代码 构建成 一个组件,将不同的属性抽离出来作为 组件的属性, js中的重构: 1 ,js中 导出一个对象 使用 export { }; 2 , 在一个.js 文件 中 使 用另 一个.js 文件中的 对象要先导入: import {} from "path" 把用到 的urls 也 单独放在了一个js中,这里放的目录是 utils/url.js MVC 设计规范: M: model 模型 (小程序中 可以写个专门的.js 文件来 做这个事情,专门的逻辑处理 数据,然后由后面的 控制器调用,) V:view视图 , (小程序中可以认为是 .wxml 和 .wxss 的组合 ) C:Controller 控制器 ,(小程序中的 .js 可以认为是 个控制器,控制器 只做调用事情,不做具体的逻辑,(具体逻辑由模型来做) ) 列表页实现: 列表页 只需要设计一个页面即可,电影,电视剧 ,综艺的 页面仅仅只是数据不通,列表页的布局都是一样的 , 如何区分列表页的数据,在点击跳转列表页的url 后面加个参数 ?type 如下: 这样点击跳转的时候,type 数据就会传到 相应页面的 onLoad()函数中 options 参数中, 动态设置

豆瓣高分电影500部的信息爬取

試著忘記壹切 提交于 2020-02-08 23:48:31
第一步:明确需求 1. 分析数据来源的规律 2. 获取豆瓣高分电影的具体信息的访问链接 3. 利用具体信息的url 获取所有信息 4. 将2和3两张数据表连接成一张表格,并保存在Excel中 第二步:分析数据存储路径 豆瓣高分电影存储位置: 源访问链接: url = ' https://movie.douban.com/ explore#! type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start=0 ' 通过此链接寻找到数据加载链接: url = 'https://movie.douban.com /j/search_subjects? type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start=0' 发现通过改变page_limit=xxxx可以获取更多信息,当page_limit=500时电影数量不在增加。 因此可以通过这个url获取所有高分电影的电影名和访问链接: 1 # 访问链接 2 url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1

仿豆瓣首页弹性滑动控件|Axlchen\'s blog

百般思念 提交于 2020-02-01 11:06:07
逛豆瓣的时候看到了这样的控件,觉得挺有趣,遂模仿之 先看看原版的效果 再看看模仿的效果 分析 控件结构分析 由于*ScrollView只能有一个child view,所以整个child view的结构如图,这里我选择的是LinearLayout作为最外层的布局,content为展示的可滑动的内容,“更多”滑到最右边继续滑时出现的部分,先通过margin把“更多”隐藏 还有“更多”出现时的波纹效果,这个效果是通过贝塞尔曲线实现的,这里的实现比较简单,只取一个控制点,y坐标的数值为height的一半,x坐标随滑动距离变化 关键代码 控件的滑动效果由child view(下称wrapView)和content view(下称contentView)配合产生 当滑动到最左边并继续滑动的时候,wrapView的scrollX变化,产生第1个gif图效果 当滑动到最右边并继续滑动的时候,wrapView的scrollX先变化,当滑出到一定距离的时候,contentView的scrollX变化,产生第3个gif图效果 其他情况不处理滑动,交由 HorizontalScrollView 处理 详细参考以下代码 public boolean (MotionEvent ev) { switch (ev.getAction()) { case MotionEvent.ACTION_DOWN:

豆瓣源 pip install XXX gzip解码错误,解决办法

一个人想着一个人 提交于 2020-01-28 12:53:06
豆瓣源 pip install XXX gzip解码错误,解决办法 网上找了好久,没有找到直接的解决办法,那只能绕绕路了,不过还挺管用 暴力解决:----->换源(清华,阿里都是不错的) ubuntu 终端,输入命令: sudo vim ~/.pip/pip.conf 把里面的东西都清空,然后输入: [global] index-url=http://mirrors.aliyun.com/pypi/simple/ [install] trusted-host=mirrors.aliyun.com 接着 ESC,保存退出: :wq 再试试看,问题解决咯 来源: CSDN 作者: LeeSrabbit 链接: https://blog.csdn.net/LeeSkyRa/article/details/103746659

豆瓣top250(go版以及python版)

。_饼干妹妹 提交于 2020-01-25 22:17:52
  最近学习go,就找了一个例子练习 【go语言爬虫】go语言爬取豆瓣电影top250 ,思路大概就是获取网页,然后根据页面元素,用正则表达式匹配电影名称、评分、评论人数。原文有个地方需要修改下 pattern4 := <img width="100" alt="(.*?)" src= ,这样就能运行了 这个例子可以由修改下变成并发的形式,提高性能(参考 golang 并发 chan ) ``` var sem chan int = make(chan int,10); for i := 0; i < 10; i++ { go func(i int) { header := map[string]string{ "Host": "movie.douban.com", "Connection": "keep-alive", "Cache-Control": "max-age=0", "Upgrade-Insecure-Requests": "1", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36", "Accept": "text/html,application/xhtml+xml

Python猫眼电影数据采集与可视化分析实战

99封情书 提交于 2020-01-20 07:57:25
在国内比较知名的电影数据平台应该就是豆瓣、猫眼了,别的使用的不是很多,这两个平台就我们来说,平时的实践依赖还是比较多的,今天主要是想基于猫眼电影数据做一点分析性的工作,在我之前的文章中,基于豆瓣影评数据的采集、处理、存储、分析、可视化整个流程已经做了详细的介绍与实现了,感兴趣的话可以去参考一下我之前的文章 ,地址在下面: https://yishuihancheng.blog.csdn.net/article/details/103581348 今天的目标数据是猫眼电影数据 ,下面我们进入正题,猫眼电影榜单首页如下所示: 点击F12,进入开发者模式后,我们可以看到具体的数据项信息,如下所示: 这几个数据项就是我们 来源: CSDN 作者: Together_CZ 链接: https://blog.csdn.net/Together_CZ/article/details/103753700

Python爬虫学习笔记——豆瓣登陆(二)

时光总嘲笑我的痴心妄想 提交于 2020-01-14 01:45:48
昨天能够登陆成功,但是不能使用cookies,今天试了一下requests库的Session(),发现可以保持会话了,代码只是稍作改动。 #-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import html5lib import re import urllib s = requests.Session() url1 = 'http://accounts.douban.com/login' url2 = 'http://www.douban.com/people/****/contacts' formdata={ "redir":"http://www.douban.com/", "form_email":"*******", "form_password":"******", #'captcha-solution':'blood', #'captcha-id':'cRPGXEYPFHjkfv3u7K4Pm0v1:en', "login":"登录" } headers = { "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Accept-Encoding":"gzip