豆瓣

Django中使用第三方登录

那年仲夏 提交于 2020-04-04 17:53:15
OAuth2.0是什么 OAuth的英文全称是Open Authorization,它是一种开放授权协议。OAuth目前共有2个版本,2007年12月的1.0版(之后有一个修正版1.0a)和2010年4月的2.0版,1.0版本存在严重安全漏洞,而2.0版解决了该问题。 OAuth简单说就是一种授权的协议,只要授权方和被授权方遵守这个协议去写代码提供服务,那双方就是实现了OAuth模式。 OAuth2.0实现第三方登录的流程 例如你想登录豆瓣去看看电影评论,但你丫的从来没注册过豆瓣账号,又不想新注册一个再使用豆瓣,怎么办呢?不用担心,豆瓣已经为你这种懒人做了准备,用你的qq号可以授权给豆瓣进行登录。流程如下: 第一步:在豆瓣官网点击用qq登录 当你点击用qq登录的小图标时,实际上是向豆瓣的服务器发起了一个 http://www.douban.com/leadToAuthorize 的请求,豆瓣服务器会响应一个重定向地址,指向qq授权登录。 浏览器接到重定向地址 http://www.qq.com/authorize?callback=www.douban.com/callback ,再次访问。并注意到这次访问带了一个参数是callback,以便qq那边授权成功再次让浏览器发起这个callback请求。不然qq怎么知道你让我授权后要返回那个页面啊,每天让我授权的像豆瓣这样的网站这么多。

从豆瓣中抓取图片以及音乐

泪湿孤枕 提交于 2020-03-30 23:12:55
该脚本可以从豆瓣中抓取图片以及音乐,可以输入自己的正则,正则的合法性我没有去进行验证,这只是一个简单的文件抓取,只是用了一些基本的模块,看到网上好多使用 Beautiful Soup 模块的例子,一会研究研究。代码很简单,就不多解释了 #! /usr/bin/python2.6.6 # -- coding:utf-8 -- import urllib, urllib2, gevent, re import time, os from gevent import monkey monkey.patch_all() def worker(url): try: m_arr = [] parent_dir = os.path.join("%s" % time.strftime('%Y-%m-%d',time.localtime(time.time()))) #按日期创建目录 if not os.path.exists(parent_dir): os.mkdir(parent_dir) os.chdir(parent_dir) if not os.path.exists('images'):#创建存储图片的目录 os.mkdir('images') if not os.path.exists('radios'):#创建存储音乐的目录 os.mkdir('radios') response

用Python盘点那些豆瓣评分低于3.0的奇葩电影

ⅰ亾dé卋堺 提交于 2020-03-28 17:32:32
最近刷抖音,刷到一部抄袭《X战警》电影海报的电影。 连电影海报都需要抄袭,这得是什么烂片! 尝试百度了一下,果然让人哭笑不得,连雷神的麒麟臂都一起抄了。 《女娲日记》绝对刷新你的认识 看了一下它的豆瓣评分,竟然是2分。 纵横观影界那么多年,看到的至少也是3分起步的电影,现在居然还有2分的电影 豆瓣评分最低打一星,换算成分数就是2分,因此豆瓣电影理论上的最低分不是0分,而是2分。 看来豆瓣对于某些电影还是挺照顾的。 感兴趣的朋友可以去看下这部电影,感受下吐槽的乐趣。 好了,进入搬砖模式,今天就来爬取下豆瓣评分在3分一下的那些神片,看看有没有你踩过的坑! 1 数 据 爬 取 | 页面分析 由于页面单次并不显示所有的电影信息,加载电影是URL也没有任何变化。 需要进一步研究页面,找出真实需要爬取的URL信息。 通过该URL可以发现该页面电影的详细信息: | 数据抓取 通过点击加载更多,可以发现一些 规律: 真实URL中参数start会每次增加20,新的URL中呢也会相应的存储对应的20部电影的信息。 掌握这些规律之后,就可以用代码实现抓取了。 for i in range(0,481,20): url = "https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1

Python新手爬虫一:爬取豆瓣影片名称

爷,独闯天下 提交于 2020-03-16 12:59:39
豆瓣网站: https://movie.douban.com/chart 先上最后的代码: from bs4 import BeautifulSoup from lxml import html import xml import requests from fake_useragent import UserAgent #ua库 import xlwt #表格模块 n = [] #存放电影名称 p = [] #存放电影评分 def get_url(): url = "https://movie.douban.com/chart" ua = UserAgent() headers={'user-agent':ua.random} f = requests.get(url,headers=headers) #Get该网页从而获取该html内容 soup = BeautifulSoup(f.text,'lxml') #用lxml解析器解析该网页的内容, 好像f.content也是返回的html for k in soup.find_all('div',class_='pl2'): #找到div并且class为pl2的标签 b = k.find('a') #在每个对应div标签下找a标签 n.append(b.get_text()) #取标签 a 下的文字,并添加到 n 列表中 for

Python爬虫入门 | 爬取豆瓣电影信息

拟墨画扇 提交于 2020-03-12 17:04:25
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源。看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~ ps注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃。为此小编建了个Python全栈免费答疑.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步! 好啦,正式开始我们的第二节课《爬取豆瓣电影信息》吧!啦啦哩啦啦,都看黑板~ 1. 爬虫原理 1.1 爬虫基本原理 听了那么多的爬虫,到底什么是爬虫?爬虫又是如何工作的呢?我们先从“爬虫原理”说起。 爬虫又称为网页蜘蛛,是一种程序或脚本。但重点在于:它能够按照一定的规则,自动获取网页信息。爬虫的通用框架如下: 1.挑选种子URL; 2.将这些URL放入待抓取的URL队列; 3.取出待抓取的URL,下载并存储进已下载网页库中。此外,将这些URL放入待抓取URL队列,进入下一循环; 4.分析已抓取队列中的URL,并且将URL放入待抓取URL队列,从而进入下一循环。 咳咳~ 还是用一个具体的例子,来说明吧! 1.2 一个爬虫例子 爬虫获取网页信息和人工获取信息,其实原理是一致的,比如我们要获取电影的“评分”信息:

澳洲幸运5代理平台-【豆瓣】

吃可爱长大的小学妹 提交于 2020-03-08 05:56:27
澳洲幸运5代理平台微信3339355备用3366766 信誉秒回不限玩法实力把把结昨天写美成的《少年游》还有些余话未写完。 再把这支曲子重复一遍: 并刀如水,吴盐胜雪,纤手破新橙。锦幄初温,兽烟不断,相对坐调笙。 低声问:向谁行宿?城上已三更。马滑霜浓,不如休去,直是少人行。 来源: https://www.cnblogs.com/cutecpp/p/12440706.html

龙虎和群进群微信-【豆瓣】

一曲冷凌霜 提交于 2020-03-08 05:50:38
龙虎和群进群微信微信3339355备用3366766 信誉秒回不限玩法实力把把结昨天写美成的《少年游》还有些余话未写完。 再把这支曲子重复一遍: 并刀如水,吴盐胜雪,纤手破新橙。锦幄初温,兽烟不断,相对坐调笙。 低声问:向谁行宿?城上已三更。马滑霜浓,不如休去,直是少人行。 来源: https://www.cnblogs.com/cutecpp/p/12440716.html

六问解密慢公司:豆瓣到底是什么?(转 chinaz)

自古美人都是妖i 提交于 2020-03-06 08:43:47
[导读]豆瓣并不常常见诸于主流媒体,除了知道这是一家自然生长的“慢公司”,显然我们想要知道的还有更多。 豆瓣靠什么盈利?豆瓣如何挑选客户?微博兴起是否对豆瓣造成了冲击?豆瓣的移动产品如何规划?豆瓣是否已经对上市整军待备? 这些问题本就如此备受关注,在稍早豆瓣宣布单日访客过亿,预计今年营收8000万接近盈利后,更深入了解豆瓣显得尤为重要。这篇广告门对豆瓣团队的报道,将解答你的所有困惑。 自2009年新浪推出微博产品后,中国的社交网络进入了新的格局。之前风靡的人人网、开心网在面对微博的冲击时也纷纷作出相应的战略调整,去粗取精,把握自己独特的产品和平台优势。而一家具备独特定位的社区网站,文青和小清新的聚集地,依旧按照“自我”的路线从容前行,冷眼旁观行业的风云变幻。 成立7年来,豆瓣网一向鲜少出现在媒体面前。但这并不妨碍业界对豆瓣的种种猜测,尤其是在如今微博风生水起、其他SNS规模稳定的状态下。不少人向豆瓣发问:你们靠什么盈利?怎么活下去?也有资深豆瓣er撰文剖析它的盈利模式,供业内了解研究。但这是否是真实的豆瓣?广告门网站专门探访豆瓣,寻找真实的生存法则。 豆瓣一层的办公区一角,员工密度比一年前明显增大 豆瓣到底是什么? 豆瓣在北京的办公室位于酒仙桥,各部门有序地分散在两层办公区域内。窗明几净,环境优雅,是十分惬意的工作场所。这两年豆瓣的低调一如既往,规模却有了不小的扩张。到如今

UGC补充

我怕爱的太早我们不能终老 提交于 2020-03-06 08:43:25
成功案例 WIKI:最大也是最小的百科全书 WIKI指的是一种网上共同协作的 超文本系统 ,可由多人共同对网站内容进行维护和更新,是典型的靠UGC运作的系统。其中,WIKI利用UGC概念,使网站的内容制作和编辑成本最小化,但是能够实现领域知识的积累和最大化。 用户可以通过 网页浏览器 对 WIKI 文本进行浏览、创建、更改,与其他 超文本系统 相比,WIKI有使用方便及开放的特点,所以WIKI系统可以帮助用户在一个社群内共同收集、创作某领域的知识,发布所有领域用户都关心和感兴趣的话题。WIKI使用了UGC概念,就蕴含“与他人同创共享”的理念。 某WIKI系统的开发者曾经指出,WIKI是一种纯粹的用户内容服务,如果网站的诸多内容都指向其域名,那么,搜索引擎将会被更多用户发现,也将会吸引更多的用户的参与。(晓黎) 豆瓣网:UGC的聚合力量 豆瓣网 ,创办于2005年3月,几乎没有任何商业宣传,截至2012年拥有5600多万注册用户,ALEXA排名稳定在1600名左右。原因在于其独特的内容生成机制。 豆瓣网 所有的内容,分类,筛选,排序都由成员产生和决定,完全自动。 在豆瓣网,用户和用户之间有很多互动的可能。豆瓣内容形成的起点,是主动型的网民提供的自己所读过的书、看过的 电影 、听过的音乐的清单,相关评论和博客。这些内容提供了很多个基础节点,这些节点之间又因为网站技术系统所提供的相应功能

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

纵然是瞬间 提交于 2020-03-01 01:47:40
这篇文章主要介绍了编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法,用到了Python的urllib和urllib2模块,需要的朋友可以参考下 抓取豆瓣电影TOP100 一、分析豆瓣top页面,构建程序结构 1.首先打开网页http://movie.douban.com/top250?start,也就是top页面 然后试着点击到top100的页面,注意带top100的链接依次为 http://movie.douban.com/top250?start=0 http://movie.douban.com/top250?start=25 http://movie.douban.com/top250?start=50 http://movie.douban.com/top250?start=75 2.然后通过查看源码,发现电影名的代码如下: 肖申克的救赎 / The Shawshank Redemption 如图,因为有一些英文名等描述,通过正则抓取有些干扰,可能还需要后续过滤。 根据以上信息,此程序主要分以下3个步骤: 二、构建url地址池 抓取top100电影名称 依次打印输出 依次写出代码 1.构建url地址池。代码如下: mport urllib2 import re # ----------确定url地址池------------ pre_url = 'http:/