知乎回答

Python爬取知乎回答信息碰到:Max retries exceeded with URL

左心房为你撑大大i 提交于 2019-12-06 17:03:18
那天我在爬取知乎图片的时候碰到了这个问题。 开始我以为程序逻辑出错了,折腾了很久,知乎现在要爬取回答下面所有信息的话,就得翻页了,而获取翻页以及更多的信息就得考虑异步加载。 然后在浏览器里面找到了下一页的url 其中,next就是下一页的url,previous就是上一页的url,total:518是问题下回答的总数。 估计知乎对这些url的访问做了限制,虽然我弄了代理,但还是碰到了这个问题。 解决办法如下: 在requests库获取html时,如果碰到访问不成功,则用try-except加上循环继续访问,并用sleep控制访问频率 html = "" while html == "": #因为请求可能被知乎拒绝,采用循环+sleep的方式重复发送,但保持频率不太高 try: proxies = get_random_ip(ipList) print("这次试用ip:{}".format(proxies)) r = requests.request("GET", url, headers=headers, params=querystring, proxies=proxies) r.encoding = 'utf-8' html = r.text return html except: print("Connection refused by the server..")

围观知乎真福利话题,放松一下。

匿名 (未验证) 提交于 2019-12-02 23:47:01
公众号:爱写bug(ID:iCodeBugs) 周末了,围观几个知乎福利话题: 女生身材好是什么体验? : https://www.zhihu.com/question/328457531 拥有一双大长腿是怎样的体验? : https://www.zhihu.com/question/297715922 有个身材火辣的女朋友是怎样一种体验? : https://www.zhihu.com/question/313825759 这是真福利吖,点开一个问题看一下答主的回答,,,全都是高质量图片: 图片都是一些个人精品照,质量很高。 可是这每个话题下都有上千条回答,这得看到啥时候,不停的刷新也得很久。。。于是就写了这段代码把这些图片都下载了,考虑到一些数据可能用到,就顺道一起存到数据库了。包括图片地址、答主主页地址、答主昵称、答主、个性签名、答主粉丝、相关问题地址、赞同数等等等。看成果图: 我怀疑你在开车,但是我没有证据 尊重答主的分享,所以 以每一位答主昵称来命名其图片的父目录文件夹。但是最后浏览图片一个一个文件夹太麻烦了,所以我统一整理了一下一共 三个话题下2325张图片放在一个文件夹里,想直接观摩一下的同学公众号后台回复: 知乎 ,压缩包合集发给你(一个月内有效),下面是讲获取的方法,只对图片感兴趣的不用看了,去回复吧。 点开一个话题,进入开发者工具,刷新页面,在xhr栏目下

python爬取知乎回答

与世无争的帅哥 提交于 2019-11-30 12:10:51
1. 安装库 htmlparser 用来解析 html。 Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。 pip install beautifulsoup4 Selenium 是浏览器自动化测试框架,使用它来模拟用户操作。 利用 pip 安装 selenium pip install -U selenium 2. 模拟用户进行滚动和点击操作 使用JS控制滚动条的位置: window.scrollTo(x,y); 竖向滚动条置底 window . scrollTo ( 0 , document . body . scrollHeight ) time . sleep ( 2 ) 向下滑动后延迟两毫秒等待页面加载。 在页面上通过审查,找到 查看更多回答 的html代码 < button class = "Button QuestionMainAction" type = "button" > 查看更多回答 < / button > 通过 driver . find_element_by_css_selector ( 'button.QuestionMainAction' ) . click ( ) 来选中并点击这个按钮。 3. html文件结构化 将html文件结构化并保存,原页面的html解析并存储下来 通过prettify(

Python爬虫爬取知乎小结

这一生的挚爱 提交于 2019-11-30 12:06:19
博客首发至 Marcovaldo’s blog (http://marcovaldong.github.io/) 最近学习了一点网络爬虫,并实现了使用python来爬取知乎的一些功能,这里做一个小的总结。网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本。我们知道机器学习和数据挖掘等都是从大量的数据出发,找到一些有价值有规律的东西,而爬虫则可以帮助我们解决获取数据难的问题,因此网络爬虫是我们应该掌握的一个技巧。 python有很多开源工具包供我们使用,我这里使用了requests、BeautifulSoup4、json等包。requests模块帮助我们实现http请求,bs4模块和json模块帮助我们从获取到的数据中提取一些想要的信息,几个模块的具体功能这里不具体展开。下面我分功能来介绍如何爬取知乎。 模拟登录 要想实现对知乎的爬取,首先我们要实现模拟登录,因为不登录的话好多信息我们都无法访问。下面是登录函数,这里我直接使用了知乎用户 fireling 的登录函数,具体如下。其中你要在函数中的data里填上你的登录账号和密码,然后在爬虫之前先执行这个函数,不出意外的话你就登录成功了,这时你就可以继续抓取想要 的数据。注意,在首次使用该函数时,程序会要求你手动输入captcha码,输入之后当前文件夹会多出cookiefile文件和zhihucaptcha.gif

scrapy抓取知乎话题v0.1

冷暖自知 提交于 2019-11-29 21:18:33
一、简介 抓取知乎某一子话题,赞同人数超过10的会被抓取。回答ID、赞同人数、回答时间、内容、提问被保存到mysql数据库中,支持更新(多次抓取时对于同一回答的ID只更新赞同人数)。 usage: scrapy crwal zhihu 二、效果: 抓了一个通宵将编程子话题全部抓完,抓取了13M的内容,下面是保存为json的数据。 但是,数据量一大用json来保存就很不方便了,文本格式化都会被卡住,查找更新操作更不用考虑了。 之后改进代码,用mysql来存储。 看效果吧。 三、下载地址 http://download.csdn.net/detail/wxq714586001/8832799 四、TODO 敬请期待v0.2。 来源: CSDN 作者: 牧羊人Full 链接: https://blog.csdn.net/wxq714586001/article/details/46611605

第一次作业

 ̄綄美尐妖づ 提交于 2019-11-29 12:34:55
Web APP :知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。简单来说知乎就是用户问答的平台,可以为大多数人提供建议和简答疑惑。与“知乎”相同有“百度知道”、“ 360 问答”、“搜狗问问”等等。一般的问题我会去百度或者其他的平台,一些涉及生活经验或者专业知识的问题我会去知乎,因为知乎还是有许多比较专业的回答。虽然有些问题的回答比较“水”或者难以令人信服,但细心寻找还是可以找到帮助自己的回答。 Mobile Apps :哔哩哔哩动画是我最喜欢的视频播放软件。在高中的时候我同学推荐我使用的,最初我只是用来看动漫,但慢慢的我发现哔哩哔哩不仅有动漫还各种各样的视频就像优酷视频、腾讯视频一样。哔哩哔哩最大的特点就是观看视频不需要观看讨厌的广告,在观看的中途也不会有广告,节省了很多的时间。 Operating Systems : 1 .模块化程度高 Linux 的内核设计非常精巧,分成进程调度、内存管理、进程间通信、虚拟文件系统和网络接口五大部分 2. 源码公开源代码,为用户提供了最大限度的自由度。 3. 广泛的硬件支持  Linux 能支持 x86 、 ARM 、 MIPS 、 ALPHA 和 PowerPC 等多种体系结构的微处理器。目前已成功地移植到数十种硬件平台,几乎能运行在所有流行的处理器上 4.