pymongo

数据存储

痴心易碎 提交于 2020-11-14 01:39:14
1.TXT文本存储 可以用requests将网页源代码获取下来,然后使用pyquery解析库解析,接下来将提取的标题、回答者、回答保存到文本,代码如下: 1 import requests 2 from pyquery import PyQuery as pq 3 4 url = ' https://www.zhihu.com/explore ' 5 headers = { 6 ' User-Agent ' : ' Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 ' 7 } 8 html = requests.get(url, headers= headers).text 9 doc = pq(html) 10 items = doc( ' .explore-tab .feed-item ' ).items() 11 for item in items: 12 question = item.find( ' h2 ' ).text() 13 author = item.find( ' .author-link-line ' ).text() 14 answer = pq(item.find

毕业设计之 --- 爬虫

眉间皱痕 提交于 2020-11-08 08:49:12
简介 爬虫常用与毕业设计的数据收集阶段, 多同学要求和反应, 让学长出一片讲解爬虫的文章. 本文将描述和解析爬虫怎么使用, 并且给出实例. 所谓爬虫就是编写代码从网页上爬取自己想要的数据,代码的质量决定了你能否精确的爬取想要得到的数据,得到数据后能否直观正确的分析。 Python无疑是所有语言中最适合爬虫的。Python本身很简单,可是真正用好它需要学习大量的第三方库插件。比如matplotlib库,是一个仿照matalab的强大的绘图库,用它可以将爬下来的数据画出饼图、折线图、散点图等等,甚至是3D图来直观的展示。 Python第三方库的安装可以手动安装,但是更为简便的是在命令行直接输入一行代码即可自动搜索资源并安装。而且非常智能,可以识别自己电脑的类型找到最合适的版本。 Pip install +你所需要的第三方库 或者是easy install +你所需要的第三方库 这里建议大家使用pip安装,因为pip可以安装也可以卸载,而另一种方法只能安装。如果遇到你想使用新的版本的第三方库,使用pip的优势就会显现出来。 交互界面 [图片上传失败...(image-7b940a-1604630578613)] def web(): root = Tk() Label(root,text='请输入网址').grid(row=0,column=0) #对Label内容进行表格式布局