python3.x爬取美团信息
在之前的文章中,笔者有提到,我们要在实践中去学习python,笔者有天就想着要不要爬点东西呢,跃跃欲试的节奏啊,想来想去,想到美团了,那么首先笔 者想给自己确定一个目标,就是我要爬什么样的数据,我要爬美团的哪些东西。笔者首先确定了笔者想要爬去的界 面,http://bj.meituan.com/。就是美团网在北京的团购首页,获取首页的团购,团购项目的介绍,团购售价,销量。 1.首先确定要用的模块,<1.>urrlib,os,re三个模块, 2.要想获得数据,并且一一对应起来,那么用到循环的嵌套(一开始卡壳,后来咨询得到启发), 3.获取网页的所有数据,爬去下来 4.分析这些想要或许的模块怎么找出来, 5.找出相对于的正则来匹配, 6.获取数据,并且找到对应的数值 7.利用循环,并且配合字典的使用,将数据完整的获取下来, 8.保存到相应的文档中 9.关闭文档, 10.提示数据保存成功,结束爬去。 由于这是第一次采取这么多的信息,之前只是爬个图片啥的,所以笔者还是十分小心的去审查每一个元素,在这里推荐利用火狐浏览器,感觉是真的好用使用Firebug插件审查元素。 查看元素后,可以获得这个网站的编码形式是utf-8,这对于我们爬取数据也是关键的。 在一开始呢,笔者还打开了一款软件,fiddler,抓包 这些信息还是很多的,由于笔者截图的时候碰到了网络的原因