团购

python3.x爬取美团信息

淺唱寂寞╮ 提交于 2019-11-29 13:07:41
在之前的文章中,笔者有提到,我们要在实践中去学习python,笔者有天就想着要不要爬点东西呢,跃跃欲试的节奏啊,想来想去,想到美团了,那么首先笔 者想给自己确定一个目标,就是我要爬什么样的数据,我要爬美团的哪些东西。笔者首先确定了笔者想要爬去的界 面,http://bj.meituan.com/。就是美团网在北京的团购首页,获取首页的团购,团购项目的介绍,团购售价,销量。 1.首先确定要用的模块,<1.>urrlib,os,re三个模块, 2.要想获得数据,并且一一对应起来,那么用到循环的嵌套(一开始卡壳,后来咨询得到启发), 3.获取网页的所有数据,爬去下来 4.分析这些想要或许的模块怎么找出来, 5.找出相对于的正则来匹配, 6.获取数据,并且找到对应的数值 7.利用循环,并且配合字典的使用,将数据完整的获取下来, 8.保存到相应的文档中 9.关闭文档, 10.提示数据保存成功,结束爬去。 由于这是第一次采取这么多的信息,之前只是爬个图片啥的,所以笔者还是十分小心的去审查每一个元素,在这里推荐利用火狐浏览器,感觉是真的好用使用Firebug插件审查元素。 查看元素后,可以获得这个网站的编码形式是utf-8,这对于我们爬取数据也是关键的。 在一开始呢,笔者还打开了一款软件,fiddler,抓包 这些信息还是很多的,由于笔者截图的时候碰到了网络的原因

数据脱敏

时间秒杀一切 提交于 2019-11-27 14:11:03
背景与目标 在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体(客户,员工和公司)的财产、名誉、人身安全、以及合法利益造成严重损害。因此我们需要严格控制对仓库中的数据访问,即什么样的人员或者需求才可以访问到相关的数据。这就要求对数据本身的敏感程度进行安全级别划分。数据有了安全等级的划分,才能更好管理对数据访问控制,以此来保护好数据安全。 举个例子简单的说明下,例如我们仓库中有一张关于注册用户的基本信息表User,其中有手机号mobile,昵称username两个字段。我们在划分数据安全层级的时,将用户mobile的安全等级划分为L2要高于username的等级L1,并规定只有访问权限达到L2的运营部门才能访问mobile字段。这样在公司各个部门需要访问注册用户基本信息表User时,我们只需检查访问者是否来自运营部门,如果是运营部可以访问mobile,如果不是只能访问username信息了。这样就有效的防止用户手机号被不相关工作人员泄露出去,同时也不影响查询用户username的需求。 但是往往在实际生产过程中,应用场景会更加复杂,仅靠类似这样的访问控制,满足不了生产的需要,还需要结合其它的途径,而数据脱敏就是一种有效的方式,既能满足日常生产的需要,又能保护数据安全。 数据脱敏,具体指对某些敏感信息通过脱敏规则进行数据的变形