联合之大数据(二:数据产生)
数据产生:数据的产生主要体现在单位时间内有新发生记录、变化,且后发生的数据不会影响前面的数据保留。 那么数据产生一般可从不同的角度可分为:从数据的完整度可分为:全量数据、半全量数据、非全量数据;从数据的时效性可分为:实时动态数据、历史静态数据;从数据的价值可分为:有效数据,垃圾数据,可清洗数据;从数据的关联关系上分:可分为关系型数据、非关系型数据、中间型数据。 以目前数据产生的行为来看,某一个数据都无法独立拥有单独或者存在独立的数据特性,数据特性之间至少存在两种以上的共存。这个稍后再说。我们先看看数据产生的过程。 以上是第一种数据产生的方式,下图是第二种处理的方式: 以上就是数据处理的两周方式。而处理的结果就是数据。 可能有人会问在两种方式中一个处理的逻辑怎么会产生多个处理的结果呢?是这样的数据在处理中有不同的处理方式和办法,可能产生各种各样的数据,甚至这些数据都是在某一个时刻同时产生的或者发生的,我们只需要根据自己的业务需求获取对应的数据即可。 在数据产生的过程前中后要注意: 数据产生之前要对数据产生进行规范,划定数据产生的范围和必须字段。 数据产生之中要对数据产生过程规范,划定数据产生的连续性和可用性。 数据产生之后要对数据最终结果进行规范,划定数据的可用结果和存储方式。 至于说数据特性的共存,主要体现在数据对多个数据的兼备性。比如:一个用户乘坐地铁的行为数据