转自:爱数据学习社
数据是企业最具价值的资产之一,而数据质量则直接影响数据的产出和数据价值的高低。因此,数据质量的管理对于企业决策、战略水平和业绩提升至关重要。今天我们就来聊一聊企业如何评估和提升数据质量。
国际数据管理协会的《数据管理知识手册》中规定:数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程。”
具体可以从以下几个方面来定义数据质量:
● 从用户层级定义数据质量:即满足特定用户预期需要的程度
● 从数据本身定义数据质量:即从数据质量的指示器和参数指标等方面来衡量
● 从数据约束关系定义数据质量:即从数据的原子性、数据的关联性及对数据的约束规则来度量数据质量
● 从数据过程定义数据质量:即从数据能被正确使用、存储、传输等方面定义质量
当前越来越多的企业认识到了数据的重要性,但数据是一把双刃剑,它能给企业带来业务价值的同时也是企业最大的风险来源。据IBM统计:
● 错误或不完整数据导致BI和CRM系统不能正常发挥优势甚至失效
● 数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上
● 低劣的数据质量严重降低了全球企业的年收入
由此可见,低质量的数据将直接导致分析结果的不准确,从而为业务发展和企业决策带来严重影响。
数据质量问题产生的原因有很多方面,比如在技术、管理、流程方面都会碰到。一般情况下,企业都有多套的业务系统,这些业务在不同时期由不同的团队开发完成。因此,这些业务系统都参考着不同的标准生产各自数据。滥用缩写词、惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同计量单位的使用等导致系统产生了大量的脏数据。这就是数据质量问题的由来。
影响数据质量的主要因素有:
1、管理因素
是指由于人员素质及管理机制方面的原因造成的数据质量问题。表现为:数据来源渠道多,责任不明确;业务需求不清晰,数据填报缺失;数据指标不统一等。
2、技术因素
主要是指由于具体数据处理的各技术环节异常造成的数据质量问题。数据质量问题的产生主要来源于数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等环节。
3、流程因素
是指由于系统作业流程和人工操作流程设置不当而造成的数据质量问题。其实,流程因素也属于企业管理范畴。
很多企业认识不到数据质量问题的根本原因,只从技术单方面来解决数据问题,没有形成管理机制,导致效果大打折扣。所以,要改进数据质量问题,要从企业管理和技术两方面入手,才能从根本上,最佳地解决数据质量问题。
数据质量通常具有以下维度:
1、完整性
完整性指的是数据信息是否存在缺失,数据缺失可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量更为基础的一项评估标准。
数据质量的完整性比较容易去评估,一般我们可以通过数据统计中的记录值和值进行评估。例如,网站日志日访问量就是一个记录值,平时的日访问量在 1000 左右,突然某一天降到100了,需要检查一下数据是否存在缺失了。再例如,网站统计地域分布情况的每一个地区名就是一个值,我国包括了32个省和直辖 市,如果统计得到的值小于32,则可以判断数据有可能存在缺失。
2、一致性
一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。
数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在特定的格式,例如手机号码一定是13位的数字,IP地址一定 是由 4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV一定是大于等于UV的,跳出率一定是在0到1之间的。
一般的数据都有着标准的编码规则,对于数据记录的一致性检验是较为简单的,只要符合标准编码规则即可,例如地区类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的值映射到标准的值上就可以了。
3、准确性
准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。更为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。
数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用较大值和最小值的统计量去审核。
一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。
当然如果统计的数据异常并不显著,但依然存在着错误,这类值的检查是更为困难的,需要通过复杂的统计分析对比找到蛛丝马迹,这里可以借助一些数据分析工具,那么具体的数据修正方法就不在这里介绍了。
4、及时性
及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。
评估步骤如下:
● 确定需要做数据质量监控的数据指标项,通常会对数据运营和相关管理报告至关重要的数据项。
● 评估需要使用的数据质量维度及其权重值。
● 对于每个数据质量维度,定义表示标准质量和质量差数据的值和范围。特别需要注意的是:同一个指标名称,可能会有不同的度量规则,因此需要执行许多不同的数据质量评估。
● 反复查看并确认数据质量是否可以被接受。
● 在适当数据流转中采取纠正措施,例如:清理数据并改进数据处理流程,以防止问题再次发生。
● 定期重复上述步骤,以监控数据质量趋势。
1、明确业务需求并从需求开始控制数据质量
要想真正解决数据质量问题,应该从需求开始,企业往往在定义清楚业务需求后忽略对数据质量的控制,而只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。
企业需要将数据质量的控制从需求开始集成到分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。
2、建立数据质量管理机制
从业务出发做问题定义,由工具自动、及时发现问题,明确问题责任人,通过邮件、短信等方式进行通知,保证问题及时通知到责任人。跟踪问题整改进度,保证数据质量问题全过程的管理。
(1)探查数据内容、结构和异常
通过探查,可以识别数据的优势和弱势,帮助企业确定业务实施计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
(2)建立数据质量度量并明确目标
企业需建立一个共同的平台并完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。
(3)设计和实施数据质量业务规则
明确企业的数据质量规则,即可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。
(4)将数据质量规则构建到数据集成过程中
数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分析过程等等都需要做检查。
但在大数据环境中,每个集成点都会有海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量区间,再决定是否需要对这批数据做详细的检查。
(5)检查异常并完善规则
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。
目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。
对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。
(6)对照目标,监测数据质量
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。可选择仪表板和报告进行监测。
3、对不同数据的数据问题分类处理
在时间维度上分,企业数据主要有三类:未来数据、当前数据、历史数据。在解决不同种类的数据质量问题时,也要采取不同的处理方式。
(1)历史数据
如果你拿着历史数据,找业务部门给你做整改,业务部门通常以“当前的数据问题都处理不过来,哪有时间帮你一起追查历史数据的问题”为理由无情拒绝。这个时候即便是找领导协调,一般也起不到太大的作用。对于历史数据问题的处理,一般可以发挥IT技术人员的优势,用数据清洗的办法来解决,清洗的过程要综合使用各类数据源,提升历史数据的质量。
(2)当前数据
当前数据的问题,需要通过从问题定义、问题发现、问题整改、问题跟踪、效果评估5个方面来解决。
(3)未来数据
未来数据的处理,一般要采用做数据规划的方法来解决,从整个企业信息化的角度出发,规划统一企业数据架构,制定企业数据标准和数据模型。借业务系统改造或者重建的时机,来从根本上提高数据质量。当然这种机会是可遇而不可求的,在机会到来之前应该把企业数据标准和数据模型建立起来,一旦机会出现,就可以遵循这些标准。
通过对不同时期数据的分类处理,做到事前预防、事中监控、事后改善,有助于从根源上解决数据质量问题,为企业的发展带来突破和创新。
随着互联网时代的来临,企业面对的数据已经远远不是简单的业务数据,而是来自网络和各种设备的大量结构化和非结构化数据。企业需要严格控制数据质量才能最终实现数据的价值以及业务的发展。
本文分享自微信公众号 - 浪尖聊大数据(bigdatatip)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
来源:oschina
链接:https://my.oschina.net/u/4590259/blog/4566973