注:本文于2019年1月31日发表于微信公众号 谈数据(learning-bigdata),本公众号将于4月21日发布一篇关于《数据治理之元数据管理》的文章,有兴趣可以扫描下方二维码关注。
在和一些客户、同事聊数据的时候,发现好多人对于数据相关的一些概念、作用并不是很清楚。这里我针对自己工作接触和学习积累的一些内容给大家做一个总结和分享。如有偏颇,请斧正!
1、数据元
1.1 标准定义
[GB/T 18391.1-2002,定义3.14] ,用一组属性描述定义、标识、表示和允许值的数据单元,数据元由三部分组成:对象、特性、表示。
1.2 我的理解
数据元是组成实体数据的最小单元,或称原子数据,例如,客户联系方式中的手机号码,手机号为数据元,135****为数据元的值。
1.3 主要作用
数据元本身就是数据,一般用来对各行业的数据进行自身规范化的一个方法或一套指导的理论,规划好行业数据元之后,可以为行业构建出统一、集成的、稳定的数据模型奠定基础。
1.4 应用范围
数据元早期在金融、医疗等应用非常广泛,国家相关单位也出具了对于数据元管理的一系列技术标准和行业标准,例如:GB/T 18391.1 信息技术 数据元的规范和标准化;CFDAB-T-0301.1-2014 食品药品监管信息基础数据元……
1.5 应用举例
CFDAB-T-0301.3-2014(食品药品监管信息基础数据元 第3部分:药品),举例:
2、元数据
2.1 标准定义
Mate data,描述数据的数据或关于数据的结构化数据。
2.2 我的理解
元数据是用来描述数据的数据,让数据更容易理解、查找、管理和使用。举个栗子“村里有个姑娘叫小芳,长得好看又善良”这首耳熟能详的歌,我们分析一下,姓名:小芳、性别:姑娘(女)、长相:好看、性格:善良,住址:村里。这里面:小芳是被描述的对象也就是我们所谓的实体数据,而姓名、性别、长相、性格、住址就是描述小芳这个人的元数据。当然元数据也会被描述,例如上边我举的例子中姓名的字段长度,字段编码、定义、字段类型、默认值等是用来“姓名”这个数据元的。所以还有个元模型的概念,这里不再展开,有兴趣的同学可以在网上查下,MOF、CWM这两个关于元模型的标准就明白了。
2.3 主要作用
元数据是帮助查找、存取、使用和管理信息资源的信息。
2.4 应用范围
元数据是业界公认的数据管理中的核心要素,做好元数据管理,更容易的对数据进行检索、定位、管理、评估。用哲学的思维理解元数据的话,元数据其实解决的是:我是谁,我在哪里,我从哪里来,我要到哪里去的问题。元数据是建设数仓的基础,是构建企业数据资源全景视图的基础,清晰的血缘分析、影响分析、差异分析、关联分析、指标一致性分析等,是数据资产管理的重要一环。后边有机会的话我会分享一下元数据管理,这里就不再展开了。
2.5 应用举例
数据是物料,而元数据是仓库里的物料卡片;
数据是文件夹,而元数据是夹子的标签;
数据是书,元数据是图书馆中的图书卡。
3、主数据
3.1 标准定义
主数据(Master Data)指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据)。与记录业务活动,波动较大的交易数据相比,主数据(也称基准数据)变化缓慢。主数据必须存在并加以正确维护,才能保证交易系统的参照完整性。——这个是百度百科的定义。
3.2 我的理解
最早接触主数据的概念大概是09年左右,之后做过一些关于主数据的项目和解决方案。个人对主数据的理解可以用六个字概况“三大特性,四个超越“。三大特性也是主数据的主要特征,即高价值性、高共享性、相对稳定性。四个超越:即超越业务,超越部门、超越系统、超越技术。请参考《主数据的3个特点、4个超越和3个二八原则》
3.3 主要作用
主数据是组织的最关键、最核心的数据,重点用来解决异构系统之间关键数据的不一致、不正确、不完整等问题。主数据是信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石。
3.4 应用范围
个人认为广义上的主数据,在不同行业、不同领域都会有不同的定义。例如在制造型企业中的核心主数据有:物料、BOM、、设备、客户、供应商、人员等;金融行业中客户、客户关系是其主数据管理的核心;在政府各部门,人口、法人、证照等是其主要的主数据。……
3.5 应用举例
关于主数据与主数据管理,之后进行专题分享,敬请关注。
预告:主数据专题分享会对主数据的3大特性4个超越,以及主数据管理中的3个2/8原则进行详细阐述。
4、基础数据
4.1 标准定义
暂无。我在文章《主数据的前世今生,畅想未来!》一文中有过关于基础数据的相关描述,请参考。
4.2 我的理解
对于基础数据,业界还没有给出一个标准的定义。但在很多信息化项目中,基础数据这个概念都会被提及和使用。同时,常常会有客户对基础数据和主数据概念混淆。我理解的基础数据是IT领域的术语是伴随信息化系统建设产生的。基础数据是信息系统运行的基础,用来支撑信息系统运行的各种参数。而主数据是被多个系统共享的基础数据。所以,我理解的主数据可以是基础数据的一部分,但基础数据绝对不等于主数据。
4.3 主要作用
基础数据是支撑信息系统运行的各种数据和参数。
4.4 应用范围
各类信息化系统的建设都离不开基础数据的准备,基础数据质量的好坏,是影响信息化系统建设成败的关键因素。
4.5 应用举例
例如,建设一个MES(制造执行系统)需要准备的基础数据包括:组织、部门、班组、班次、人员、岗位、机台、设备、物料、仓库、客商、工艺规程、BOM、工作中心、工作日历、仪器仪表、位置、测量点、检验参数、检验项目……
5、业务数据
5.1 标准定义
业务数据是业务处理过程中或事物处理所产生的数据,也称交易数据。交易数据是面向应用的操作型数据,有很高响应及时性要求。
5.2 我的理解
业务数据来这三个方面,一是:业务交易过程中产生的数据,例如:计划单、销售单、生产单、采购单等,这部分数据多数人为产生。二是,系统产生的数据,包括,硬件运行状况、软件运行状况、资源消耗状况、应用使用状况、接口调用状况、服务健康状况等。三是,自动化设备所产生的数据,IOT物联网的各类设备运行数据、生产采集数据等等。不论来源何处,这里数据有一个共同的特点就是时效性强,数据量大。
5.3 主要作用
业务数据主要面向应用,为业务应用提供服务,例如:生产、销售、采购、设备管理、系统管理等。
5.4 应用举例
某企业的产品销售记录:
6、主题数据
6.1 标准定义
将信息经过过滤识别出来,再从全局出发,根据管理需求信息按照不同的分类定义出不同的主题库,主题数据是为了面向主题的分析或加速主题应用的开发。
6.2 我的理解
主题数据顾名思义就是面向主题的数据。从这个特点上我们很容易想到有一类数据就是面向主题的数据,那就是数据仓库。与操作型数据不同,主题数据是分析型数据,是按照一定的主题域进行组织,服务于决策时所关心的重点方面。一个主题数据,可以是由多个主数据+交易数据组成。主题分析数据一般汇总的、不可更新的,是用于读的数据。
6.3 主要作用
主题分析数据或数据仓库,按照一定的业务主题域进行组织,服务于各种的数据分析或主题应用的开发。
6.4 应用范围
主题数据与行业或领域有较大的关系,不同的行业关注的主题是不一样的。即使同一行业,不同企业也有不同的主题数据定义。
6.5 应用举例
例如,某生产制造企业定义了12大主题数据,包括:综合服务、人力资源、财务管理、质量管理、生产管理、工艺管理、库存管理、销售管理、采购管理、设备管理、能源管理、安全环保。
7、数据资源目录
7.1 标准定义
目录服务将有关现实世界中的事物(如人、企业、计算机等等)的信息存储为具有描述性属性的对象。人们可以使用该服务按名称查找对象或者像使用黄页一样,可使用它们查找服务。这个定义解释了目录服务,所以数据资源目录,是对数据存储对象的描述,让人们能够方便、快速的找到所需要的数据。
7.2 我的理解
我所接触的数据资源目录的概念,源自于政务。早在02年左右国家相关部门就制定了政务资源管理的相关规范和标准。请参考:GB/T 7027-2002 信息分类编码的基本原则和方法;GB/T 21063-2007 政务信息资源目录体系。政务数据资源目录是通过对政务信息资源依据规范的元数据描述,按照一定的分类方法进行排序和编码的一组信息,用以描述各个政务信息资源的特征,以便于对政务信息资源的检索、定位与获取。
7.3 主要作用
政务信息资源目录是实现政务信息资源共享、业务协同和数据开放的基础,是各政务部门之间信息共享及政务数据向社会开放的依据。
7.4 应用范围
目前数据资源目录系统的应用在各个政府部门、事业单位已经非常普遍,尤其是在国家大数据战略布局的背景下,各个地方政府也在积极通过数字化的手段,整合各类信息资源,并在不同的委办局进行共享,目的是“让数据多跑路,让百姓少跑腿”!政务信息资源目录编制工作包括对政务信息资源的分类、元数据描述、代码规划和目录编制,以及相关工作的组织、流程、要求等方面的内容。
7.5 应用举例
你们是不是觉得数据资源目录管理,其实就是主数据管理+元数据管理,反正我是这么认为的。只不过是管理的对象,数据的来源不一样罢了。本质上都是实现数据的查询、定位、使用和数据的交换共享。
8、大数据
8.1 标准定义
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的4V特点:Volume(大量)、Velocity(快速)、Variety(多样)、Value(低价值密度)。
8.2 我的理解
大数据已经火了很久了。说起大数据,理论派(学术派)会说4V或5V,会讲啤酒和尿布、奥巴马竞选、流感预测……;技术流会说Hadoop、Spark,会用Java、R、Python……。所以我们不用去纠结什么是大数据,凡是你用到的、看到的、想到的,都可纳入大数据。我对大数据的理解是通过运用新技术对大量数据进行加工和处理,在某一特定业务领域,或某一环节、或某一点上产生价值,进而推动管理创新、技术创新和商业创新。目前大数据理论和技术都已经相对成熟,已经有了多个细分领域,如:算法研究、分析挖掘、数据治理、大数据运维、大数据开发等等。
8.3 主要作用
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。这个观点来自百科,本人非常认同。
8.4 应用范围
各行各业各领域均在准备或正在使用大数据技术尝试业务、技术或管理上的创新。需要详细了解的请找“度娘”。
9、数据湖
9.1 标准定义
数据湖Data lake,维基百科的定义:数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(这意味着源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所有形式的数据。
9.2 我的理解
Data lake,第一次接触这个概念,是在2014年IBM组织的数据治理交流论坛上。当时认为数据湖就是一个概念,没什么新意。后来一些主流大数据厂商、云计算厂商都在推一个叫数据湖的技术,据说可以实现把不同结构的数据统一存储,我在想这不就是Hadoop干的活吗,本质上还是换汤不换药,还是概念上的。后来随着数据湖技术的不断发展,他可以更方便、更廉价的解决不同数据结构的统一存储问题。对于这个名词我更进一步认识到他应该是一种架构或者说是一个解决方案。
9.3 主要作用
利用大数据技术把不同来源、不同结构的数据统一存储,对支持对数据的快速加工和分析。
由于未成实践过,所以对其作用的真正认识还停留在概念,请见谅。
9.4 应用范围
基于云平台的大数据架构,更适合使用数据湖的技术。
9.5 应用举例
亚马逊的AWS数据湖解决方案,阿里、华为等公司也推出了数据湖,有兴趣的请百度。
作者:石秀峰
请手机扫描二维码关注
来源:CSDN
作者:谈数据
链接:https://blog.csdn.net/kuangfeng88588/article/details/89341227