做了一点笔记,其实几乎是在翻译了。
Extraction
Basic Principles
1, Classes of Data
Data在典型的像SAP一样的ERP系统中被分为三种,主数据,事务数据和配置数据。
先说主数据,主数据通常是组织的实体,也有作为外部实体出现的,还可以是其他的事务,比如材料(@@?)。主数据在数据仓库中的重要性就在于,它提供了多维数据分析中的那些维数。
在BW中,主数据通常又是由三种表现方式呈现的,属性,层级和文本。属性就是描述实体属性的那些域,层次则大多数是一些独立的表,它们表述的通常是主数据之间的父子关系。而文本表则是包含了主数据的一些文字表述,它们通常也被分别保存在独立的表中,因为它们通常都是依赖于语言的。
主数据的关键键值,通常因为应用而异,所以有时候即使是相类似的概念,也会根据业务的需求制定复合的信息对象(Compound InfoObjects),以适应于不同的业务类型。
层次表相对属性表来说更复杂。首先,层次中主数据的相互联系可以很复杂,第二,保存这些层级关系的技术也因应用而异,许多应用模块只有唯一的层次表达方式,
事务数据用来表述一个商业事件,或者商业过程的结果。比如一个交易请求或者一个产品的当前库存。事务数据也被分为两个种类,文档事务数据和总结性事务数据。
就文档事务数据来说,通常可以从三个部分来描述,一个是开篇部分,一个是内容,一个是时间表的内容,开头部分主要是文档相关的信息,比如作者和建立时间,内容部分是文档的详细描述,时间表则是在文档需要被划分为若干个阶段发布时候文档发布的时间表。通常最适合数据抽取的往往是最低级别的颗粒数据,因为它们的信息量也是最大的。动态的总结性数据表则多是一些冗余的对表述内容的总结。SAP BW稳定的将SAP R/3中的总结性数据的部分孤立开来。
在SAP R/3 的HR系统中,主数据和事务数据的差别不是很大的。(只是举个例子)
配置数据是整个ERP的逻辑驱动者,在许许多多的ERP软件中都能找到配置数据表,如此多的应用程序的逻辑被放置到配置数据表中,是的企业级别的软件解决方案趋于高度用户化。
配置数据虽然本意是用来定义业务过程的细节的,但是它在数据仓库中也常常得到应用,举例省略。
备注:在SAP BW系统中,配置数据被模块化为特征,并且可能包含有主数据的属性,文本或者层次,所以在SAP BW中,主数据和配置数据是不作区分的。
主数据,事务数据和配置数据就组成了BW系统中所有的数据类型,包括报表相关的和不相关的(那些专业性很强的部分数据,可以忽略,对业务的分析和汇报没有实际意义)。一些报表相关的数据需要在转化过程(Transformation)之前就要做一些改动(意即在Extraction过程中开始做一些conversion——原作没有在这里用transformation,可见转化的区别)。
2,Data Flow and Integration
SAP R/3是个包含了各种各样拥有独自的数据模型特性的系统,随着R/3的发展,不同的系统之间经常发生分歧和合并的矛盾,知道现在将R/3分为四个大块, mySAP Financials, mySAP Human Capital Management, mySAP Logistics and mySAP Product Lifecycle Management.每块由着自己不同于其他块的特性,特别是从信息系统的角度来看。当然,如果从更大的角度出发,就会发现其实他们之间还是有着千丝万缕的联系。
熟悉和了解过程流对于跨不同应用类型的建模和辨别相当重要,特别是对于关键项来源究竟在哪里如何确定。
P209,P210讲述了两个具体的例子进行了具体分析。讲述了数据流和整合的重要性。