早期, ETL知识作为BI系统的一部分来介绍. 后来在The Data Warehouse ETL Tooket一书中, 系统性的整理了ETL的相关内容, 形成了一篇"ETL里的34个子系统"的介绍, 总结了ETL项目面临的不同任务. 安装类型分类其实主要分为: 1抽取 对应原文子系统1~3 2清洗更正 对应原文4~8 3发布 34个子系统有13个属于这个范畴 4管理 对应原文22~34 5.1 抽取 从不同数据源抽取数据. 访问数据源的政策性风险, 安全性和性能都是挑战. 对应子系统1,2,3 (数据剖析, 增量数据捕获, 抽取系统) 5.2 清洗更正 数据加载到目标数据仓库之前所做的必要的清洗和更正工作. 例如处理用户的性别, 用新的数据类型来存储管理. 对应子系统4 (数据清洗和质量处理系统) 子系统5(错误事件处理) 子系统6 (审计纬度) 子系统7 (排除重复记录系统) 子系统8 (数据一致性) 5.3 数据发布 保证正确的更新/新增数据到目标数据库. 对应 子系统9 (缓慢变更纬度处理) 子系统10 (代理键生成系统) :增加序列之类的. 子系统11 (层次维度构建) 比如时间纬度, 地理纬度等 子系统12 (特殊纬度生成系统) : 杂项纬度, 小纬度,自定义纬度等 子系统13 (事实表加载) 单独出来是为了签到三种不同类型的事实表: 事务粒度事实表, 周期快照事实表,