数禾云上数据湖最佳实践
目录 1. 数禾科技 2. 云上自建CDH 3. 云上混合架构 4. 阿里云第一代数据湖 4.1. 什么是数据湖 4.2. 阿里云数据湖设计 4.2.1. 阿里云数据湖整体架构 4.2.2. 统一存储和元数据管理 4.2.3. 多EMR多OSS桶设计 4.2.4. 分布式调度系统设计 4.2.5. 用户权限系统设计 4.2.6. EMR弹性伸缩设计 4.2.7. 负载均衡管理 4.2.8. OSS桶生命周期管理 4.2.9. 日志管理 4.2.10. 终端权限管理 4.2.11. 组件UI管理 4.2.12. 监控告警管理 4.2.13. 即席查询设计 4.2.14. 集群安全组设计 4.2.15. 数据脱敏设计 4.2.16. YARN队列设计 4.3. 数据湖EMR治理 4.3.1. 调整EMR预伸缩时间 4.3.2. 更改EMR弹性伸缩策略 4.3.3. 优化EMR云盘空间 4.3.4. EMR机器组的选择 4.3.5. EMR成本控制 4.3.6. 购买RI预留抵扣券 4.3.7. 弹性保障 4.4. 数据湖OSS治理 4.4.1. 数仓ODS多版本桶治理 4.4.2. 数仓日志桶治理 4.4.3. 数仓桶和集市桶治理 4.4.4. 监控桶内对象 5. 阿里云第二代数据湖 5.1. 阿里云数据湖构建 5.2. 阿里云数据湖解决方案 1.数禾科技 数禾科技成立于2015年8月