一、项目需求
- 数据采集平台搭建
- 实现用户行为数据仓库的分层搭建
- 实现业务数据仓库的分层搭建
- 针对数据仓库中的数据进行留存、转换率、GMV、复购率、活跃等报表分析
二、思考题
- 项目技术如何选型
- 框架版本如何选型(如Apache、CDH、HDP)
- 服务器使用物理机还是云主机
- 如何确认集群规模?(假设每台服务器8t硬盘)
技术选型:
数据采集传输:Flume、Kafka、Sqoop、Logstash、 DataX
数据存储:Mysql、HDFS、HBase、Redis、MongoDB
数据计算:Hive、Tez、Spark、Flink、Storm
数据查询:Presto、Druid、Impala、Kylin
问题:
kafka消息存HDFS方法?
java代码消费,然后调用HDFS上传api或者通过Flume
系统数据流程设计