数据仓库概念

陌路散爱 提交于 2019-11-30 17:55:26

一、项目需求

  • 数据采集平台搭建
  • 实现用户行为数据仓库的分层搭建
  • 实现业务数据仓库的分层搭建
  • 针对数据仓库中的数据进行留存、转换率、GMV、复购率、活跃等报表分析

二、思考题

  • 项目技术如何选型
  • 框架版本如何选型(如Apache、CDH、HDP)
  • 服务器使用物理机还是云主机
  • 如何确认集群规模?(假设每台服务器8t硬盘)

技术选型:

数据采集传输Flume、Kafka、Sqoop、Logstash、 DataX

数据存储Mysql、HDFS、HBase、Redis、MongoDB

数据计算Hive、Tez、Spark、Flink、Storm

数据查询Presto、Druid、Impala、Kylin

 

问题:

kafka消息存HDFS方法?

java代码消费,然后调用HDFS上传api或者通过Flume

 

系统数据流程设计

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!