目录
一、什么是数据仓库
二、数据库vs数据仓库
1、数据库
2、数据库vs数据仓库
三、报表vs数据可视化vs ETL
1、报表
2、数据可视化
3、ETL
四、数仓分析主题
1、数仓主题的含义
2、电商行业数仓核心主题
1)、总体运营主题
2)、网站流量类主题
3)、销售转化类主题
4)、客户价值类主题
5)、商品类主题
6)、市场营销活动指标
7)、风控类指标
8)、市场竞争指标
3、本项目要实现的分析主题
一、什么是数据仓库
概念上:数据仓库,英文名称为Data WareHouse,可简写为DW或DWH。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的( Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理、运营决策。
(通俗来说,数仓就是一个数据备份和数据分析的系统)
小提示:反应历史变化的含义
二、数据库vs数据仓库
1、数据库
通常指的是数据库软件,比如mysql,oracle,sqlserver,db2
数据库应用场景1:联机事务处理
数据库软件用的最多的应用场景,就是联机事务处理OLTP(online transaction process)
比如:电商系统中的数据库,银行系统中的数据库,办公管理系统OA中的数据库,沃尔玛的销售系统中的数据库;
联机事务处理的要求:
第一,时刻保持联机在线状态,而且要求各种操作(增删改查)请求能得到实时响应
第二,能支撑强有力的事务控制(事务的四个特性:原子、一致、隔离、持久)
像mysql、oracle、db2、sqlserver这些传统的关系型数据库,都是能够用来很好地胜任联机事务处理场景的!
数据库应用场景2:数据分析
数据分析又可以分为:
1)联机数据分析(OLAP)
2)离线数据分析
两者的混合体是更常见的情况
2、数据库vs数据仓库
在业务系统中的联机事务处理数据库,随着业务运行时长的增长,库中的业务数据越来越多,会产生两个问题:
1)联机事务处理的速度会越来越慢
2)针对这么大量的数据进行报表分析会耗费太多运算和IO资源,导致联机事务处理被阻塞
由此,引入数据仓库的概念:
将联机事务处理数据库中的数据不断导入另外一个数据库库系统进行存储,而且也可以在这“另一个数据库”系统上对各种长时间跨度数据进行复杂数据分析、统计!
这“另一个数据库”就是承担了“数据仓库”的角色!
而根据构建“数据仓库”的软件特性不同,数据仓库所支持的数据分析性能也不同:
1.如果是用各类关系型数据库如mysql、oracle等构建的数据仓库,可以支持离线数据分析,也可以支持联机数据分析!
2.如果是hive这种软件构建的数据仓库,只能支持离线数据分析!
三、报表vs数据可视化vs ETL
1、报表
报表即统计计算结果,也就是一张数据库表,一般存储在mysql中
只是,放在mysql中,对于运营分析人员(非技术人员)不方便查看和使用!
2、数据可视化
所谓可视化,就是将数据库中的数据表,以更友好的方式展(比如图,比如表格)现在一些“界面”上(比如桌面软件,比如web页面,比如excel等),以便于数据运营、分析人员能够更加直观地对数据进行查看和理解、分析
3、ETL
ETL中文全称为:抽取.转换.加载 extract transform load
ETL是传数仓开发中的一个重要环节。它指的是,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。
在传统数仓领域中,这项工序,大部分公司都是通过使用一些成熟的ETL软件来实现的,这些软件的使用,都不需要手工编程,只需要在软件的界面上,做一些参数配置,拖拽操作,就可以生成数据抽取任务并能够对这些任务进行“调度”。
比较流行的ETL软件:
四、数仓分析主题
1、数仓主题的含义
主题: 是将数据分析按它所围绕的“主题”做的逻辑分类
用户分析主题
日新统计报表
日活统计报表
留存分析报表
来源分析报表
…
流量分析主题
pv概况统计报表
pv来源分析报表
pv热点页面分析报表
pv热点栏目分析报表
…
app分析主题
app版本分布统计报表
app升级情况统计报表
…
GMV销量分析主题
gmv总额统计报表
gmv品类统计报表
gmv品牌统计报表
gmv增长趋势报表
…
2、电商行业数仓核心主题
1)、总体运营主题
从流量、订单、总体销售业绩、整体指标进行把控,起码对运营的电商平台有个大致了解,到底运营的怎么样,是亏是赚。
2)、网站流量类主题
即对访问你网站的访客进行分析,基于这些数据可以对网页进行改进,以及对访客的行为进行分析等等
3)、销售转化类主题
分析从下单到支付整个过程的数据,帮助你提升商品转化率。也可以对一些频繁异常的数据展开分析。
4)、客户价值类主题
这里主要就是分析客户的价值,可以建立RFM价值模型,找出那些有价值的客户,精准营销等等。
5)、商品类主题
主要分析商品的种类,那些商品卖得好,库存情况,以及可以建立关联模型,分析那些商品同时销售的几率比较高,而进行捆绑销售,有点像啤酒喝尿布的故事。
6)、市场营销活动指标
主要监控某次活动给电商网站带来的效果,以及监控广告的投放指标
7)、风控类指标
分析卖家评论,以及投诉情况,发现问题,改正问题。
8)、市场竞争指标
主要分析市场份额以及网站排名,进一步进行调整
3、本项目要实现的分析主题
如下图所示:
除图中所列主题以外,本项目还将实现以下分析主题:
(一)转化率分析
(二)销售分析
(三)广告效果分析
(四)用户行为规律分析
多易心声:
疫情非常时期,多易教育为广大有志青年开启在线“0元试学”大数据入门精选课程,行业教父涛哥一对一名师在线答疑,立志为广大有志青年提供实现梦想的机会,入门课程获取请加q群813383827,更多大数据就业率薪资等信息请咨询多易教育官网。
来源:CSDN
作者:江湖人称涛哥
链接:https://blog.csdn.net/coderblack/article/details/104198571