1.大数据应用案例
首先普及一下数据量单位,然后再来看BAT大数据应用
字节 byte:8个二进制位为一个字节(B),最常用的单位.
1KB (Kilobyte 千字节)=1024B,
1MB (Megabyte 兆字节 简称“兆”)=1024KB,
1GB (Gigabyte 吉字节 又称“千兆”)=1024MB,
1TB (Trillionbyte 万亿字节 太字节)=1024GB,其中1024=2^10 ( 2 的10次方),
1PB(Petabyte 千万亿字节 拍字节)=1024TB,
1EB(Exabyte 百亿亿字节 艾字节)=1024PB,
1ZB (Zettabyte 十万亿亿字节 泽字节)= 1024 EB,
1YB (Jottabyte 一亿亿亿字节 尧字节)= 1024 ZB,
1BB (Brontobyte 一千亿亿亿字节)= 1024 YB.
注:“兆”为百万级数量单位.
1.百度大数据
1.拥有EB级别的超大数据存储和管理
2.收录网页的数量超过一万亿
3.每年更新几十亿
4.每天百亿次的访问请求
2.阿里巴巴大数据
1.每天处理200PB数据量
2.每秒8.59万次交易
3.同时拥有3亿用户在线
4.由智能推荐撮合成功的交易有300+亿
3.腾讯大数据
1.单集群8800台
2.每天20PB扫描量
3.200PB存储容量
4.QQ PC月活8.99亿
5.微信月活8.05亿
4.大数据应用领域
1.互联网领域:
搜索引擎、推荐系统、广告系统
2.电信领域:
用户画像、用户行为分析
3.医药生物领域:
DNA分析
4.视频领域:
视频存储、视频分析
5.金融领域:
信用卡欺诈分析、用户分析
6.矿产勘探领域:
矿产石油勘查预测
2.大数据技术框架
大数据技术的框架是由传统的数据仓库或者传统BI架构演进而来,如下:
1.来自互联网、物联网、企业数据等不同结构数据源
2.数据采集(ETL)
3.存储
4.数据计算(批处理、流处理、交互式分析)
5.基于计算好的数据,可使用数据挖掘实现推荐等
6.可视化
7.展现的用户可能是经理,也可能是用户
3.推荐系统的技术栈
1.Hadoop生态
1.数据存储:借助HDFS进行存储
2.数据采集:flume(流式日志类型)和sqoop(RDMS关系型数据库采集)
3.数据处理:MapReduce、Spark、Storm,通过Yarn来分配资源
4.提供数据分析:hive、pig、sparksql,mllib(数据挖掘使用)
5.调度工具:Oozie整体调度,使得各种组件相互依赖完成任务
6.HBASE:在Hadoop中
7.zookeeper:实现hdfs的HA,hive中实现高并发,在HBASE中实现存储一部分元数据来响应客户端的请求
8.Ambari:图形化工具,解决用户体验,非常方便地通过它进行集群的构建
2.Spark生态
1.数据存储:Tachyon、MemoryStore,现在基本都用Hadoop来替换了,现在基本使用Hadoop、HBASE、MySQL、elasticsearch等
2.数据计算:Spark Core进行RDD开发
3.DataFrame API:在Spark Core基础上进行的开发
4.Spark SQL:基于DataFrame API进行开发
5.Spark Streaming:基于Dstream进行开发
6.mllib:使用它来进行spark在推荐系统中模型的构建
7.Graphx、Pachages同样可以引入spark生态体系,但用的比较少
3.大数据框架之外所需要的
传统的mysql
redis:给用户快速推荐
web:推荐展示
Graphand:图形展示工具
来源:CSDN
作者:戮默。
链接:https://blog.csdn.net/qq_28286027/article/details/103937002