MapReduce

数据仓库之Hive快速入门

与世无争的帅哥 提交于 2020-11-11 19:48:24
数据仓库VS数据库 数据仓库的定义: 数据仓库是将多个数据源的数据经过ETL(Extract(抽取)、Transform(转换)、Load(加载))理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境 数据仓库VS数据库: 数据库是面向事务的设计,数据仓库是面向主题设计的 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据 数据库设计是避免冗余,采用三范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计 OLTP VS OLAP: 联机事务处理OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易 联机分析处理OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果 常规的数仓架构: 为什么建设数据仓库: 各个业务数据存在不一致,数据关系混乱 业务系统一般针对于OLTP,而数据仓库可以实现OLAP分析 数据仓库是多源的复杂环境,可以对多个业务的数据进行统一分析 数据仓库建设目标: 集成多源数据,数据来源和去向可追溯,梳理血缘关系 减少重复开发,保存通用型中间数据,避免重复计算 屏蔽底层业务逻辑,对外提供一致的、 结构清晰的数据 如何实现: 实现通用型数据ETL工具 根据业务建立合理的数据分层模型 数据仓库分层建设 数仓建设背景: 数据建设刚起步

阿里云数据库MySQL版快速上手!

╄→гoц情女王★ 提交于 2020-11-11 15:05:51
MySQL是全球最受欢迎的开源数据库,其在各Web应用中均有广泛部署。阿里云数据库MySQL版基于Alibaba的MySQL源码分支,经过双11高并发、大数据量的考验,拥有优良的性能和吞吐量。除此之外,阿里云数据库MySQL版还拥有经过优化的读写分离、数据压缩、智能调优等高级功能。 阿里云数据库MySQL 版优势: 最高安全等级,保证数据库安全性。已通过ISO 20000、SOC\PCI-DSS\等保三级等十项安全合规认证。 多种部署架构,满足各类可用性要求。通过多种部署架构,您可以自由选择,满足各种可用性要求。 灵活的产品形态,满足系统可扩展性。多维度,分钟级的扩展能力,尽情享受云计算所带来的按需购买、按量付费的便利。 丰富运维功能,免去运维麻烦。阿里云数据库专家多年数据库运维经验产品化,免去90%运维烦恼。 阿里云数据库MySQL 版使用场景: 网站——高性价比场景 :开箱即用,高性价比数据库产品。基于飞天大规模分布式计算和存储能力,提供超高性价比的单机版实例,同时利用读写分离横向扩展读能力,满足网站类的业务需求。 金融——安全容灾场景 :数据强一致性保证,满足金融级可靠性要求。搭建事前、事中、事后三层数据安全防护网,提供双热机热备、同城、异地三中心部署架构,充分满足金融级合规可靠性需求。 电商——高并发、高性能场景 :提供稳定、高性能、安全可靠的数据库服务

为什么说,MapReduce,颠覆了互联网分层架构的本质?

ε祈祈猫儿з 提交于 2020-11-11 07:53:19
为什么说,MapReduce系统架构,颠覆了互联网分层架构的本质? 下图是一个典型的,互联网分层架构: 客户端层:典型调用方是浏览器browser或者手机APP 站点应用层:实现核心业务逻辑,从下游获取数据,对上游返回html或者json 服务层:业务服务,数据服务,基础服务,对上游提供友好的RPC接口 数据缓存层:缓存加速访问存储 数据固化层:数据库固化数据存储 同一个层次的内部,例如端上的APP,以及web-server,也都会进行MVC分层: view层:展现 control层:逻辑 model层:数据 工程师骨子里,都潜移默化的实施着分层架构设计。 互联网分层架构的本质究竟是什么呢? 如果我们仔细思考会发现,不管是跨进程的分层架构,还是进程内的MVC分层,都是一个“数据移动”,然后“被处理”和“被呈现”的过程。 如上图所示: 数据处理和呈现,需要CPU计算,而CPU是固定不动的: db/service/web-server都部署在固定的集群上 端上,不管是browser还是APP,也有固定的CPU处理 而数据是移动的: 跨进程的:数据从数据库和缓存里,转移到service层,到web-server层,到client层 同进程的:数据从model层,转移到control层,转移到view层 归根结底一句话:互联网分层架构,是一个CPU固定,数据移动的架构。 画外音

Google MapReduce有啥巧妙优化?

走远了吗. 提交于 2020-11-11 07:53:02
搞架构的人,Google的架构论文是必看的,但好像大家都不愿意去啃英文论文。故把自己的读书笔记,加入自己的思考,分享给大家。 《MapReduce到底解决什么问题?》做了简介,这是第二篇,Google MapReduce优化启示(中)。 什么是MapReduce? MapReduce这个编程模型解决什么问题? Google MapReduce是Google产出的一个编程模型,同时Google也给出架构实现。它能够解决“能用分治法解决的问题”。 同时,前文以“统计大量文档中单词出现的个数”为例,例举了如何“先分再合”的撰写map与reduce来解决实际问题。 画外音,强烈建议回顾一下前情提要: 《MapReduce到底解决什么问题?》。 MapReduce的核心思路是: 并行 先分再合 下图简述了MR计算“词频统计”的过程。 从左到右四个部分,分别是: 输入文件 分:M个并行的map计算实例 合:R个并行的reduce计算实例 输出结果 先看最后一步,reduce输出最终结果。 可以看到,R个reduce实例并发进行处理,直接输出最后的计数结果。 实例1输出:(a, 256)(able, 128)(emacs, 1) 实例2输出:(f*ck, 32768) (coding, 65535) 实例3输出:(vim,65535)(x, 16)(zero, 258) 画外音:这就是总结果

什么是分布式系统,如何学习分布式系统

陌路散爱 提交于 2020-11-10 01:02:29
目录 什么是分布式系统 分布式系统挑战 分布式系统特性与衡量标准 组件、理论、协议 用一个请求串起来 一个简化的架构图 概念与实现 总结 references 正文   虽然本人在前面也写过好几篇分布式系统相关的文章,主要包括 CAP理论 、 分布式存储 与 分布式事务 ,但对于分布式系统,并没有一个跟清晰的概念。分布式系统涉及到很多的技术、理论与协议,很多人也说,分布式系统是“入门容易,深入难”,我之前的学习也只算是管中窥豹,只见得其中一斑。因此,一致希望能对分布式系统有一个更全面的认识,至少能够把分布式系统中的各个技术、理论串起来,了解他们在分布式系统分别解决什么问题,有哪些优秀的实现。   我曾在网络上搜索过”如何学习分布式系统“,也在知乎上关注了该话题,但并没有看到一个全面的、有指导意义的答案。本文的目标是给打算全面学习分布式系统的自己、以及感兴趣的读者指明一条可行的路径,使得之后的学习不再盲目。   不过,我并没有越过这座山,我只是站在山前,从前人留下的痕迹揣测山的全貌与沟壑,臆想的成分居多,还望各位大师指点迷津。   2018 03 14更新:对于如何学习分布式系统,经过思考,我觉得有更好的方法,请参见《 分布式学习最佳实践:从分布式系统的特征开始(附思维导图) 》   本文地址: http://www.cnblogs.com/xybaby/p/7787034.html

值得一看!EMR弹性低成本离线大数据分析最佳实践(附网盘链接)

杀马特。学长 韩版系。学妹 提交于 2020-11-08 04:49:49
今天跟大家分享的是关于EMR弹性低成本离线大数据分析最佳实践。 文末下拉获取网盘链接 1.阿里云最佳实践频道和分享群 1.1阿里云官网最佳实践频道 1.2阿里云最佳实践生态群 1.3阿里云官网入口 1.4阿里云帮助中心入 2.E-MapReduce开源大数据平台 3.E-MapReduce产品功能亮点-弹性 4.E-MapReduce架构选型 5.E-MapReduce产品功能亮点-多样存储选择 6.E-MapReduce架构选型 7.E-MapReduce存储选型 8.E-MapReduce-Gateway集群 9.计算与存储分离- EMR + Spot Instance + OSS 10.场景描述 11.Step by Step 点击链接获取完整文档 链接: https://pan.baidu.com/s/1-YIMvP-bCSWcQhl6TI51Hg 提取码:c83i ※部分文章来源于网络,如有侵权请联系删除;更多文章和资料|点击后方文字直达 ↓↓↓ 100GPython自学资料包 阿里云K8s实战手册 [阿里云CDN排坑指南] CDN ECS运维指南 DevOps实践手册 Hadoop大数据实战手册 Knative云原生应用开发指南 OSS 运维实战手册 云原生架构白皮书 Zabbix企业级分布式监控系统源码文档 10G大厂面试题戳领 来源: oschina 链接:

超融合第二存储可不是备份一体机,我们来看看其特质

◇◆丶佛笑我妖孽 提交于 2020-11-06 10:37:22
昨天,我写的博客 备份软件老矣?存储新风口——超融合第二存储来了 阅读量还挺多,在业界引起了不少反响,很多人回帖说他们家的产品就是超融合第二存储,但也许可能就是一个备份一体机,虽然感觉像,但可能并不是,我把它叫形像和神不似。 今天,我就以Cohesity为例,来讲讲超融合第二存储有哪些典型特征,大家可以对号入座,看看你的产品是否具备这样的特性。 1、无限节点。真正的分布式节点,可以无限scale-out扩展,没有节点规模限制。Cohesity号称所有的数据和元数据都是分布式的,类似google file system,没有节点限制。哈哈,投标你写不死它。Nutanix也是这么宣传的,没有节点限制。但是很多SDS是有节点限制的,比如EMC SCALEIO,宣传好像是1000多个,华为的FusionStorage,宣传是2000多个。不过,有高人分析说Cohesity的集群节点数目其实最大只有256个,但是它通过集中管理方式,把这些集群统一进行管理,实现真正的无限扩展。虽然Cohesity怎么能吹,但目前部署的最大集群只有20多个节点。 2、无限高性能快照。Cohesity号称采用SnapTree专利技术,整体系统的快照数是无限的,和IBM的XIV宣传的口径类似。而很多的存储系统,整个系统的快照数是有一个上限的。并且,支持快照的快照(无限递归),并且中间任何一个快照删除

yarn上运行mapreduce

 ̄綄美尐妖づ 提交于 2020-11-02 18:18:57
1.准备一台客户机 2.安装JDK和hadoop 3.配置环境变量 4.配置集群在yarn上运   4.1配置环境变量 yarn-env.sh 增加exprt JAVA_HOME= mapred-env.sh 增加exprt JAVA_HOME=   4.2配置集群环境     由于yarn包含resourceManager和nodeManager\ApplicationManager以及Container,因此在此处先配置resourceManager和nodeManager     a.配置yarn-site.xml        <!-- reducer获取数据的方式 -->     <property>       <name>yarn.nodemanager.aux-services</name>        <value>mapreduce_shuffle</value>     </property>     <!-- 指定YARN的ResourceManager的地址 -->     <property>       <name>yarn.resourcemanager.hostname</name>       <value> hadoop101 </value><!--此处的红色标记必须在/etc/hosts文件中完成主机名城和Ip的映射配置-->     <

连载:阿里巴巴大数据实践—数据开发平台

旧城冷巷雨未停 提交于 2020-11-02 17:03:33
阿里数据人都在用的内部技术经验 关注 数智化转型俱乐部 ,数智化不迷路 摘要 介绍 MaxCompute 和阿里巴巴内部基于 MaxCompute 的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍。 数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。面对海量的数据和复杂的计算,阿里巴巴的数据计算层包括两大体系:数据存储及计算平台(离线计算平台MaxCompute和实时计算平台StreamCompute)、数据整合及管理体系(OneData)。 阿里数据研发岗位的工作大致可以概括为:了解需求→模型设计→ETL开发→测试→发布上线→日常运维→任务下线。与传统的数据仓库开发(ETL)相比,阿里数据研发有如下几个特点: 业务变更频繁 — —业务发展非常快,业务需求多且变更频繁; 需 要快速 交付 — —业务驱动,需要快速给出结果; 频 繁发布上线 — —迭代周期以天为单位,每天需要发布数次; 运 维任务多 — —在集团公共层平均每个开发人员负责上百多 个任务; 系统环境复杂 — —阿里平台系统多为自研,且为了保证业务的发展,平台系统的迭代速度较快,平台的稳定性压力较大。 通过统一的计算平台(MaxCompute)、统一的开发平台、统一的数据模型规范和统一的数据研发规范,可以在一定程度上解决数据研发的痛点

Hadoop生态圈

只谈情不闲聊 提交于 2020-11-01 14:47:37
Hadoop 是什么? Apache 开发的一套分布式系统基础架构 主要解决海量数据存储,和海量数据计算的问题 Hadoop 更广泛的说,就是一个生态圈 Hadoop 发展历史 Gfs-hdfs Map-reduce-MR BigTable-hbase Hadoop 三大发行版本 Apache: 最原始的基础版本,入门方便 Cloudera :大型互联网企业中应用较多 Hortonworks :文档较好 Hadoop 优势 高可靠:底层默认维护多个原数据副本 , 即使 hadoop 在计算或处理某个单元时出现故障,也不会导致数据的丢失 高扩展:通过集群形式处理分配任务数据,可大量扩展集群节点 高效性:在 MapReduce 的思想下, hadoop 是并行工作的,加速任务的处理。 高容错性:能够将自身处理失败的任务重新分配 Hadoop 的组成 Hadoop1.x 辅助工具 common---hdfs 数据存储服务 —mapreduce( 计算 + 资源调度 ) Hadoop2.x 辅助工具 common---hdfs 数据存储服务 —mapreduce( 计算 )—Yarn( 资源调度 ) 1.Hdfs 架构概述 1)Namedode :存储文件的元数据,如文件名,目录结构,文件属性 ( 生成时间,副本数,文件权限 ) ,以及每个文件的块列表和所在的 datanode 2