Apache HBase

大数据技术原理与应用

风格不统一 提交于 2021-01-07 17:55:56
概要介绍 大数据期末整理,岩哥牛逼 。 往期文章 数据可视化思维导图 网页设计期末复习 选择+简答+大题 文章目录 第一章 1. 大数据的4个v 2. 大数据的影响 3. 大数据的两大核心技术及对应关系 4. 产品对应关系 5. 三者关系 第二章 1. hadoop最初是创始人Doug Cutting 开发的文本搜索库,hadoop源自于2002年的Apache Nutch项目 2. hadoop分布式处理的软件框架 ,特性如下 3. Apache hadoop 版本演变 1.0-》2.0 4. hadoop生态系统 5. hadoop项目组建功能 6. 配置文件 core-site.xml hdfs-site.xml 参数(属性)理解 第三章 1. 总而言之 HDFS实现以下目标 2. HAFS特殊的设置,使得本身具有一些应用局限性 3.块的概念 4. HDFS主要组件的功能 (名称节点 数据节点)(课本更详细) 5. 名称节点的数据结构 6. 第二名称节点: 7. 第二名称节点的工作流程(个人概括) 8. HDFS体系机构概述 9. HDFS通信协议 10. 多副本方式冗余数据的保存 11. 数据存储策略(重点) 12. 数据错误与恢复(名称节点出错 数据节点出错 数据出错)(了解) 13. HDFS数据读写操作(背)(待补充) 第四章 1. 从BigTable说起 2.

Apache Flink 零基础入门(十二)Flink sink

佐手、 提交于 2021-01-07 05:03:24
将DataSet中的数据Sink到哪里去。使用的是对应的OutPutFormat,也可以使用自定义的sink,有可能写到hbase中,hdfs中。 writeAsText() / TextOutputFormat ,以String的形式写入 writeAsCsv(...) / CsvOutputFormat,以CSV的方式写进去 print() / printToErr() / print(String msg) / printToErr(String msg)以标准输出 writeAsText object DataSetSinkApp { def main(args: Array[String]): Unit = { val environment = ExecutionEnvironment.getExecutionEnvironment val data = 1.to(10) val text = environment.fromCollection(data) val filePath = "E:/test" text.writeAsText(filePath) environment.execute("DataSetSinkApp") } } 如果E:/test文件或者文件夹存在,将无法执行成功。除非增加一个WriteMode.OVERWRITE text

NoSQL最新现状和趋势:云NoSQL数据库将成重要增长引擎

老子叫甜甜 提交于 2021-01-06 12:54:31
NoSQL最早起源于1998年,但从2009年开始,NoSQL真正开始逐渐兴起和发展。回望历史应该说NoSQL数据库的兴起,完全是十年来伴随互联网技术,大数据数据的兴起和发展,NoSQL在面临大数据场景下相对于关系型数据库运用,这一概念无疑是一种全新思维的注入。 接下来本文重点梳理下NoSQL领域最新发展趋势以及阿里云NoSQL最新现状,以飨读者。 云NoSQL数据库成为数据库领域重要增长引擎 云化趋势不可避免,根据Gartner的报告,2017年超过73%的DBMS增长来自云厂商,Gartner象限里面AWS在领导者象限上升趋势明确,老牌厂商下滑严重。在2018年Gartner报告中,阿里云数据库更是中国唯一首次入围远见者象限。而在众多云厂商里面增长最快的又是NoSQL数据库,云NoSQL成为数据库领域重要增长引擎。 阿里云覆盖了主流的NoSQL引擎 阿里云集团是国内最早提出数据战略,本身也拥有最大体量的数据,是最早投入NoSQL数据库技术研发,目前也拥有国内最大的专家团队。在持续十年技术加持下,阿里云NoSQL目前覆盖了所有主流的NoSQL数据库,如Redis/mongodb/HBase/图等等。下表是目前阿里云目前覆盖的主流的NoSQL数据库。 NoSQL数据库 存储类型 典型场景 Redis/Memcache Key/Value 缓存,搭配所有数据库使用;直播

NoSQL最新现状和趋势:云NoSQL数据库将成重要增长引擎

≯℡__Kan透↙ 提交于 2021-01-06 12:54:12
NoSQL最早起源于1998年,但从2009年开始,NoSQL真正开始逐渐兴起和发展。回望历史应该说NoSQL数据库的兴起,完全是十年来伴随互联网技术,大数据数据的兴起和发展,NoSQL在面临大数据场景下相对于关系型数据库运用,这一概念无疑是一种全新思维的注入。 接下来本文重点梳理下NoSQL领域最新发展趋势以及阿里云NoSQL最新现状,以飨读者。 云NoSQL数据库成为数据库领域重要增长引擎 云化趋势不可避免,根据Gartner的报告,2017年超过73%的DBMS增长来自云厂商,Gartner象限里面AWS在领导者象限上升趋势明确,老牌厂商下滑严重。在2018年Gartner报告中,阿里云数据库更是中国唯一首次入围远见者象限。而在众多云厂商里面增长最快的又是NoSQL数据库,云NoSQL成为数据库领域重要增长引擎。 阿里云覆盖了主流的NoSQL引擎 阿里云集团是国内最早提出数据战略,本身也拥有最大体量的数据,是最早投入NoSQL数据库技术研发,目前也拥有国内最大的专家团队。在持续十年技术加持下,阿里云NoSQL目前覆盖了所有主流的NoSQL数据库,如Redis/mongodb/HBase/图等等。下表是目前阿里云目前覆盖的主流的NoSQL数据库。 NoSQL数据库存储类型典型场景Redis/MemcacheKey/Value缓存,搭配所有数据库使用;直播、视频等各种在线场景

Atlas 介绍

≯℡__Kan透↙ 提交于 2021-01-06 09:24:46
一、Atlas是什么? 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。 大部分公司只是单纯的对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生。 Atlas官网地址: https://atlas.apache.org/ Atlas是Hadoop的数据治理和元数据框架。 Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。 Atlas支持各种Hadoop和非Hadoop元数据类型 提供了丰富的REST API进行集成 对数据血缘的追溯达到了字段级别,这种技术还没有其实类似框架可以实现 对权限也有很好的控制 ​ 二、架构原理 Atlas包括以下组件: 采用Hbase存储元数据 采用Solr实现索引 Ingest/Export 采集导出组件 Type System类型系统 Graph Engine图形引擎 共同构成Atlas的核心机制 所有功能通过API向用户提供,也可以通过Kafka消息系统进行集成

快速理解HBase和BigTable

ぐ巨炮叔叔 提交于 2021-01-04 08:44:57
有关系行数据库经验的人(比如我),在最初接触HBase这样的数据库时,对数据结构的理解容易遇到障碍。会不自觉的将HBase的行、列等概念映射成关系型数据库的行、列。为了加速理解HBase的一些概念,翻译了这篇文章《Understanding HBase and BigTable》(HBase官方文档推荐阅读文章)。 学习Hbase(Google BigTable的开源实现) 最困难 的是理解它的实际概念。 很不幸的是,这两个伟大的系统在其概念中包含了table和base两个词,这往往会导致一些人(比如我) 把它们跟 关系型数据库 的东西 搞混淆 。 本文旨在从概念的角度描述这些分布式数据存储系统。阅读之后,你应该能够更好地判断,什么时候要使用Hbase,什么时候该更好地使用“传统”数据库。 一切都在术语中 幸运的是,Google的BigTable论文清楚地解释了BigTable究竟是什么。这是“数据模型”部分的第一句话: 注意:请牢记上边这句话的每一个词 BigTable论文继续说明 Hadoop wiki的HbaseArchitecture页面假设: 尽管所有这些看起来都相当神秘,但是一旦你将它分解为单词,它就变得容易明确了。我喜欢按照这个顺序讨论它们: map,持久化(persistent),分布式(distributed),有序(sorted),多维

如何实现一个跨库连表SQL生成器?

限于喜欢 提交于 2021-01-04 08:37:17
一 概述 ADC(Alibaba DChain Data Converger)项目的主要目的是做一套工具,用户在前端简单配置下指标后,就能在系统自动生成的大宽表里面查询到他所需要的实时数据,数据源支持跨库并支持多种目标介质。说的更高层次一点, 数据的全局实时可视化这个事情本身就是解决供应链数据“神龙效应”的有效措施(参考施云老师的《供应链架构师》[1]一书)。做ADC也是为了这个目标,整个ADC系统架构如下图所示: 架构解析: 初始数据来自于元数据中心。 经过元数据适配层后转换为内部格式数据。 调度中心把内部格式的数据传到计划中心,计划中心分析数据需求并建模,通过SQL生成器生成资源和SQL,分别通过告警中心、对账中心设定监控标准和对账标准。 对账中心定时对账,查看数据的对齐情况。 告警中心可以针对任务错误、延迟高等情况发送报警。 资源的生命周期管控在资源管理中心下,view删除时资源管理中心负责回收资源。 基础资源适配层主要借助集团基础资源管理能力串联阿里各类数据服务, 比如阿里云MaxComputer、Flink、阿里云AnalyticDB等。 其中,SQL生成器的上游和下游主要涉及: 上游计划中心 配置指标:用户在前端配置他想看的数据有哪些。 生产原始数据:根据用户输入得到哪些表作为数据源, 以及它们之间的连接关系。 下游Metric适配器 把SQL发布到Flink,

用太极拳讲分布式理论,真舒服!

∥☆過路亽.° 提交于 2021-01-04 02:57:37
边看边听真舒服,人生短短几个秋... 倚天屠龙记中 赵敏 郡主携带一帮高手围攻武当,武当派掌门 张三丰 被暗算,传了一套武功给 张无忌 用来对付赵敏的手下。这套武功就是 太极拳 。 ❝ 张三丰 :无忌,我教你的还记得多少? 张无忌 :我全忘了! 张三丰 :很好,你只要记住把玄冥二老打趴下就可以了。 上篇 用 三国杀 讲分布式中的拜占庭将军问题,还挺有意思的,这次我们用 倚天屠龙记 中的 太极拳 来聊下剩下的 三大理论 : CAP 理论 ACID 理论 BASE 理论 ❝ 太极拳的精髓:以柔克刚,刚柔并进,四两拨千斤,无招胜有招。 我把 CAP 理论称作 太极 ,ACID 理论称为 阳 或 刚 ,BASE 理论称为 阴 或 柔 。ACID 理论追求一致性,BASE 理论本来就叫做柔性事务,追求的是可用性。那张无忌为什么会全忘了还打败了玄冥二老呢?因为太极拳的精髓是拳意,无招胜有招。 1、太极的两面 CAP 理论是对分布式系统的特性做了一个高度的抽象,变成了三大指标: 一致性(Consistency) 可用性(Availability) 分区容错性(Partition Tolerance) 分布式中的一致性,我们可以理解为客户端的每次 读操作 ,不管访问的是哪个几点,要么读到的都是同一份最新写入的数据,要么读取失败。这就很刚了,不能说这种 刚 不好,在很多场景中

以友盟+U-Push为例,深度解读消息推送的筛选架构解决方案应用与实践

僤鯓⒐⒋嵵緔 提交于 2020-12-31 12:01:06
业务背景 友盟+消息推送U-Push日均消息下发量百亿级,其中筛选任务日均数十万,筛选设备每分钟峰值可达7亿+,本文将分享友盟+技术架构团队在长期生产实践中沉淀的筛选架构解决方案。 如何保证百亿级的下发量? 友盟+U-Push筛选是Push产品的核心功能,其中实时筛选是面向推送要求较高的付费Pro用户提供的核心能力之一,实现了用户实时打标、筛选、分发、触达的功能。友盟+U-Push的设备识别以device_token为基准,为保证尽可能的触达我们留存了近期所有可能触达客户的device_token,以10亿真实设备为例,每个设备安装10个集成友盟+SDK的应用可以产生10个device_token,牵扯到硬件环境变动导致的device_token漂移问题,可能产生更多device_token。 ( 图1.1.1 友盟+U-Push业务数据流简图) 图1.1.2 友盟+U-Push功能清单 U-Push筛选架构概览 2.1 上下行两个核心链路 U-Push服务由两个关键链路组成,下行链路保证客户消息的触达,上行链路承载终端采数和与客户服务端的数据同步。其中下行链路主要分为任务调度、筛选中心,上行链路主要服务是多种收数通道(为兼容历史问题)和设备中心,上行通过设备中心实现跟下行桥接。 图2.1.1 友盟+U-Push筛选业务场景 在U-Push服务中,依照业务场景不同定义了多种任务类型