Apache HBase

Spark 背后的商业公司收购的 Redash 是个啥?

人走茶凉 提交于 2020-07-28 12:29:03
在2020年6月24日的 Spark AI summit Keynote 上,数砖的首席执行官 Ali Ghodsi 宣布其收购了 Redash 开源产品 的背后公司 Redash! 如果想及时了解 Spark 、Hadoop或者HBase相关的文章,欢迎关注微信公众号: iteblog_hadoop 通过这次收购,Redash 加入了 Apache Spark、Delta Lake 和 MLflow,创建了一个更大、更繁荣的开源系统,为数据团队提供了同类中最好的工具。为什么数砖会收购 Redash 公司? Redash 是什么? Redash 是一个可以协作的可视化和仪表盘平台,旨在让任何人,无论其技术水平如何,都可以在团队内部或跨团队共享见解。 一直使用 SQL 的用户可以利用Redash 来探索、查询、可视化和共享来自任何数据源的数据。世界各地每天有数千个组织的数百万用户使用 Redash 来做出数据驱动的决策。 Redash 主要包含以下特点: Query editor: 使用模式浏览器和代码提示来快速编写 SQL 和 NoSQL 查询。 可视化和仪表盘: 使用拖放创建漂亮的可视化界面,并将它们合并到单个仪表板中。 分享: 通过共享可视化仪表盘及其关联的查询,可以轻松实现协作,并支持对报告和查询的同行审查。 进度刷新: 在用户定义的间隔内自动更新图表和仪表板。 报警:

大数据的下一站是什么?服务/分析一体化

吃可爱长大的小学妹 提交于 2020-07-28 12:23:23
作者:蒋晓伟(量仔) 阿里巴巴研究员 因为侧重点的不同,传统的数据库可以分为交易型的 OLTP 系统和分析型的 OLAP 系统。随着互联网的发展,数据量出现了指数型的增长,单机的数据库已经不能满足业务的需求。特别是在分析领域,一个查询就可能需要处理很大一部分甚至全量数据,海量数据带来的压力变得尤为迫切。这促成了过去十多年来以 Hadoop 技术开始的大数据革命,解决了海量数据分析的需求。与此同时,数据库领域也出现了一批分布式数据库产品来应对 OLTP 场景数据量的增长。 为了对 OLTP 系统里的数据进行分析,标准的做法是把里面的数据定期(比如说每天)同步到一个 OLAP 系统中。这种架构通过两套系统保证了分析型查询不会影响线上的交易。但是定期同步导致了分析的结果并不是基于最新数据,这种延迟让我们失去了做出更及时的商业决策的机会。为了解决这个问题,近几年出现了 HTAP 的架构,这种架构允许我们对 OLTP 数据库里的数据直接进行分析,从而保证了分析的时效性。分析不再是传统的 OLAP 系统或者大数据系统特有的能力,一个很自然的问题是: 既然 HTAP 有了分析的能力,它是不是将取代大数据系统呢?大数据的下一站是什么? 背景 为了回答这个问题,我们以推荐系统为例分析一下大数据系统的典型场景。 当你看到购物应用给你展示正好想要买的商品,短视频应用播放你喜欢的音乐时

优化Hbase写入速度

*爱你&永不变心* 提交于 2020-07-28 12:16:37
背景:数据从hive写入HBASE http://hbase.apache.org/book.html#precreate.regions 我们先来了解一下这个步骤: 第一步:生成HFILE 第二步:把HFILE导入到HBASE 其中生成HFILE的方式有: 先写一个注意事项,HBASE表要预分区,只有能启动duogereduce 来源: oschina 链接: https://my.oschina.net/u/3267050/blog/4444240

Ambari和ClouderaManager对比

无人久伴 提交于 2020-07-28 11:28:14
  Ambari和ClouderaManager对比,1 、什么是CDH,Ambari?   Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。   Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。Ambari能够安装安全的(基于Kerberos)Hadoop集群,以此实现了对Hadoop 安全的支持,提供了基于角色的用户认证、授权和审计功能,并为用户管理集成了LDAP和Active Directory。 CDH简介    • Cloudera's Distribution, including Apache Hadoop   • 是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建   • 提供了Hadoop的核心     – 可扩展存储     – 分布式计算   • 基于Web的用户界面 CDH的优点     • 版本划分清晰   • 版本更新速度快   •

网校系统源码开发中,可能用到的数据库技术有哪些?

血红的双手。 提交于 2020-07-28 10:15:49
如果把一套软件系统比喻成人体的话,数据库就相当于人体的大脑部分。因为数据库本身的定义就是“存放数据的仓库”,而对于网校系统来说,它需要存储大量的视频、语音、图文、用户资料等,并且可以灵活的调用。因此,今天小编就来讲下,在网校系统源码开发中,可能用到的数据库技术都有哪些? 一、PostgreSQL PostgreSQL是一个功能非常强大的、源代码开放的客户/服务器关系型数据库管理系统。它支持大部分的SQL标准并且提供了很多其他现代特性。如复杂查询、外键、触发器、视图、事务完整性、多版本并发控制等。但是它也缺少商业数据库中某些可用的特性,如用户定义的类型、继承性和规则。这在网校系统源码开发中,表现的并不友好,所以使用此数据库的使用频率很少。 二、MySQL 不光是在网校系统源码开发中,MySQL的使用率在大多数软件开发进程中可以说是最高的,这主要还是源于它的灵活性。它作为一种关系数据库管理系统,其原理是将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了访问速度。此外,由于MySQL体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站或者平台开发都将它作为网站数据库的首选。 三、Redis 这也是在网校系统源码开发过程中经常用到的数据库,Redis是一个开源的、先进的key-value存储系统,可用于构建高性能、可扩展的Web应用程序

计算压力倍增,携程度假起价引擎架构演变

半城伤御伤魂 提交于 2020-07-28 07:02:09
携程度假每个旅游线路在每期、每天的价格均有变化,而价格变化又受到多个因素影响。为尽快捕捉到价格变化,需要不断优化调整架构,使得价格调整灵敏度更高更准。这对被调服务及硬件产生了极大的压力,也带来了新的瓶颈。那么,携程是如何解决这一难题的呢?本文是携程高级研发经理陈少伟在「云加社区沙龙online」的分享整理,着重介绍了携程度假起价引擎架构不断演进的过程。 点击视频,查看完整直播回放 一、背景介绍 1. 什么是度假起价引擎? 首先,解释一下什么是度假起价引擎。度假每个旅游线路涉及到不同的出发地,不同的出发地下有不同可出发班期,每个班期都有对应的这一天的价格。旅游产品的价格由多个资源组成的,任何一个资源价格发生变化,都会影响到产品的价格。 为了尽快捕捉到价格变化,需要有一个专门的价格系统去监测不同资源的价格变化,这就是起价引擎。 2. 旅游电商和普通电商的区别是什么? 普通电商的商品基本都是标品,价格和库存都针对的是单个SKU(StockKeeping Unit 库存单元),而旅游打包类商品都是由多个SKU组成(静态和实时匹配),任意一个SKU的价格、库存发生变化,都会直接影响到它所关联的所有产品。正是由于变量太多,这也给定价带来了极大的挑战。 上图展示的是京东上一个商品截图,我们可以看到它涉及到两个SKU,基本上像这种情况,每个SKU的价格都是比较确定的。 3.

SSH免密登录详解

亡梦爱人 提交于 2020-07-28 05:35:42
SSH免密登录详解 SSH(Security Shell)安全外壳协议,是较为可靠的,专为远程登录会话和其他网络服务提供安全保证的协议。 ​ 对于传统的网络服务程序(例如,FTP,Telnet等)来说,其本质上并不是安全的,主要原因在于,这些网络应用程序在网络上都是直接使用 明文 传输口令和数据的,对于别有用心的人来说,这些口令和数据是很容易被截获的。另外,这些网络服务程序的安全验证方式也是存在弱点的,非常容易受到中间人(Man-In-The-Middle)这种方式的攻击,简而言之,就是 中间人 冒充真正的服务器接收你传输的数据,然后,再将数据转发给真正的服务器,通过这种方式 中间人 就可以神不知鬼不觉地拿到你所有数据。 ​ 通过使用SSH,则可以将所有传输的数据及口令进行加密,从而防止中间人攻击,还可以防止DNS和IP欺骗,另外,使用SSH还有加快传输速度的好处,原因在于,SSH是可以对数据进行压缩的。 SSH安装详解 SSH是安全外壳协议,而 open-ssh 则是SSH的开源实现,CentOS通常是默认安装了 open-ssh 的。 整个SSH服务是包含SSH服务端( openssh-server )和SSH客户端( openssh-clients )的,常用的ssh命令就是客户端一部分。 SSH服务端与SSH客户端之间的关系:节点A想要控制节点B

百分点认知智能实验室出品:基于动态知识图谱的大规模数据集成技术

瘦欲@ 提交于 2020-07-27 14:46:09
编者按 数据烟囱、信息孤岛已成为政府、企业在数据应用中不可回避的问题,都在寻求各种方案打破现状,实现数据融合已成当务之急。百分点在经历多个大型数据集成项目洗礼后,已经达到了业界领先水平,通过利用动态知识谱图技术,将模型与数据进行解耦,在业务处于探索期或业务变化十分迅速的场景下,能够极大地提升数据集成的效率,解决海量数据动态集成的难题,并且能支持千万级、PB级的实时导入分析。 作者:倪路 在信息高速变化的时代,企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期,客户与集成方对数据、业务的认知都是不全面的,比如今天提供了人口库的数据,明天提供车辆数据、后天又提供了卡口数据…… 在这种场景下,如果利用常规的数据集成实现手段,就要调整表结构、改写ETL任务代码、删除已经集成过的数据,并重新进行数据集成。但这在大规模数据集成的场景下,几乎是不能接受的,比如已经集成数百张表、入库10PB数据,如果要重新进行一遍集成,可能需要数以月记。这时,具备数据动态集成的能力就十分重要了。 因此,如何在海量数据之上将动态的数据进行关联融合,同时满足融合快速、融合无信息丢失等业务要求,并将新增的数据快速融入到当前的图谱中,不间断提供知识服务是目前的业界难题。 基于动态知识图谱的数据集成实现方案 常规的数据集成方案通常有以下痛点: 1.只能针对特定行业的数据进行集成

java架构师成长路线-分布式架构的分类

久未见 提交于 2020-07-27 10:13:30
鲁班学院java架构师成长路线 最近有关分布式架构的分类讨论得比较多,为此我特意为各位初学分布式架构的后辈们整理了关于分布式架构分类以及那些所不为人知的分布式架构的套路。 一、分布式架构的类型: 1、master-slaver型: 整个集群以某台 master 为中枢,进行集群的调度。交互是这样,一般会把所有的管理类型的数据放到 master 上,而把具体的数据放到 slaver 上,实际进行调用的时候,client 先调用 master 获取数据所存放的 server 的 信息,再自行跟 slave 进行交互。典型的系统有 Hadoop。集群,HBase 集群,Redis 集群等。 2、领导选举型: 整个集群的消息都会转发到集群的领导这里,是一种 master-slavers,区别只是这个 master 是被临时选举出来的,一旦 master 宕机,集群会立刻选举出一个新的领导,继续对外提供服务。使用领导选举型架构的典型的应用有 ElasticSearch,zookeeper。 分布式架构.png 3、纯负载均衡形式: 在集群前面,前置一个流量分发的组件进行流量分发,整个集群的机器提供无差别的服务,这在常见的 web 服务器中是最最常见的。目前比较主流的方式就是整个集群机器上云,根据实时的调用量进行云服务器弹性伸缩。常见的负载均衡有硬件层面的 F5、软件层面的 nginx 等。

HBase Filter 过滤器之FamilyFilter详解

痞子三分冷 提交于 2020-07-27 09:03:45
前言: 本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用,并贴出了相关示例代码以供参考。FamilyFilter 基于列族进行过滤,在工作中涉及到需要通过HBase 列族进行数据过滤时可以考虑使用它。比较器细节及原理请参照之前的更文: HBase Filter 过滤器之比较器 Comparator 原理及源码学习 一。Java Api 头部代码 public class FamilyFilterDemo { private static boolean isok = false; private static String tableName = "test"; private static String[] cfs = new String[]{"f1","f2"}; private static String[] data = new String[]{"row-1:f1:c1:v1", "row-2:f1:c2:v2", "row-3:f2:c3:v3", "row-4:f2:c4:v4"}; public static void main(String[] args) throws IOException { MyBase myBase = new MyBase(); Connection connection =