Apache HBase

京东城市时空数据引擎JUST亮相中国数据库技术大会

点点圈 提交于 2020-12-30 16:59:04
受疫情影响,第十一届中国数据库技术大会(DTCC 2020)从原定的5月份,推迟到了8月份,再推迟到了12月份。尽管如此,依然没有减退国人对数据库技术的热情。2020年12月21日-12月23日,北京国际会议中心人头攒动,各大厂商争奇斗艳。在NoSQL技术专场,京东智能城市研究院的李瑞远博士给大家带来了《京东城市时空数据引擎JUST的架构设计与应用实践》的主题报告,受到了大家的广泛关注。 李瑞远博士的个人简介:李瑞远,博士,京东城市时空数据组负责人,京东智能城市研究院研究员,京东智能城市事业部数据科学家,负责时空数据平台架构设计、时空索引与分布式相结合研究、时空数据产品的研发、以及时空数据挖掘在城市场景的落地等工作。加入京东之前,在微软亚洲研究院城市计算组实习/工作4年。研究兴趣包括:时空数据管理与挖掘、分布式计算和城市计算。在国内外高水平期刊和国际会议上发表论文20余篇,包括:KDD、Artificial Intelligence、ICDE、AAAI、TKDE、WWW、UbiComp、软件学报等。申请专利20余项。现为中国计算机学会(CCF)会员、CCF数据库专委会通讯委员、IEEE会员。先后担任多个国内外顶级会议或期刊的论文审稿人。 JUST简介:时空数据蕴含着丰富的信息,能够应用于各种城市应用。但时空数据更新频率高、数据体量大、结构复杂,难以被高效存储、管理和分析

Kylin 大数据下的OLAP解决方案和行业典型应用

依然范特西╮ 提交于 2020-12-28 00:30:28
最近工作中应用到了 Kylin,因此调研了 Kylin的原理和行业应用。本文参考了官网和众多其他公司中 Kylin的应用案例,文末给出了出处,希望对大家有帮助。 Apache Kylin的原理和技术架构 Apache Kylin 从数据仓库中最常用的Hive中读取源数据,使用 MapReduce作为Cube构建的引擎,并把预计算结果保存在HBase中,对外暴露Rest API/JDBC/ODBC的查询接口。 Apache Kylin系统主要可以分为在线查询和离线构建两部分,具体架构图如下: Apache Kylin在百度地图的实践 对于 Apache Kylin 在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。目前,百度地图大数据 OLAP 多维分析平台承载百度地图内部多个基于 Apache Kylin 引擎的亿级多维分析查询项目,共计约 80 个 cube,平均半年时间的历史数据,共计约 50 亿行的源数据规模,单表最大数据量为 20 亿 + 条源数据,满足大时间区间、复杂条件过滤、多维汇总聚合的单条 SQL 查询毫秒级响应,较为高效地解决了亿级大数据交互查询的性能需求。 Kylin 有效解决的痛点问题: 痛点一:百亿级海量数据多维指标动态计算耗时问题,Apache Kylin 通过预计算生成 Cube 结果数据集并存储到 HBase 的方式解决。

bilibili大数据一面问题梳理

 ̄綄美尐妖づ 提交于 2020-12-25 14:27:28
Blibli一面 1:kfk 整体架构的三个概念(名词) 2:kfk broker里的名词 3:kfk 分区一个消费的慢,一个消费的快,这是什么原因,怎么分析呢 4:kfk的分区副本follower同步leader流程说明下 5:查看磁盘、网络IO,顺序读写、随机读写的方法 6:kfk 某主题10个分区,消费者组有11个消费者线程,那么第十一个线程会干什么 7:zero copy原理描述下 8:zero copy生效的场景是什么,kfk 生产进来一大批数据、今天不消费,明天消费,那么会用到zero copy吗 9:kfk map file的配置 10:kfk启动时加载的是什么文件 11:ISR列表缺失问题处理方法 12:内核级调优用过哪些? 13:hadoop HDFS 的组件罗列下 14:zkfc的作用 15:CAP理论描述下 16:journeyNode的作用 17:NN HA failOver流程概述下 18:HBASE、Kfk的CLOSE_WAIT现象有哪些 19:TCP、三次握手四次挥手 20:如何查看一个broker的流量数据流出?消费、生产端ip信息如何获取? 本文分享自微信公众号 - 小晨说数据(flink-spark)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源:

大数据复习案例

断了今生、忘了曾经 提交于 2020-12-24 13:46:26
happybase操作Hbase语法: import happybase ## 链接HBase数据库 conn = happybase.Connection(host=’localhost’, port=9090, timeout=None, autoconnect=True, table_prefix=None, table_prefix_separator=b’_’, compat=’0.98’, transport=’buffered’, protocol=’binary’) ## 创建表 conn.create_table( 'shop', { 'interfaceInfo' :dict(max_version=4), 'inputInfo' :dict(max_version = 4) } ) #插入 table = conn.table("shop") with table.batch() as bat: bat.put('0001',{'interfaceInfo:inter_show':'HDM1', 'interfaseInfo:inter_network':'10Mbps', 'interfaceInfo:inter_three':'1个','interfaceInfo:inter_Type-c':'1个'}) bat.put('0001',{

图解JanusGraph系列

扶醉桌前 提交于 2020-12-22 17:50:21
大家好,我是 洋仔 ,JanusGraph图解系列文章, 实时更新 ~ 图数据库文章总目录: 整理所有图相关文章,请移步(超链): 图数据库系列-文章总目录 源码分析相关可查看 github ( 码文不易,求个star~ ): https://github.com/YYDreamer/janusgraph 版本:JanusGraph-0.5.2 转载文章请保留以下声明: 作者:洋仔聊编程 前言 JanusGraph的批量导入速度一直是用户使用的痛点, 下面会依托官网的介绍和个人理解,聊一下关于图数据批量快速导入的一些方案、方案使用场景和一些想; 写这篇文章的目的主要是为了让大家了解一下janus的导入的一些常用方案,算是一个总结吧,如有疑问或者文章错误,欢迎留言联系我 首先,说一下 JanusGraph 的批量导入的可配置的优化配置选项 和 基于 第三方存储和索引 的优化配置选项: 批量导入的配置选项 第三方存储后端的优化选项(Hbase为例) 第三方索引后端的优化选项(ES为例) 之后分析一下数据导入的四个方案: 基于JanusGraph Api的批量导入 基于Gremlin Server的批量导入 使用JanusGraph-utils的批量导入 基于 bulk loader 导入方式 基于 抽取序列化逻辑生成Hfile 离线批量导入 最后聊一下关于批量导入的一些想法; 一

NoSQL 简介

时光怂恿深爱的人放手 提交于 2020-12-22 05:11:58
基本含义 NoSQL(NoSQL = Not Only SQL ),意即"不仅仅是SQL"。 在现代的计算系统上每天网络上都会产生庞大的数据量。这些数据有很大一部分是由关系数据库管理系统(RDMBS)来处理。 1970年 E.F.Codd's提出的关系模型的论文 "A relational model of data for large shared data banks",这使得数据建模和应用程序编程更加简单。 通过应用实践证明,关系模型是非常适合于客户服务器编程,远远超出预期的利益,今天它是结构化数据存储在网络和商务应用的主导技术。 NoSQL 是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储,相对于铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。 RDBMS vs NoSQL RDBMS - 高度组织化结构化数据 - 结构化查询语言(SQL) - 数据和关系都存储在单独的表中。 - 数据操纵语言,数据定义语言 - 严格的一致性 - 基础事务 NoSQL - 代表着不仅仅是SQL - 没有声明性查询语言 - 没有预定义的模式 - 键 - 值对存储,列存储,文档存储,图形数据库 - 最终一致性,而非ACID属性 - 非结构化和不可预知的数据 - CAP定理 - 高性能,高可用性和可伸缩性

腾讯云数据库MySQL高可用实践

允我心安 提交于 2020-12-13 10:20:55
主题: 腾讯云数据库MySQL高可用实践 大纲: 1. 给刚进入数据库行业新人的一些建议 2. 目前腾讯云RDS的可用性达到了99.9999%,需要做好哪些工作才能达到如此高的稳定性 3. 腾讯云RDS的性价比很高,请问都包含了哪些方面 4. TXSQL的好处 5. 腾讯云下关于MySQL高可用还需要使用者额外去监控哪些内容 听说3306π要搞事情了 是啊,马上要搞3306π深圳站了 啊,是吗?哪天啊,在哪里办,怎么报名? 12月19日 ,就在 深圳南山区海岸城 ,点文末的原文链接或者扫描二维码就可以报名了,一起来吹吹牛逼。 嘉宾自我介绍 杨杰 架构师 CDB/CynosDB数据库管控平台架构师,TXSQL内核源码贡献者,腾讯内部开源MySQL 无锁备份工具作者 01 很多小伙伴进入数据库行业,都会把进入腾讯作为目标,杨老师作为过来人可否给大家一些建议吗? 以我自身的经历来说,进入数据库行业也是偶然的机会。在腾讯数据库团队已经是第8个年头,最近几年招聘工作也比较多,算是有些心得吧。对于毕业生来说,我关注的是基础的技术能力、逻辑思维和技术热情。基础能力包括编程语言基础、数据结构和算法,这方面是硬实力,不可或缺但比较容易掌握,建议可以多刷题。 逻辑思维能力,即分析问题的能力,对所做的事情是有一个较全面的认识,对项目/技术有思考。 技术热情比较好理解,就不在赘述了。 对于已经在职同学来说

架构师都该懂的 CAP 定理

痴心易碎 提交于 2020-12-12 19:53:34
面对可能出现的网络延迟,不可预估的请求流量等情况,设计一个分布式系统,我们通常围绕系统高可用,数据一致性的目标去规划和实现,想要完全实现这个目标,却并非易事。由此,分布式系统领域诞生了一个基本定理,即 CAP 定理,用于指导分布式系统的设计,从系统高可用,数据一致性,网络容错三个角度将分布式系统的特性抽成一个分区容错一致性模型。这样一来,让系统设计者只需根据业务场景特点,进行权衡设计适合业务场景的分区容错一致性模型即可,很大程度简化了分布式系统设计的难度。 也因此,CAP 定理是架构师所必须要掌握的内容,它影响着架构师对分布式系统的技术选型,技术决策。既然如此重要,接下来,我们就一起学习下 CAP 定理吧。 什么是 CAP CAP 定理最初是由加州大学伯克利分校的计算机科学家埃里克·布鲁尔(Eric Brewer)在 2000 年的 ACM PODC 上提出的一个猜想,也因此被叫做布鲁尔定理。后来在 2002 年,麻省理工学院的赛斯·吉尔伯特(Seth Gilbert)和南希·林奇(Nancy Lynch)发表了 CAP 定理的证明,让它成为分布式系统领域公认的一个定理。 CAP 定理指出了,在一个跨区域网络连接,共享数据的分布式系统中,一致性(Consistency),可用性(Availability)和分区容错性(Partition Tolerance)

什么是spark(一) 分区以及和MR的区别

久未见 提交于 2020-12-12 15:29:04
  什么是spark,是一个 分布式计算平台,或者说是分布式计算引擎 ,他的职责就是将指定的数据读入到各个node的内存中,然后计算。所以spark是具有泛化性质的, 只要数据源是可读入的,读到内存里面之后,处理就和数据源没有关系了 ,你是HBASE,kudu,还是parquet都无所谓了。   什么是RDD,弹性分布式数据集,其实RDD是一个抽象概念,因为RDD本身不包含数据, 它只包含数据描述以及对于数据的算法 ,比如一个sparkSQL返回的RDD其实就是一个对数据的描述,告诉各个节点的executor要处理那些数据,那么map就是算法,map里面的函数体就是算法,所以map又叫做算子。   什么是spark分区,“ 需要把相同 key 的元素聚集到同一个 partition 下,所以造成了数据在内存中的重新分布,即 shuffle 操作 ”,简单讲就是设置数据分布, 将相同key的数据分布到同一台机器 ;为什么要分区?首先明白分区的目的好处就是:   1)减少了网络开销;   2)提高并行计算度;   前者的实现是通过将join算子和hive参数放置到同一台机器,然后让发起join的表数据推送到spark的分区节点进行运算;至于后者,每个分区都有独立的线程(每个线程执行的逻辑称之为Task);可以保持彼此独立,并行进行计算,这个也是spark的机制所在。  

AliExpress智能营销引擎大揭秘

眉间皱痕 提交于 2020-12-11 22:46:21
业务介绍 AliExpress(简称AE)是从集团内wholesale孵化出来面向全球消费者的B2C电商平台,目前也是全球化电商业务的排头兵。当前AE为全球220+个国家提供在线购物服务,支持3端(PC、Msite和APP)、18+种语言,有5个独立分站(印尼、俄罗斯、巴西、西班牙、法国)和2个本地站(西班牙Plaza和俄罗斯Tmall)为当地提供更精细化的服务。 业务挑战 营销是电商业务的核心场景,本质是解决人货场的匹配问题。而大数据时代,传统的小二人工运营的方式越来越力不从心,AE数据智能中台赋能小二们在海量用户和商品里进行人货匹配,释放小二们的压力,从而更快、更精准的营销。 去年AE数据智能中台在双十一中小试牛刀,效果得到了业务团队的普遍认可。然而今年由于疫情等各种复杂的国际形势,对AE智能化产生了更多的赋能场景,而这些场景对支撑业务的数据系统也提出了更高的要求和挑战。 时效性---速度要快 AE的场景基本都是实时营销,如果给用户的营销是基于非实时的数据计算出来的结果,会大幅降低运营的决策效率。以会场调控举例,需要在双十一大促期间从修改选品池条件到生效到会场整体时间稳定在10分钟以内,运营根据实时看板的秒级粒度的大促数据表现,以修改选品规则进行实时调控,解决商品疲劳、会场投放效果差、调整会场货品结构布局等问题。 智能型---效果要准 相对于传统的小二凭借自身知识营销