Apache HBase

hbase错误记录

折月煮酒 提交于 2019-12-16 18:48:55
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 说什么服务没启动 但是 $ jps 查看又是正常的 然后想到去看日志 $ vim logs/hbase-root-regionserver-hadoop101.log INFO信息停留在: client.ZooKeeperRegistry: ClusterId read in ZooKeeper is null 问题是: Hadoop 的 HDFS 没有离开安全模式导致的 解决: $ hadoop dfsadmin -safemode leave 或 $ hdfs dfsadmin -safemode leave 来源: oschina 链接: https://my.oschina.net/tenlee/blog/3143687

【微服务架构】调用链追踪系统对比

拥有回忆 提交于 2019-12-13 10:47:35
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 概述 当代的互联网服务,通常都是用复杂的、大规模分布式集群来实现的。互联网应用构建在不同的服务集上,这些服务有可能是由不同的团队开发、可能使用不同的编程语言来实现、有可能布在了几千台服务器,横跨多个不同的数据中心。因此,需要一个用于分析性能问题的系统可以监控那些横跨了不同的应用、不同的服务器之间的关联动作,调用链追踪系统应运而生。 目标 分布式调用链追踪系统一般有以下五个目标: 低消耗(low-overhead)调用链追踪埋点不能占用链路上太长的时间,也不应消耗太多的机器资源。 低侵入(low-invasiveness)作为非业务组件,应当尽可能少侵入或者不侵入其他业务系统,保持对使用方的透明性,减少开发人员的负担和接入门槛。 可扩展(scalability)整个调用链追踪通路都应该可扩展,以应对不断接入的服务和公司未来的发展。 时效性(time-efficient)从追踪数据采集,分析处理,查询,展示的整个通路都要尽量快速。 决策支持(decision-support)需要为业务定位问题,分析服务,提供丰富清晰的报表。 功能 调用链追踪系统通常包含的功能如下: 对调用请求的整个链路进行追踪,分析每个环节的耗时,协助开发运维人员找到性能瓶颈 找出服务之间的依赖拓扑关系,如每个服务依赖哪些服务

我花10个小时,写出了小白也能看懂的阿里数据中台分析

旧城冷巷雨未停 提交于 2019-12-12 11:05:08
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 作者:数据分析不是个事儿 https://www.jianshu.com/p/05a8db84e454 数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,2015年阿里提出“大中台,小前台”的策略。2018 年因为“腾讯数据中台论”,中台再度成为了人们谈论的焦点。 2019年,似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗?普通企业该不该做数据中台?数据中台的出现会给现有数据从业者们带来颠覆式的挑战吗? 数据中台不是大数据平台! 首先它不是一个平台,也不是一个系统,如果有厂商说他们有个数据中台卖给你,对不起,它是个骗子。 要回答数据中台是什么,首先要探讨一下中台到底是什么。虽然没有明确的定义,但是作为理工直男,我们可以先把中台看作是一种中间层。既然是一种中间层,那么中台确实是一种十足技术用语,我们可以完全从技术角度来探讨了。 我们可以应用 Gartner 的 Pace Layer 来理解为什么要有中间层,这样可以更好地理解中台的定位和价值。Pace Layer 里提到,可以按照事物变化的速度来分层,这样可以逐层分析并设计合理的边界与服务。 在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大

HBase毛刺消除利器-双集群并发访问(Dual Service)

人走茶凉 提交于 2019-12-10 11:41:04
HBase用户福利 新用户9.9元即可使用6个月云数据库HBase,更有低至1元包年的入门规格供广大HBase爱好者学习研究,更多内容请 参考链接 前言 在大数据背景下每时每刻都会有大量的用户行为数据被收集、分析、以及应用, 典型的应用场景包括用户推荐、安全风控;这些场景的共同特点是数据量大、可用性要求高、同时对随机读请求的响应时间非常敏感;云HBase作为海量大数据存储天然适合数据量TB、PB级别的业务场景,同时提供高可用方案( 详见 )满足用户的高可用需求,再此基础上为了满足用户大数据量随机读低毛刺的要求新增追求极致稳定性的双集群并发访问(Dual Service)功能. 适用场景 实时广告竞价 实时广告竞价场景中竞价方会监听广告交易平台发出的竞价请求,然后将请求转交给竞价引擎进行处理,竞价引擎查询数据库中的用户信息数据,利用算法引擎将用户数据和投放需求进行匹配,最终决定是否参与出价以及具体出价多少;竞价过程中需要在大量用户数据中查询,同时对查询耗时稳定性要求极高,超时意味着放弃竞价就少了一次交易机会造成损失; 实时风控 实时安全风控场景也对查询稳定性有着同样的高要求,在用户发起交易之后风控系统需要判断这一次的交易行为是不是安全的,为了判断的更加准确通常需要查询多维度的信息,查询耗时的多少严重影响用户体验,查询超时要么安全降级有可用造成资损

HBase1.2官方文档——Apache HBase Coprocessors

微笑、不失礼 提交于 2019-12-09 12:24:25
原文档地址:http://hbase.apache.org/1.2/book.html#cp ApacheHbase协处理器 Apache HBase Coprocessors HBase Coprocessors协处理器是在Google BigTable的协处理器实现之后才建模的 ( http://research.google.com/people/jeff/SOCC2010-keynote-slides.pdf pages 41-42.)。 协处理器框架提供了在管理你数据的RegionServer上直接运行定制代码的机制 目前正在努力消除HBase的实现和BigTable的架构之间的差距。获取更多信息,参考 HBASE-4047 。 本章中的信息主要来源是以下资源,并从以下资源中使用了大量重用: Mingjie Lai’s blog post Coprocessor Introduction . Gaurav Bhardwaj’s blog post The How To Of HBase Coprocessors . Use Coprocessors At Your Own Risk 协处理器是HBase的一个高级特性,并且它只是由系统开发者使用的。因为协处理器代码直接运行在RegionServer上,并且可以直接访问你的数据,所以它们引入了数据损坏的风险

阿里开发者们的第15个感悟:做一款优秀大数据引擎,要找准重点解决的业务场景

无人久伴 提交于 2019-12-07 21:01:00
摘要: 2018年12月20日,云栖社区3岁。阿里巴巴常说“晴天修屋顶”,所以我们特别制作了这个专辑——分享给开发者们20个阿里故事,50本书籍。 2015年12月20日,云栖社区上线。2018年12月20日,云栖社区3岁。 阿里巴巴常说“晴天修屋顶”。 在我们看来,寒冬中,最值得投资的是学习,是增厚的知识储备。 所以社区特别制作了这个专辑——分享给开发者们20个弥足珍贵的成长感悟,50本书单。 多年以后,再回首2018-19年,留给我们自己的,除了寒冷,还有不断上升的技术能力与拼搏后的成就感。 云栖社区钉钉技术讨论群,已有5000+开发者。 云栖社区2019年1月30+场活动预告【持续更新,欢迎加入】 学习,是一种氛围。 1月10日,做一款优秀大数据引擎,要找准重点解决的业务场景。这是我们送给开发者的第15个感悟。 沐远 在社区分享了他的博文, 《使用spark分析云HBase的数据》 《hive数据导入云hbase》 ,粉丝评论说请收下我的膝盖。 李伟(沐远) 阿里云数据库技术专家 专注大数据分布式计算数据库领域, 研发Spark及自主研发内存计算,目前为广大公有云用户提供专业的云HBase数据库及计算服务。 做一款优秀大数据引擎,要找准重点解决的业务场景,打磨一套易用的API,构架与上下游联动的生态。 推荐书单: 《黑客与画家》 《深入理解计算机系统》 《大数据之路》 作者:

集结阿里云数据库最强阵容 DTCC 2019 八大亮点抢先看

筅森魡賤 提交于 2019-12-07 20:38:20
2019年5月8日-5月10日,由国内知名IT技术社区主办的数据库技术交流盛会——DTCC 2019将在北京新云南皇冠假日大酒店召开。数据风云,十年变迁,DTCC见证并铭记了国内数据库技术的关键成长历程。作为DTCC的老朋友和全球领先的云计算厂商,阿里云数据库团队受邀参加本次技术盛会,不仅将派出重量级嘉宾阵容,还会为广大数据库业内人士和行业用户奉上 8场精彩议题 ,精彩不容错过。 本次DTCC大会云集多位阿里云数据库顶级大咖,将为您带来最具价值的技术交流和探讨,干货满满。由 阿里巴巴集团副总裁、达摩院数据库首席科学家、阿里云智能事业群数据库产品事业部总负责 李飞飞博士 领衔,Google第一代分布式SQL系统Tenzing核心人物、阿里云OLAP产品分析引擎负责人林亮,数据库内核团队资深技术专家何登成等核心团队成员将依次亮相,分别就云原生数据库、新一代自研分析型数据库、分布式数据库、时序数据库、图数据库等最in的技术话题,展开深入讨论,分享最佳实战经验。同时,李飞飞博士还将作为DTCC大会的专家顾问,把握数据技术的主题内容与方向。 洞见前沿技术趋势,见证阿里云数据库成长历程。在这场数据库领域从业人士难得的年度盛会和交流平台上,阿里云技术大牛们将带来怎样的饕餮盛宴? 下面小编就为大家提前梳理了8大亮点,并附上阿里云议题全集,精彩一网打尽。 期待与您共聚一堂,共话行业未来! 温馨提示

从 ES 到 Kylin,斗鱼客户端性能分析平台进化之旅

家住魔仙堡 提交于 2019-12-07 19:22:08
游戏直播行业龙头斗鱼在 2019 年 Q2 的平均 MAU 再创新高,达到 1.628 亿。每天,超大量的用户使用斗鱼各客户端参与线上互动,斗鱼需要对客户端采集到的性能数据进行统计和分析,开发出具有多维度分析图表和数据监控的 APM (Application Performance Monitoring,应用性能监控) 平台。最初,斗鱼采用了市面上非常流行的 Elasticsearch (简称 ES)实时聚合实现。运行一段时间后,基于 ES 的方案面临用户查询时间长、数据精度丢失等问题,斗鱼采用 Apache Kylin 替换 Elasticsearch, 对 APM 平台中存在的问题进行优化。不试不知道,一试吓一跳。 一、背景 斗鱼是一家面向大众用户的在线直播平台,每天都有超大量的终端用户在使用斗鱼各客户端参与线上互动。伴随业务的迅猛发展,斗鱼需要对客户端采集到的性能数据进行统计和分析,开发出具有多维度分析图表和数据监控的 APM (Application Performance Monitoring,应用性能监控) 平台。 针对不同的客户端采集的不同数据,我们需要将各种维度之间相互组合并聚合,最终产出的数据变成指标在图表中展示。例如:对在时间、地域、网络环境、客户端以及 CDN 厂商等维度聚合下的各项指标情况进行 多维度分析 ,包括客户端网络性能(包含完整请求耗时,请求耗时

云HBase发布全文索引服务,轻松应对复杂查询

喜欢而已 提交于 2019-12-07 13:58:58
云HBase发布了“全文索引服务”功能,自2019年01月25日后创建的云HBase实例,可以在控制台免费开启此“全文索引服务”功能。使用此功能可以让用户在HBase之上构建功能更丰富的搜索业务,不再局限于KV简单查询,不再苦恼于设计各种rowkey,不再后怕日益变化的HBase复杂查询业务。“全文索引服务”为云HBase增强查询能力而设计,自动同步数据,用户只需重点关注如何使用强大的检索功能来丰富自己的业务架构。 为什么要增强HBase的检索能力 我们在使用HBase的时候都会面临一个问题,就是设计HBase的rowkey。可尽管我们工程师是多么的优秀,整理罗列了所有业务检索需求,并裁剪折中了这样那样的业务,缺依然不能设计一个全能的rowkey来满足各种业务查询需求。 例如在某物流管理系统中,我们需要对收件人姓名/手机/地址、寄件人姓名/手机/地址、运单编号/开始时间/结束时间、邮递员姓名/手机等条件,进行任意组合查询。这种复杂查询情况下,HBase原先的KV查询无法满足,尽管我们如何设计rowkey,都不能满足查询条件的任意性。另外,在这些查询中,可能会涉及到姓名/地址/手机号等条件的模糊查询,这也是HBase rowkey不能很好满足的。 又例如在某新零售业务中,需要对商品标题或者描述内容进行关键字查询,在HBase中我们只能使用模糊查询来实现

1、spark-submit脚本的使用及理解

南笙酒味 提交于 2019-12-07 11:15:16
一、介绍 1、安装省略,因为现在基本上都用大数据集成平台:cdh,hdp等 2、spark-submit脚本是spark提供的一个用于提交任务的脚本,通过它的--master 参数可以很方便的将任务提交到对应的平台去执行,比如yarn、standalone、mesos等。 3、spark-submit会在提交任务时,把集群大部分的配置文件都打包在__spark_conf__.zip中,包括core-site.xml、hdfs-site.xml、yarn-site.xml、mapreduce-site.xml、hbase-site.xml、hive-site.xml等。然后将其和工程依赖的第三方jar(flume、kafka、以及com.apache.org.lang3等)一同发送到spark的资源存放目录下,默认是:/user/root/.sparkStaging/xxxId/。 4、上述的__spark_conf__.zip还包含一个重要的配置文件__spark_conf__.properties,里面包含着spark-submit脚本的启动参数 在main类中SparkConf conf = new SparkConf();时会加载这个配置文件,所以不再需要执行conf.setMaster("yarn"); 如图: 5、有了上面配置文件和jar,就可以很方便的访问 hive