analytical

RA Team:让 TiDB 插上“实时分析”的翅膀| PingCAP 招聘季

旧时模样 提交于 2020-10-07 04:50:34
这是一个 RA 组招聘文章,但是这里所说的都将是非常坦诚的。RA 是 Real-time Analytics 的缩写。是的,我们负责 TiDB 的实时分析场景,与传统的数仓方案不同,TiDB 的分析能力更偏向于实时场景。 **TiDB 一直的定位是 HTAP ,即拥有 Hydrid Transactional / Analytical Processing 能力的数据库。**不过,不管怎么说,它都是一个源于 TP 场景的产品,而 AP 部分则是处在不断探索和完善的过程中。从最初没有独立的项目,到借助明星项目人气的 TiSpark,到现在整体分析场景架构初步成型。随着公司的不断壮大,我们逐步理清了实时分析方面的产品方向。之前在 DTCC 2019 的讲稿 《TiDB 的 HTAP 之路》算是原原本本说了这一路我们的困扰和努力,有兴趣了解 TiDB 分析场景的同学可以看看。 随着 TiDB 4.0 列存引擎 TiFlash 发布 ,我们从来没有如此确信,这条路虽然还很漫长,但却是正确的。 TiFlash 和 TiSpark TiSpark 是我们很早就推出的 Spark 连接器,通过深度对接 Spark Extension,我们能从 Spark 的 Parsing,Meta Resolution 一直到 Plan 插入算子,全程修改 Spark 的行为逻辑。它不但是 TiDB 体系下

大数据篇:一文读懂@数据仓库

无人久伴 提交于 2020-10-02 09:34:36
大数据篇:一文读懂@数据仓库 1 网络词汇总结 人工智能层的:智慧地球、智慧城市、智慧社会 企业层面的:数字互联网,数字经济、数字平台、数字城市、数字政府; 平台层面的:物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱 技术层面的:数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等 挑重点简介 1.1 数据中台 数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。 数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。 数据中台连接数据前台和后台,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。 数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。 数据中台,包括平台、工具、数据、组织、流程、规范等一切与企业数据资产如何用起来所相关的。 可以看出,数据中台是解决如何用好数据的问题,目前还缺乏一个标准,而说到数据中台一定会提及大数据

各种缩写名词汇总,力求最全面最精确

天大地大妈咪最大 提交于 2020-10-01 12:49:51
目录 管理系统类 商业模式类 其它 持续更新。。。。。。。。。 管理相关 ERP:企业资源规划 (Enterprise Resource Planning) OA:办公自动化(Office Automation),数字化、智能化办公,无纸化办公 MES:制造执行系统 (Manufacturing Execution System) CRM:客户关系管理 (Customer Relationship Management) SCM:供应链管理 (Supply Chain Management) APS:先进规画与排程系统 (Advanced Planning and Scheduling) PLM:产品生命周期管理(Product Lifecycle Management) EAM:企业资产管理(Enterprise Asset Management) WMS:仓储管理系统(Warehouse Management System) WIP:在制品 (Work In Process) MTS : 按库存生产 MTO:按订单生产 ATO:按订单装配 BOM:物料清单 (Bill Of Material) SCADA:数据采集与监视控制系统(Supervisory Control And Data Acquisition);以计算机为基础的DCS与电力自动化监控系统;它应用领域很广

PingCAP 开源分布式数据库 TiDB 论文入选 VLDB

|▌冷眼眸甩不掉的悲伤 提交于 2020-10-01 12:20:26
8 月 31 日 - 9 月 4 日,第 46 届 VLDB 会议以线上直播的方式举行(原定于日本东京召开),PingCAP 团队的论文《TiDB: A Raft-based HTAP Database 》入选 VLDB 2020 ,成为业界第一篇 Real-time HTAP 分布式数据库工业实现的论文。PingCAP 联合创始人、CTO 黄东旭获邀在会上进行演讲,分享关于论文的深度解读及在线答疑。 VLDB(International Conference on Very Large Databases)是数据库领域顶尖的三大学术会议之一,于 1975 年在美国成立,由非盈利性机构 VLDB 基金会赞助和运营,以在全球普及数据库技术研究和交流作为使命。 在本篇论文中,PingCAP 重点介绍了其研发的 TiDB 作为一款定位于在线事务处理和在线实时分析(HTAP)混合负载融合型分布式数据库产品的系统架构和核心特性。 TiDB 受 Google 发布的 Spanner / F1 论文 ,以及 2014 年 Stanford 工业级分布式一致性协议算法 Raft 论文的启发。经过 5 年多的产品研发、生产环境上线验证,取得了一系列成果,此次被 VLDB 2020 收录也是对学术界的反哺。 HTAP(Hybrid Transactional / Analytical

BI、OLAP、多维分析、CUBE 这几个词是什么关系?

笑着哭i 提交于 2020-08-18 20:50:42
这些词我们在建设分析型应用时经常会听到,这几个词也经常被弄混,这里来梳理一下。 BI BI 是 Business Intelligence(商业智能)的缩写,是指企业利用已有数据进行数据分析从而指导商业决策的过程。BI 有广义和狭义之分,广义上的 BI 是指只要涉及利用数据及其分析结果进行商业决策的行为都属于 BI 的范畴;而狭义上的 BI 则主要多维分析,在实际工作中,狭义 BI 也更流行一些。 著名的啤酒和尿布的故事曾一度在 BI 领域广泛传唱,据说沃尔玛通过数据分析发现了在某一时间段啤酒和尿片的销量大增,原因是爸爸给孩子购买尿片的同时还会给自己买几罐啤酒,于是沃尔玛调整了啤酒和尿片的摆放位置(也有说法是进行了捆绑销售)获得了巨大成功。 故事的真实性有待考证,据说这家连锁店并不是沃尔玛,而是 Osco Drugs,一家主要在美国中西部经营的药房和便利店。该公司于 1992 年就着手进行数据挖掘项目,算是数据挖掘的先驱者。当时的项目收集了来自 25 家分店、一千两百多万个购物车的信息。数据的确发现:下午 5 点到 7 点之间,客户购买了啤酒和尿片。商店管理层的确对此发现表示兴趣。但现实中,并没有重新设计商品的摆放,没有把啤酒和尿布进行捆绑销售。不过,公司保守地对销售流程进行了改造,即在正确的时间放正确数量的正确商品。 我们不对故事的真实性做过深评判

图像处理:“可口可乐”识别的算法改进

社会主义新天地 提交于 2020-08-16 08:20:36
问题: One of the most interesting projects I've worked on in the past couple of years was a project about image processing . 我过去几年中最有趣的项目之一是关于 图像处理 的项目。 The goal was to develop a system to be able to recognize Coca-Cola 'cans' (note that I'm stressing the word 'cans', you'll see why in a minute). 目的是开发一个能够识别可口可乐 “罐头”的系统 (请注意,我强调的是“罐头”一词,稍后您会看到原因)。 You can see a sample below, with the can recognized in the green rectangle with scale and rotation. 您可以在下面看到一个示例,该示例在带有刻度和旋转的 绿色矩形中 可以识别。 Some constraints on the project: 对项目的一些限制: The background could be very noisy. 背景可能非常嘈杂。 The can could have any

数智时代基石,阿里云推出新一代云原生数据仓库与数据湖

穿精又带淫゛_ 提交于 2020-08-15 05:11:18
6月9日, 在2020阿里云峰会上,阿里巴巴副总裁、阿里云计算平台事业部高级研究员贾扬清宣布推出新一代云原生数据仓库和数据湖解决方案。基于创新的技术架构,新一代云原生数据仓库可支持PB级数据关联分析和实时查询,实现离线、实时、分析、服务的四位一体。同时推出的数据湖解决方案,采用一种存储多种计算理念,基于存储与计算分离架构和全新大数据分析加速引擎,可实现与本地计算一样的快速体验,激发企业数智动能。 以下为贾扬清演讲全文(附 视频回顾>> ) 如今我们谈到产业数字化,数字产业化,今天绝大多数的经济活动、数据的沉淀分析和服务都是离不开的。同时我们又说摸着石头过河,绝大多数的企业在业务升级跟技术升级的过程当中,往往都采取一个摸着石头过河的方法,在遇到不同的数据分析跟服务的需求的时候,寻找单个的单点的系统来解决它实际的单点的问题。这样的一个过程就会遇到最后的一个问题,是在一个看似完整的系统背后,是一个一个的数据的孤岛,这些孤岛之间数据的联通,数据的实时传输都变成了非常大的问题。 从一个整个企业的角度来说,业务所看到的是数据洞察的困难,而系统看到的是数据分裂的成本,作为企业业务如此重要的数据仓库的概念,我觉得我们需要顶层的设计来重构数据仓库,这是我们今天向大家展示的基于 Hologres 、 MaxCompute 、 Realtime Compute 的离线、实时、分析、服务一体化的

HPLC分类及其原理

五迷三道 提交于 2020-08-14 03:32:15
HPLC分类有很多种,可以根据不同的依据进行分类。 1.根据流动相和固定相的极性不同,HPLC可以分为正相色谱和反相色谱。 正相高效液相色谱:色谱柱中的固定相是由硅胶、氧化铝等极性化合物组成。当色谱运行时,由于样品中的极性化合物对固定相有较强的亲和力,使它们在色谱柱中的保留时间比非极性化合物长,因此非极性化合物最先被洗脱出来。许多物质都可以用正相色谱法分析,但由于药物、食物和其他生物制品大都是非极性的,所以在日常生活中应用不如反向色谱法广泛。 反相高效液相色谱:固定相由非极性化合物组成,如十八烷基硅烷、C18、C8等有机化合物。流动相是极性的。因此,极性高的化合物最先被洗脱,低极性或无极性的化合物最后洗脱。 HPLC大都是对药物、食品、生化分子等物质进行分析,而它们在自然界中都是极性物质(水溶性)。因此,反相高效液相色谱应用更为广泛。 2.根据分离原理的不同,HPLC可分为以下六种。 亲和色谱:主要利用样品与固定性之间的亲和性,实现分离。 离子交换色谱:基于固定相与流动相的带电基团发生可逆交换,达到分离目的。离子交换树脂用于分离含有带电离子的样品。对于阴离子,使用阴离子交换树脂;对于阳离子,使用阳离子交换树脂。主要用于分离酸性和碱性化合物。 离子对色谱:在反相色谱的流动相或固定相中加入离子配对剂,与样品中可电离的成分形成“对离子”。常用的离子配对剂有戊烷、己烷、庚烷或辛烷磺酸盐等。

HPLC分类及其原理

走远了吗. 提交于 2020-08-13 20:08:49
HPLC分类有很多种,可以根据不同的依据进行分类。 1.根据流动相和固定相的极性不同,HPLC可以分为正相色谱和反相色谱。 正相高效液相色谱:色谱柱中的固定相是由硅胶、氧化铝等极性化合物组成。当色谱运行时,由于样品中的极性化合物对固定相有较强的亲和力,使它们在色谱柱中的保留时间比非极性化合物长,因此非极性化合物最先被洗脱出来。许多物质都可以用正相色谱法分析,但由于药物、食物和其他生物制品大都是非极性的,所以在日常生活中应用不如反向色谱法广泛。 反相高效液相色谱:固定相由非极性化合物组成,如十八烷基硅烷、C18、C8等有机化合物。流动相是极性的。因此,极性高的化合物最先被洗脱,低极性或无极性的化合物最后洗脱。 HPLC大都是对药物、食品、生化分子等物质进行分析,而它们在自然界中都是极性物质(水溶性)。因此,反相高效液相色谱应用更为广泛。 2.根据分离原理的不同,HPLC可分为以下六种。 亲和色谱:主要利用样品与固定性之间的亲和性,实现分离。 离子交换色谱:基于固定相与流动相的带电基团发生可逆交换,达到分离目的。离子交换树脂用于分离含有带电离子的样品。对于阴离子,使用阴离子交换树脂;对于阳离子,使用阳离子交换树脂。主要用于分离酸性和碱性化合物。 离子对色谱:在反相色谱的流动相或固定相中加入离子配对剂,与样品中可电离的成分形成“对离子”。常用的离子配对剂有戊烷、己烷、庚烷或辛烷磺酸盐等。

大数据的下一站是什么?服务/分析一体化(HSAP)

﹥>﹥吖頭↗ 提交于 2020-08-13 16:25:05
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 既然 HTAP 有了分析的能力,它是不是将取代大数据系统呢?大数据的下一站是什么? 因为侧重点的不同,传统的数据库可以分为交易型的 OLTP 系统和分析型的 OLAP 系统。随着互联网的发展,数据量出现了指数型的增长,单机的数据库已经不能满足业务的需求。特别是在分析领域,一个查询就可能需要处理很大一部分甚至全量数据,海量数据带来的压力变得尤为迫切。这促成了过去十多年来以 Hadoop 技术开始的大数据革命,解决了海量数据分析的需求。与此同时,数据库领域也出现了一批分布式数据库产品来应对 OLTP 场景数据量的增长。 为了对 OLTP 系统里的数据进行分析,标准的做法是把里面的数据定期(比如说每天)同步到一个 OLAP 系统中。这种架构通过两套系统保证了分析型查询不会影响线上的交易。但是定期同步导致了分析的结果并不是基于最新数据,这种延迟让我们失去了做出更及时的商业决策的机会。为了解决这个问题,近几年出现了 HTAP 的架构,这种架构允许我们对 OLTP 数据库里的数据直接进行分析,从而保证了分析的时效性。分析不再是传统的 OLAP 系统或者大数据系统特有的能力,一个很自然的问题是:既然 HTAP 有了分析的能力,它是不是将取代大数据系统呢?大数据的下一站是什么? 背 景