vertica

How to parse dynamic Json with dynamic keys inside it in Scala

一个人想着一个人 提交于 2021-02-11 12:56:58
问题 I am trying to parse Json structure which is dynamic in nature and load into database. But facing difficulty where json has dynamic keys inside it. Below is my sample json: Have tried using explode function but didn't help. moslty similar thing is described here How to parse a dynamic JSON key in a Nested JSON result? { "_id": { "planId": "5f34dab0c661d8337097afb9", "version": { "$numberLong": "1" }, "period": { "name" : "3Q20", "startDate": 20200629, "endDate": 20200927 }, "line": "b443e9c0

亿级数据,秒级响应,Smartbi究竟如何做到?

ぃ、小莉子 提交于 2021-02-09 11:57:34
关于 Smartbi,似乎有很多标签:真Excel、复杂报表、性能、自助分析、数据挖掘、NLP….其中,一个“性能”标签,江湖上就有很多的传说,例如应用于火星探测器飞行数据的分析,应用于某省的经济普查,应用于某银行的大规模数据挖掘等等。 数据处理的性能,对于一款 BI软件 来说,是最基本的要求。然而,恰恰最基本的要求,却最能体现产品的品质,使其在众多竞品中脱颖而出。 那么, Smartbi又是如何做到数据处理性能如此强悍呢? 一、 支持列式数据库 传统行式数据库的存储格式按照 ‘行’的方式把一行各个字段的数据存储在一起,一行行连续存储。对于把一行的数据写到数据库中,或者对一行数据中的某些字段进行修改,或者删除整行数据这些事务型的数据库操作来说,既直观也高效。 但是,在行式数据库上做 统计分析 的时候,这种存储格式效率并不高。例如:统计各地区的销售额和利润同比变化、统计各部门的业绩完成情况等等,都是在其中某些字段上的操作,但行式数据库却需要读取每一行的所有字段。在只分析销售额和利润的时候,把其它字段的数据如客户名称,签约时间,客户经理等等也统统都读了进来,浪费了大量资源。虽然通过 “索引”有一定的改善,但大量的索引所带来的存储空间浪费以及为维护这些索引所带来的时间浪费都会以指数级别增长。 图源:网络 列式数据库将同一个数据 “列”的各个值存放在一起,插入某一行数据时

Merging two tables by column

a 夏天 提交于 2021-01-29 03:40:58
问题 Lets say i have two tables: Requested_Products ------------------------------------------ orderId| productId|productDesc |prodQty ------------------------------------------ order1 | product1 | description1 | 1 order2 | product2 | description2 | 2 order2 | product3 | description3 | 5 order2 | product4 | description4 | 6 and Used_Materials ------------------------------------------- orderId| materialId| materialDesc |matQty ------------------------------------------- order1 | material1 |

write UUID in Vertica with jooQ

落爺英雄遲暮 提交于 2021-01-28 18:28:50
问题 I don't have jOOQ generated classes, so, I want to use my class and write it to vertica. Table<Record> table = DSL.table(DATA_TABLE_NAME); for (Data d : data) { dsl.insertInto(table, Arrays.asList( DSL.field(name("uuid"), SQLDataType.UUID) )) .values( d.getUuid(), ).execute(); } In PostgreSql it works, but in Vertica it generate this exception [Vertica][VJDBC](2631) ERROR: Column "uuid" is of type uuid but expression is of type varchar How can I write uuid tu Vertica without generated class?

How can see the SQL statements that SPARK sends to my database?

末鹿安然 提交于 2021-01-27 06:16:46
问题 I have a spark cluster and a vertica database. I use spark.read.jdbc( # etc to load Spark dataframes into the cluster. When I do a certain groupby function df2 = df.groupby('factor').agg(F.stddev('sum(PnL)')) df2.show() I then get a vertica syntax exception Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1454) at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler

AirFlow-Install

a 夏天 提交于 2020-11-29 14:24:37
AirFlow-Installation https://airflow.incubator.apache.org/installation.html Getting Airflow The easiest way to install the latest stable version of Airflow is with pip : pip install apache-airflow You can also install Airflow with support for extra features like s3 or postgres : pip install "apache-airflow[s3, postgres]" Extra Packages The apache-airflow PyPI basic package only installs what’s needed to get started. Subpackages can be installed depending on what will be useful in your environment. For instance, if you don’t need connectivity with Postgres, you won’t have to go through the

交互式分析领域,为何ClickHouse能够杀出重围?

放肆的年华 提交于 2020-11-27 06:37:19
导语 | 在百花齐放的交互式分析领域,ClickHouse 绝对是后起之秀,它虽然年轻,却有非常大的发展空间。本文将分享 PB 级分析型数据库 ClickHouse 的应用场景、整体架构、众多核心特性等,帮助理解 ClickHouse 如何实现极致性能的存储引擎,希望与大家一起交流。文章作者:姜国强,腾讯实时检索研发工程师。 一、交互式分析之 ClickHouse 1. 交互式分析简介 交互式分析,也称 OLAP(Online Analytical Processing),它赋予用户对海量数据进行多维度、交互式的统计分析能力,以充分利用数据的价值进行量化运营、辅助决策等,帮助用户提高生产效率。 交互式分析主要应用于统计报表、即席查询(Ad Hoc)等领域,前者查询模式较固定,后者即兴进行探索分析。代表场景例如:移动互联网中 PV、UV、活跃度等典型实时报表;互联网内容领域中人群洞察、关联分析等即席查询。 交互式分析是数据分析的一种重要方式,与离线分析、流式分析、检索分析一起,共同组成完整的数据分析解决方案,在互联网、物联网快速发展的背景下,从不同维度满足用户对海量数据的全方位分析需求。 相比专注于事务处理的传统关系型数据库,交互式分析解决了 PB 级数据分析带来的性能、扩展性问题。 相比离线分析长达 T + 1 的时效性、流式分析较为固定的分析模式、检索分析受限的分析性能

交互式分析领域,为何ClickHouse能够杀出重围?

家住魔仙堡 提交于 2020-11-05 14:15:33
导语 | 在百花齐放的交互式分析领域,ClickHouse 绝对是后起之秀,它虽然年轻,却有非常大的发展空间。本文将分享 PB 级分析型数据库 ClickHouse 的应用场景、整体架构、众多核心特性等,帮助理解 ClickHouse 如何实现极致性能的存储引擎,希望与大家一起交流。文章作者:姜国强,腾讯实时检索研发工程师。 一、交互式分析之 ClickHouse 1. 交互式分析简介 交互式分析,也称 OLAP(Online Analytical Processing),它赋予用户对海量数据进行多维度、交互式的统计分析能力,以充分利用数据的价值进行量化运营、辅助决策等,帮助用户提高生产效率。 交互式分析主要应用于统计报表、即席查询(Ad Hoc)等领域,前者查询模式较固定,后者即兴进行探索分析。代表场景例如:移动互联网中 PV、UV、活跃度等典型实时报表;互联网内容领域中人群洞察、关联分析等即席查询。 交互式分析是数据分析的一种重要方式,与离线分析、流式分析、检索分析一起,共同组成完整的数据分析解决方案,在互联网、物联网快速发展的背景下,从不同维度满足用户对海量数据的全方位分析需求。 相比专注于事务处理的传统关系型数据库,交互式分析解决了 PB 级数据分析带来的性能、扩展性问题。 相比离线分析长达 T + 1 的时效性、流式分析较为固定的分析模式、检索分析受限的分析性能

关于数据仓库的架构及3大类组件工具选型

浪子不回头ぞ 提交于 2020-10-28 16:58:57
关于数据仓库的概念、原理、建设方法论,网上已经有很多内容了,也有很多的经典书籍,本文更想聊聊企业数据仓库项目上的架构和组件工具问题。 先来谈谈架构。 企业数据仓库架构 关于数据仓库,有一种简单粗暴的说法,就是“任何数据仓库都是通过数据集成工具连接一端的原始数据和另一端的分析界面的数据库”。 数据仓库用来管理企业庞大的数据集,提供转换数据、移动数据并将其呈现给终端用户的存储机制。许多架构方法以这样或那样的方式扩展数据仓库的能力,我们讲集中讨论最本质的问题,在不考虑过多技术细节的情况下,整个层次架构可以被划分为4层: 原始数据层(数据源) 数据仓库架构形态 数据的采集、收集、清洗和转换 应用分析层 单层架构(直连) 大多数情况下,数据仓库是一个关系型数据库,包含了允许多维数据的模块,或者分为多个易于访问的多主题信息域,最简单的数据仓库只有一层架构。 单层架构就以为着数据仓库与分析接口直接连接(直连),终端用户可以直接查询。但简单有其弊端和适用性: 传统上数据仓库的存储从 100GB 起,直连可能会导致数据查询处理速度慢,因为要直接从数据仓库查询准确的数据,或者是准确的输入,过程中要过滤掉很多非必要数据,这对数据库以及前端BI工具的性能要求相当高,基本性能不会太高。 另外,在处理复杂维度分析时性能也受限,由于其缓慢性和不可预测性,很少应用在大型数据平台。要执行高级数据查询