ClickHouse

Backup of a ClickHouse DB inside a k8s cluster

旧街凉风 提交于 2021-01-28 01:36:50
问题 I have a kubernetes cluster where I have the clickhouse operator running which created a pod. Inside that pod I created "clickhouse_database". I'm connected to that instance via tabix.io and from there I've created the table "actions" and inserted data with sql commands. I want to take backup of the data inside the "actions" table. In which way would that be possible? I have tried the clickhouse-backup tool but through this thread I found out that the clickhouse-backup tool doesn't support

The command clickhouse-backup create provides no metadata folder and an empty shadow folder

风流意气都作罢 提交于 2021-01-27 13:27:19
问题 I have a clickhouse database called "clickhouse_database" and a table called "actions" which has some data in it which I want to take a backup of. Running the command "sudo clickhouse-backup create" gives me this response: c/camel/source/project/clickhouse-backup$ sudo clickhouse-backup create 2021/01/08 00:27:09 Create backup '2021-01-07T23-27-09' 2021/01/08 00:27:09 Freeze `clickhouse_database`.`actions` 2021/01/08 00:27:09 Skip `system`.`asynchronous_metric_log` 2021/01/08 00:27:09 Skip

HikariCP 数据源配置使用

一曲冷凌霜 提交于 2021-01-26 10:28:14
使用场景 HikariCP 这个数据源号称是最快的数据源。 其实个人认为 性能肯定还是在SQL语句和数据库。而且 这个数据源功能其实并不多。 个人不喜欢使用 将其作为主数据源。 druid 数据源对比 但是 如果将 HikariCP 作为读取 读取第三方 数据库 也就是多数据源来 使用,个人认为是非常适合的。 多数据源配置 package com.door.remote.dataSource; import cn.hutool.cache.CacheUtil; import cn.hutool.cache.impl.TimedCache; import cn.hutool.db.Db; import com.door.common.constants.DbConst; import com.door.common.constants.biz.dr.DbSetType; import com.door.entity.dr.AcDrDbSource; import com.door.utils.db.CfsDatabase; import com.zaxxer.hikari.HikariDataSource; import lombok.extern.log4j.Log4j2; import org.apache.commons.lang3.StringUtils; import

clickhouse 导入mysql,csv数据

可紊 提交于 2021-01-25 17:10:58
1.建mysql关联表 clickhouse-client //进入命令行 create table testmysql (`id` Nullable(Int32),`name` Nullable(String)) engine = MySQL('192.168.3.175:3306','lyjtest','data','root','123456'); //MySQL(地址,库名,用户名,密码) 2.导入数据到clickhouse CREATE TABLE mysql2clickhouse (`id` Nullable(Int32),`name` Nullable(String)) engine =TinyLog(); //创建clickhouse管理表 insert into mysql2clickhouse(id ,name) select * from testmysql; //将mysql数据导入到clickhouse管理表 *******************或者使用下面方式建表导入 create table mysql2clickhouse2 engine= TinyLog as select * from testmysql;//需要指定engine 3.使用mysql函数方式导入mysql数据库表到clickhouse insert into

Materialize MySQL引擎:MySQL到Click House的高速公路

霸气de小男生 提交于 2021-01-21 12:35:32
摘要: MySQL到ClickHouse数据同步原理及实践 引言 熟悉MySQL的朋友应该都知道,MySQL集群主从间数据同步机制十分完善。令人惊喜的是,ClickHouse作为近年来炙手可热的大数据分析引擎也可以挂载为MySQL的从库,作为MySQL的 "协处理器" 面向OLAP场景提供高效数据分析能力。早先的方案比较直截了当,通过第三方插件将所有MySQL上执行的操作进行转化,然后在ClickHouse端逐一回放达到数据同步。终于在2020年下半年,Yandex 公司在 ClickHouse 社区发布了MaterializeMySQL引擎,支持从MySQL全量及增量实时数据同步。MaterializeMySQL引擎目前支持 MySQL 5.6/5.7/8.0 版本,兼容 Delete/Update 语句,及大部分常用的 DDL 操作。 基础概念 MySQL & ClickHouse MySQL一般特指完整的MySQL RDBMS,是开源的关系型数据库管理系统,目前属于Oracle公司。MySQL凭借不断完善的功能以及活跃的开源社区,吸引了越来越多的企业和个人用户。 ClickHouse是由Yandex公司开源的面向OLAP场景的分布式列式数据库。ClickHouse具有实时查询,完整的DBMS及高效数据压缩,支持批量更新及高可用。此外

字节跳动ClickHouse在用户增长分析场景的应用

寵の児 提交于 2021-01-14 09:59:03
业务背景:就是做用户增长,提升dau 主要是通过使用clickhouse来挖掘数据,供业务决策,你的策略是否有效 需要数据支持,数据驱动业务增长 app新发版之后,发现dau下降,这时候正常的操作就是,是不是发版的问题,其实这么 思考确实没有错,因为你的app版本会影响dau的埋点和上报,会带来dau统计降低 当然这么断然决定app版本升级带来的问题,也是一种猜测,需要数据提供支持 陈星团队通过数据分析发现,老用户留存率依然很高,只是新用户留存率比较低,那 问题出在了拉新环节上,这不是这个新用户的用户质量问题,有没有刷量的用户(假流量) 下面就是比较常规的方法轮,这个其实也是通过数据,推动算法迭代 然后在不同的分层实验平台上进行A/B测试,看效果,如果ok就全量上线。 既要支持用户行为分析,也就是常说的漏斗分析,看看是哪个环境出现了流失,哪个环境 带来的效果还,反复迭代规律,提升营销的效果 多维度分析,主要是看多个维度下分维度交叉对比,维度带来的效果,比如设备维度 策略维度,小时维度,媒体维度,广告类型等等 看这个产品,感觉还马马虎虎,麻雀虽小,五脏俱全。大家可以模仿一下,如果公司 内没有这些页面,可以加上,其实就是比较常规的数据分析功能。 下面就是比较核心的,技术方案选型,我就不一一列举了,这些都是面试的点 下面就是一些开发迭代了,其实就是一步步迭代的过程,当然ppt上写的很简单

小红书推荐大数据在阿里云上的实践

|▌冷眼眸甩不掉的悲伤 提交于 2021-01-13 07:53:29
简介: 本篇内容主要分三个部分,在第一部分讲一下实时计算在推荐业务中的使用场景。第二部分讲一下小红书是怎么使用Flink的一些新的功能。第三部分主要是讲一些OLAP的实时分析的场景,以及和阿里云MC-Hologres的合作。 作者:小红书推荐工程负责人 郭一 小红书推荐业务架构 首先这个图上画了一些比较典型的推荐业务,使用大数据的主要模块,其中最左边是线上推荐引擎,一般推荐引擎会分成召回、排序、后排等几步,在这里就不细说了。主要是从大数据的角度来说,推荐引擎主要是运用预测模型来预估用户对每个候选笔记的喜欢程度。根据一定的策略来决定给用户推荐哪些笔记。推荐模型在运用时需要抓取笔记特征,这些特征又会回流到我们的训练数据中,来训练新的模型。推荐引擎返回笔记之后,用户对笔记的消费行为,包括展示、点击、点赞等行为,会形成用户的行为流。这些用户行为流结合了特征流,从而产生了模型训练的数据来迭代模型。结合用户和笔记的信息之后,就会产生用户和笔记画像和推荐业务所用到的一些分析报表。 经过一年多的改造,小红书在推荐场景中,除了从分析数据到策略这一块,需要人为参与迭代策略之外,其他的模块的更新基本上是做到了实时或近实时的进行。 推荐业务的实时计算应用 这里稍微展开讲一下特征和用户行为的数据回流之后的实时计算,以及我们怎么使用他们产生的数据。在推荐引擎产生特征流的时候,特征流因为量特别大

ClickHouse数据库数据定义手记-不一般的DDL和DML

回眸只為那壹抹淺笑 提交于 2021-01-11 07:54:48
前提 前面一篇文章已经很详细地介绍了 ClickHouse 中每种数据类型的定义和基本使用,这篇文章会详细地介绍 ClickHouse 中的 DDL 和 DML ,很多操作区别于传统的 DBMS ,特别是代价巨大的 DELETE 和 UPDATE 操作。接下来开始吧💪💪 ❝ 一般情况下,笔者建议ClickHouse的关键字全用大写,这样可以更加凸显出自定义的驼峰命名和大写关键字的不同,可读性和可维护性更高 ❞ ❝ 本文使用的ClickHouse服务版本为当前最新的20.10.3.30 ❞ 数据库DDL ClickHouse 服务启动后,默认会生成一个命名为 default 的数据库(除了系统数据库之外,不切换数据库创建表默认就是在 default 数据库创建),数据库就像命名空间,物理上实现了数据隔离,同时有效避免了表命名冲突等问题。通过 SHOW DATABASES 可以列出当前服务中的所有数据库: f5abc88ff7e4 :) SHOW DATABASES SHOW DATABASES ┌─name───────────────────────────┐ │ _temporary_and_external_tables │ │ default │ │ system │ └────────────────────────────────┘ 3 rows in set.

揭秘双11丝滑般剁手之路背后的网络监控技术

旧时模样 提交于 2021-01-09 11:11:15
简介: 本篇将重点介绍Hologres在阿里巴巴网络监控部门成功替换Druid的最佳实践,并助力双11实时网络监控大盘毫秒级响应。 概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪录。借此之际,我们将陆续推出云原生实时数仓双11实战系列内容,本篇将重点介绍Hologres在阿里巴巴网络监控部门成功替换Druid的最佳实践,并助力双11实时网络监控大盘毫秒级响应。 3... 2... 1... 00:00:00 。购物车,结算,提交订单,付款 00:01:00...。滴,您的支付宝消费xxx万元。 亿万人同时参与的千亿级项目,破记录的峰值58万笔/秒,剁手党们在整个交易过程中如丝般顺滑,好像参加了一个假的双11,而这一切的背后都离不开阿里巴巴网络能力的强大支持。随着技术的发展,尤其是近年来云和电商业务的愈发兴盛,基础网络也变得越来越庞大和复杂,如何保障这张膨胀网络的稳定性,提供云上用户畅通无阻的购物体验,对网络系统建设者和运维者说更是极大的考验。 理论上来说,故障不可避免,但是如果能够做到快速发现,定位,修复甚至预防故障,缩短故障时长,即可让用户轻微或无感是稳定性追求的终极目标。2015年的微软提出了pingmesh,成为业界事实的解决方案

clickhouse数据模型之留存分析

。_饼干妹妹 提交于 2021-01-06 06:17:21
本文经作者授权,独家转载: 作者主页:https://www.jianshu.com/u/8f36a5e63d18 什么是留存,比如在20200701这天操作了“点击banner”的用户有100个,这部分用户在20200702这天操作了“点击app签到”的有20个,那么对于分析时间是20200701,且“点击banner”的用户在次日“点击app签到”的留存率是20%。 背景 关于用户留存模型是各大商业数据分析平台必不可少的功能,企业一般用该模型衡量用户的活跃情况,也是能直接反应产品功能价值的直接指标;如,boss想要了解商城改版后,对用户加购以及后续下单情况的影响等。如下图,这就是一个典型的留存分析功能: 问题 通常实现上述需求的传统做法是多表关联,了解clickhouse的攻城狮都清楚,多表关联简直就是clickhouse的天敌;如一张用户行为日志表中至少包含:用户id、行为事件、操作时间、地点属性等,想分析20200909日河南省注册用户次日的下单情况,那么SQL一般会这么写: select count(distinct t1.uid) r1, count(distinct t2.uid) r2 from( select uid from action_log where day='20200909' and action='login' and province='河南省'