superset

关于数据仓库的架构及3大类组件工具选型

浪子不回头ぞ 提交于 2020-10-28 16:58:57
关于数据仓库的概念、原理、建设方法论,网上已经有很多内容了,也有很多的经典书籍,本文更想聊聊企业数据仓库项目上的架构和组件工具问题。 先来谈谈架构。 企业数据仓库架构 关于数据仓库,有一种简单粗暴的说法,就是“任何数据仓库都是通过数据集成工具连接一端的原始数据和另一端的分析界面的数据库”。 数据仓库用来管理企业庞大的数据集,提供转换数据、移动数据并将其呈现给终端用户的存储机制。许多架构方法以这样或那样的方式扩展数据仓库的能力,我们讲集中讨论最本质的问题,在不考虑过多技术细节的情况下,整个层次架构可以被划分为4层: 原始数据层(数据源) 数据仓库架构形态 数据的采集、收集、清洗和转换 应用分析层 单层架构(直连) 大多数情况下,数据仓库是一个关系型数据库,包含了允许多维数据的模块,或者分为多个易于访问的多主题信息域,最简单的数据仓库只有一层架构。 单层架构就以为着数据仓库与分析接口直接连接(直连),终端用户可以直接查询。但简单有其弊端和适用性: 传统上数据仓库的存储从 100GB 起,直连可能会导致数据查询处理速度慢,因为要直接从数据仓库查询准确的数据,或者是准确的输入,过程中要过滤掉很多非必要数据,这对数据库以及前端BI工具的性能要求相当高,基本性能不会太高。 另外,在处理复杂维度分析时性能也受限,由于其缓慢性和不可预测性,很少应用在大型数据平台。要执行高级数据查询

掘金15W沸点简单分析(二)

帅比萌擦擦* 提交于 2020-10-25 03:10:12
一、数据预处理与入库 获取到了原始数据之后,下一步就是清洗入库。 1.1 数据模型 因为是简单分析,所以只获取 话题 、 用户 、 消息 三块内容。具体如下: class Pins(object): """ 沸点 """ msg_id = None # 沸点ID topic_id = None # 话题ID topic_title = None # 话题名称 user_id = None # 用户ID user_name = None # 用户名 msg_content = None # 沸点内容 msg_ctime = None # 沸点创建时间 msg_digg_count = 0 # 沸点点赞数 msg_comment_count = 0 # 沸点评论数 def __repr__(self): return '<pins: %s>' % self.msg_id 1.2 数据库表创建 数据库的话,使用MySQL。因为沸点内容 msg_content 中含有 emoji 表情,所以在建表时字符集编码需要使用 utf8mb4 。 建表SQL语句如下: CREATE SCHEMA `juejin` DEFAULT CHARACTER SET utf8mb4 ; CREATE TABLE `juejin`.`pins` ( `msg_id` VARCHAR(20) NOT NULL

QQ音乐PB级ClickHouse实时数据平台架构演进之路

旧城冷巷雨未停 提交于 2020-10-22 08:26:13
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。 文章目录 1 一、背景介绍 2 二、大数据分析的挑战 2.1 1. 时效性低 2.2 2. 易用性低 2.3 3. 流程效率低 3 三、QQ音乐大数据架构技术演进 3.1 1. ClickHouse介绍 3.2 2. ClickHouse架构系统技术攻克点 3.3 3. 基于Superset的自助数据分析可视化平台 4 四、QQ音乐与腾讯云EMR共建云端OLAP 5 结语 一、背景介绍 QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听、看、玩”的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超过3000万首歌曲的海量曲库。优质服务的背后,是每天万亿级新增音乐内容和行为数据,PB数据量级的数据计算服务。 海量的数据意味着更高标准的数据分析业务,对于离线分析的时效、实时与近实时的即席实时交互分析,提出了更高的要求。如何通过用户行为以及音乐内容标签数据,深入洞察用户需求,来优化泛音乐内容创作分享生态,为亿万用户带来更优质的音乐体验

深入浅出FE(十一)报表系统调研2020.6.7

故事扮演 提交于 2020-08-08 05:22:28
报表系统开发初探 2020.6.7 总体思路 1、自研 使用web端可拖拽特性直接生成线上报表,优点是自定义样式,缺点是维护和开发工作量较大。 2、开源系统二次开发 (1)基于BIRT报表或者iReport + JasperReports组合开发。优点是开发和操作较简单,缺点是不支持复杂报表和权限控制,维护性较差。 (2)基于Airbnb 的 Superset,Redash,Metabase等框架做二次开发。优点是界面设计友好,缺点是扩展性较差。 3、付费 如帆软和思迈特报表系统,优点是支持丰富的业务场景复杂报表,维护和开发成本较低。 一、自研 二、开源系统二次开发 (一)java报表工具 1、 BIRT报表 BIRT是一个Eclipse-based开源报表系统。 优点: (1)开发和操作简单。 (2)能够很方便的将很多数据混合在一个表格中。 缺点: (1)BIRT没有权限方面的辅助功能,需要自己写实现语句实现权限控制。 (2)BIRT的报表设计界面是传统的条带式界面,在设计报表样式,需要的行和列需要画出;对表头比较复杂的中国式报表来说,各种行列对齐也比较复杂; (3)不支持excel的行列无限扩展,表现之一是不支持XLS,这对习惯了excel的用户不友好。 (4)没有表单功能,不能对数据做筛选。 (5)没有移动端平台支持。 2、 iReport +

QQ音乐PB级ClickHouse实时数据平台架构演进之路

这一生的挚爱 提交于 2020-08-07 09:59:01
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。 一、背景介绍 ​ QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听、看、玩”的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超过3000万首歌曲的海量曲库。优质 服务的背后,是每天万亿级新增音乐内容和行为数据,PB数据量级的数据计算服务。 海量的数据意味着更高标准的数据分析业务,对于离线分析的时效、实时与近实时的即席实时交互分析,提出了更高的要求。 如何通过用户行为以及音乐内容标签数据,深入洞察用户需求,来优化泛音乐内 容创作分享生态,为亿万用户带来更优质的音乐体验? 是对QQ音乐大数据团队的巨大挑战以及机遇。 腾讯云弹性 MapReduce(EMR),结合云技术和社区开源技术,提供安全、低成本、高可靠、可弹性伸缩的云端泛Hadoop服务。EMR助力构建企业的大数据平台架构,适用于HBase在线业务,数据仓库,实时流式计算等大数据场景。 QQ音乐大数据团队基于业务需求,搭建和优化基于ClickHouse的OLAP实时大数据分析平台,并与腾讯云EMR团队深入场景合作

Superset配置hive数据源

眉间皱痕 提交于 2020-08-07 09:56:18
1.在uri中配置 hive://localhost:10000/default 2.查询 3.如果你的hive集群是带有kerberos认证的,hive数据源需要这样配置 hive://xxx:xxx/default?auth=KERBEROS&kerberos_service_name=hive 如果在连接的时候报了如下的错 Could not start SASL: b'Error in sasl_client_start (-1) SASL(-1): generic failure: GSSAPI Error: Unspecified GSS failure 那就就是你没有用keytab进行认证 kinit -kt xxx.keytab xxx@XXXX superset也支持模拟用户,配置方法如下 然后就能支持使用hive,impala或者hdfs用户来对普通用户进行模拟,如果模拟出来的用户没有权限的话,就会抛出异常 来源: oschina 链接: https://my.oschina.net/u/4343420/blog/4295357

How to set up Superset config for caching

纵饮孤独 提交于 2020-06-17 01:52:30
问题 Right now, I am working on Airbnb Superset project for working purpose. I know Superset supports cache (by Flask-Cache), but I got stuck when I set up the configuration. My config.py file looks like this: CACHE_DEFAULT_TIMEOUT = 60 * 60 * 24 CACHE_CONFIG = {'CACHE_TYPE': 'filesystem', 'CACHE_DIR': os.path.join(BASE_DIR, '/temp'), 'CACHE_DEFAULT_TIMEOUT': CACHE_DEFAULT_TIMEOUT, } But after I re-start the server, there is no different. Does anyone know how to set up? Thanks. 回答1: I have set up

How to set up Superset config for caching

流过昼夜 提交于 2020-06-17 01:52:23
问题 Right now, I am working on Airbnb Superset project for working purpose. I know Superset supports cache (by Flask-Cache), but I got stuck when I set up the configuration. My config.py file looks like this: CACHE_DEFAULT_TIMEOUT = 60 * 60 * 24 CACHE_CONFIG = {'CACHE_TYPE': 'filesystem', 'CACHE_DIR': os.path.join(BASE_DIR, '/temp'), 'CACHE_DEFAULT_TIMEOUT': CACHE_DEFAULT_TIMEOUT, } But after I re-start the server, there is no different. Does anyone know how to set up? Thanks. 回答1: I have set up