sqoop

How to find optimal number of mappers when running Sqoop import and export?

别来无恙 提交于 2020-12-30 07:50:33
问题 I'm using Sqoop version 1.4.2 and Oracle database. When running Sqoop command. For example like this: ./sqoop import \ --fs <name node> \ --jt <job tracker> \ --connect <JDBC string> \ --username <user> --password <password> \ --table <table> --split-by <cool column> \ --target-dir <where> \ --verbose --m 2 We can specify --m - how many parallel tasks do we want Sqoop to run (also they might be accessing Database at same time). Same option is available for ./sqoop export <...> Is there some

数据中台全景架构及模块解析!一文入门中台架构师!

本秂侑毒 提交于 2020-12-24 01:05:05
回顾一下,第一篇文章 大白话 六问数据中台!你想知道的都在这了! 。把数据中台是什么?为什么?有什么价值?说的明明白白。 数据中台是企业级能力复用平台,目标是让数据持续用起来,通过数据中台提供的工具、方法和运行机制,把数据变为一种服务能力,让数据更方便地被业务所使用 。 今天就来点实际干货,把企业真实数据平台架构分享给您!相信看完这篇文章,你会真正对数据中台有一个全景的认识与理解,从抽象过度到具体。无图无真相,我赶紧po一张数据中台总体架构图: 数据中台是在底层存储计算平台与上层的数据应用之间的一整套体系,屏蔽掉底层存储平台的计算技术复杂性,降低对技术人才的需求,可以让数据的使用成本更低。如果用三句话来概括数据中台的组成架构,那么一定是: 通过数据中台的数据汇聚、数据开发模块建立企业数据资产 。 通过资产管理与治理、数据服务把数据资产变为数据服务能力,服务于企业业务 。 数据安全体系、数据运营体系保障数据中台可以长期健康、持续运转 。 现在您已经知道了,数据中台离不开这几个模块: 数据汇聚、数据开发、资产管理、数据安全、数据服务 。那么赶紧跟上我的脚步潜入内部去一探究竟吧。 数据汇聚 数据汇聚,首先必然要有数据来源,有了数据来源之后,需要确定采集工具,有了采集工具之后你还要确定存储位置。 数据来源 数据是数据中台的核心,所以数据汇聚无疑是数据中台的入口。企业中的数据来源极其多

调度工具(ETL+任务流)

纵饮孤独 提交于 2020-12-01 02:11:04
1.区别ETL作业调度工具和任务流调度工具 kettle是一个ETL工具,ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)。 kettle中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 所以他的重心是用于数据 oozie是一个工作流,Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。 oozie工作流中是有数据流动的,但是重心是在于工作流的定义。 二者虽然都有相关功能及数据的流动,但是其实用途是不一样的。 2.ETL作业调度工具 2.1Sqoop调度工具 2.1.1列举出所有数据库 查看帮助 bin/sqoop help 列举出所有linux上的数据库 bin/sqoop list-databases --connect jdbc:mysql://localhost:3306 --username root --password root 列举出所有Window上的数据库 bin/sqoop list-databases --connect jdbc:mysql: // 192.168.22.36:3306 --username root -

大数据平台搭建包含哪些层级

為{幸葍}努か 提交于 2020-09-30 21:48:39
  大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产。而今天我们就来了解一下,常见的大数据平台都包含哪些层次?   1、数据采集层:分3个层面的采集技术进行支持,一是传统业务系统数据库和半结构化、结构化数据的采集和集成,如采用Sqoop技术进行关系数据库和Hadoop系统之间的数据抽取和交换;二是交通实时流数据的采集,包括实时传感器数据、定位轨迹数据和其他实时流数据;三是交通公共数据的采集,包括公网的数据爬取、开放平台的数据接口、行业公共数据库的数据交换等。对采集到的数据需进行提取、转换和加载(extract-transform-load,ETL)处理,包括数据抽取、转换、清洗和隐私脱敏等预处理工作,预处理集成后的数据进入交通大数据云存储中心。   2、数据存储层:交通领域数据规模巨大,数据存储层需设计基于云计算的分布式云存储系统,以支持海量数据的存储扩展。提供基于云的列式存储、NoSQL存储或数据仓库存储能力;根据业务需求和快速配置,可切换相应的分布式存储模式,还可根据需要对传统BI系统的数据仓库和数据集市进行集成。利用Hadoop集群提供PB级存储能力扩展,同时Hadoop YARN和Spark Mesos等集群资源管理框架可支持多种存储模式和计算模式在此基础上,对各类存储数据进行多粒度信息融合

项目介绍

烂漫一生 提交于 2020-08-19 17:33:34
项目介绍 项目整体介绍 1.项目模型搭建 此项目为数据仓库项目,主要是做离线计算的 项目模型:项目分为流量域和业务域两个主题域,为了方便管理这么多数据,又将每个主题域划分为五个层级,分别是ODS层,DWD层,DWS层,ADS层及DIM层,分层的原因为解耦,复用,便于管理,下面我分别介绍一下项目中他们的应用场景 1.1 ODS层 ODS层:源数据层,分为流量域ODS层及业务域ODS层 流量域ODS层:数据来源于日志服务器(用户行为日志数据(APP端和WEB端)),日志服务器将数据生产到Kafka,然后使用Flume日志采集工具消费Kafka中的数据并将数据采集到Hdfs集群,在Hive中将数据加载到ODS层的Hive表中,这样就完成了原始数据的采集 业务域ODS层:数据来源于业务系统中的关系型数据库mysql,采用sqoop抽取工具将数据从mysql导入到Hdfs中,再在Hive中将数据加载到ODS层相应的表中 1.2 DWD层 DWD层:数据明细层,同样分为流量域DWD层及业务域DWD层 流量域DWD层:将数据在ODS层进行ETL操作(先对ODS层数据进行清洗,过滤(过滤掉缺失重要字段信息,重要字段信息为空或者json格式不正确的数据),降维等操作),再抽取到DWD层 业务域DWD层:抽取ODS层每天的增量数据,与DWD层每天的全量数据进行合并

Apache DolphinScheduler(海豚调度)

痞子三分冷 提交于 2020-08-18 01:21:38
Apache DolphinScheduler 是一个分布式去中心化,易扩展的可视化 DAG 工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 近日,伯毅同学给社区贡献了工作流核心表结构的剖析文章,非常细致,喜欢的伙伴请转走 1. 工作流总体存储结构 在 dolphinscheduler 库中创建的所有工作流定义(模板)都保存在 t_ds_process_definition 表中. 该数据库表结构如下表所示: 序号 字段 类型 描述 1 id int(11) 主键 2 name varchar(255) 流程定义名称 3 version int(11) 流程定义版本 4 release_state tinyint(4) 流程定义的发布状态:0 未上线 , 1已上线 5 project_id int(11) 项目id 6 user_id int(11) 流程定义所属用户id 7 process_definition_json longtext 流程定义JSON 8 description text 流程定义描述 9 global_params text 全局参数 10 flag tinyint(4) 流程是否可用:0 不可用,1 可用 11 locations text 节点坐标信息 12 connects text 节点连线信息

大数据采集和抽取怎么做?这篇文章终于说明白了!

人走茶凉 提交于 2020-08-15 15:53:22
本文来源于公众号【胖滚猪学编程】,转载请注明出处! 关于数据中台的概念和架构,我们在 大白话 六问数据中台 和 数据中台全景架构及模块解析!一文入门中台架构师! 两篇文章中都说明白了。从这一篇文章开始分享中台落地实战。 其实无论是数据中台还是数据平台,数据无疑都是核心中的核心,所以闭着眼睛想都知道数据汇聚是数据中台/平台的入口。纵观众多中台架构图,数据采集与汇聚都是打头阵的: 本文将从以下几个方面分享数据采集的方方面面: 一、企业数据来源 二、数据采集概念和价值 三、数据采集常用工具 四、数据采集系统设计原则 五、数据采集模块生产落地分享 有来源才能谈采集,因此我们先来归纳下企业中数据来源。 数据来源 企业中的数据来源极其多,但大都都离不开这几个方面: 数据库,日志,前端埋点,爬虫系统等。 数据库我们不用多说,例如通常用mysql作为业务库,存储业务一些关键指标,比如用户信息、订单信息。也会用到一些Nosql数据库,一般用于存储一些不那么重要的数据。 日志也是重要数据来源,因为日志记录了程序各种执行情况,其中也包括用户的业务处理轨迹,根据日志我们可以分析出程序的异常情况,也可以统计关键业务指标比如PV,UV。 前端埋点同样是非常重要的来源,用户很多前端请求并不会产生后端请求,比如点击,但这些对分析用户行为具有重要的价值,例如分析用户流失率,是在哪个界面,哪个环节用户流失了