HDFS

sqoop1再踩坑

给你一囗甜甜゛ 提交于 2021-01-22 12:26:41
一、什么是Sqoop Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错率,而且相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况。在特定场景下,抽取过程会有很大的性能提升。 如果要用Sqoop,必须正确安装并配置Hadoop,因依赖于本地的hadoop环境启动MR程序;mysql、oracle等数据库的JDBC驱动也要放到Sqoop的lib目录下。本文针对的是Sqoop1,不涉及到Sqoop2,两者有大区别,感兴趣的读者可以看下官网说明。 二、import import是数据从RDBMS导入到Hadoop的工具 2.1、split Sqoop并行化是启多个map task实现的,-m(或--num-mappers)参数指定map task数,默认是四个。并行度不是设置的越大越好,map task的启动和销毁都会消耗资源,而且过多的数据库连接对数据库本身也会造成压力。在并行操作里,首先要解决输入数据是以什么方式负债均衡到多个map的,即怎么保证每个map处理的数据量大致相同且数据不重复。--split-by指定了split column,在执行并行操作时

数禾云上数据湖最佳实践

吃可爱长大的小学妹 提交于 2021-01-21 16:43:59
目录 1. 数禾科技 2. 云上自建CDH 3. 云上混合架构 4. 阿里云第一代数据湖 4.1. 什么是数据湖 4.2. 阿里云数据湖设计 4.2.1. 阿里云数据湖整体架构 4.2.2. 统一存储和元数据管理 4.2.3. 多EMR多OSS桶设计 4.2.4. 分布式调度系统设计 4.2.5. 用户权限系统设计 4.2.6. EMR弹性伸缩设计 4.2.7. 负载均衡管理 4.2.8. OSS桶生命周期管理 4.2.9. 日志管理 4.2.10. 终端权限管理 4.2.11. 组件UI管理 4.2.12. 监控告警管理 4.2.13. 即席查询设计 4.2.14. 集群安全组设计 4.2.15. 数据脱敏设计 4.2.16. YARN队列设计 4.3. 数据湖EMR治理 4.3.1. 调整EMR预伸缩时间 4.3.2. 更改EMR弹性伸缩策略 4.3.3. 优化EMR云盘空间 4.3.4. EMR机器组的选择 4.3.5. EMR成本控制 4.3.6. 购买RI预留抵扣券 4.3.7. 弹性保障 4.4. 数据湖OSS治理 4.4.1. 数仓ODS多版本桶治理 4.4.2. 数仓日志桶治理 4.4.3. 数仓桶和集市桶治理 4.4.4. 监控桶内对象 5. 阿里云第二代数据湖 5.1. 阿里云数据湖构建 5.2. 阿里云数据湖解决方案 1.数禾科技 数禾科技成立于2015年8月

大数据计算系统学习笔记

倾然丶 夕夏残阳落幕 提交于 2021-01-20 17:37:17
1.大数据计算体系可归纳三个基本层次: 数据应用系统,数据处理系统,数据存储系统 2.计算的总体架构 HDFS(Hadoop 分布式文件系统) (1)设计思想:分而治之,将大文件大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。 (2)首先,它是一个文件系统,用于存储文件,通过统一的命名空间–目录树来定位文件。然后,它是分布式的,又很多服务器联合起来实现其功能,集群中的服务器有各自的角色。有namenode和datanode两部分,有点类似索引结构,并采用备份的方式,例如第二namenode和b1出现3次。 数据处理系统的比较 主要看mapreduce和spark的两个极端,包括时延和硬件的需求。 mapreduce计算模型 3.计算模型和计算架构 来源: oschina 链接: https://my.oschina.net/u/4255691/blog/4915296

Get Folder size of HDFS from java

女生的网名这么多〃 提交于 2021-01-20 16:18:08
问题 I have to HDFS folder size which is having sub directories from java. From command line we can use -dus option, But anyone can help me on how to get the same using java. 回答1: The getSpaceConsumed() function in the ContentSummary class will return the actual space the file/directory occupies in the cluster i.e. it takes into account the replication factor set for the cluster. For instance, if the replication factor in the hadoop cluster is set to 3 and the directory size is 1.5GB, the

Get Folder size of HDFS from java

喜夏-厌秋 提交于 2021-01-20 16:14:50
问题 I have to HDFS folder size which is having sub directories from java. From command line we can use -dus option, But anyone can help me on how to get the same using java. 回答1: The getSpaceConsumed() function in the ContentSummary class will return the actual space the file/directory occupies in the cluster i.e. it takes into account the replication factor set for the cluster. For instance, if the replication factor in the hadoop cluster is set to 3 and the directory size is 1.5GB, the

Get Folder size of HDFS from java

…衆ロ難τιáo~ 提交于 2021-01-20 16:14:08
问题 I have to HDFS folder size which is having sub directories from java. From command line we can use -dus option, But anyone can help me on how to get the same using java. 回答1: The getSpaceConsumed() function in the ContentSummary class will return the actual space the file/directory occupies in the cluster i.e. it takes into account the replication factor set for the cluster. For instance, if the replication factor in the hadoop cluster is set to 3 and the directory size is 1.5GB, the

Get Folder size of HDFS from java

谁都会走 提交于 2021-01-20 16:12:49
问题 I have to HDFS folder size which is having sub directories from java. From command line we can use -dus option, But anyone can help me on how to get the same using java. 回答1: The getSpaceConsumed() function in the ContentSummary class will return the actual space the file/directory occupies in the cluster i.e. it takes into account the replication factor set for the cluster. For instance, if the replication factor in the hadoop cluster is set to 3 and the directory size is 1.5GB, the

从0开始搭建数据仓库(2):产品经理如何“玩转”Hive SQL

自闭症网瘾萝莉.ら 提交于 2021-01-16 15:03:07
作者介绍 莲石东路@乌森 心之所向,***成长。从底层架构到应用实战,聊聊炼数成金背后的故事。 持续更新数据治理、数据科学、数据可视化、空间计算系列文章。 01 前言 公司新入职了的产品经理小美因为业务需要,想搭一个数据大屏方便自己查看数据。她找开发小王申请了数仓权限,然后从技术中台里找到了数据大屏的工具,把自己平时查数据用的sql搬上去跑,结果总是报错。 小美找到了做数据产品经理的师兄小帅看了看。 小帅:你这个查询有问题,业务系统的sql不能直接搬来用。 小美:我看长得差不多啊,除了多了个分区外,不都是sql吗? 小帅:你现在建的是Hive查询,Hive SQL虽说和SQL非常相似,但是一些细节上还是有区别的。 02 Hive SQL是什么? Hive是大数据领域常用的数据仓库组件,可以借助查询语言SQl将HDFS上存储的结构化文件映射成一张数据库表,并提供类SQL查询功能。Hive-SQL就是这个”类SQL查询功能”。Hive-SQL与SQL基本上一样,因为当初的设计目的,就是让会SQL不会编程MapReduce的也能完成处理数据工作。 【拓展】Hive-SQL是如何转化为MapReduce任务的呢?整个编译过程分为六个阶段: 1) Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree 2) 遍历AST Tree

九个最容易出错的 Hive sql 详解及使用注意事项

时间秒杀一切 提交于 2021-01-14 14:13:36
阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。 文章首发于公众号: 五分钟学大数据 前言 在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。 在使用sql时如果不熟悉或不仔细,那么在进行查询分析时极容易出错,接下来我们就来看下几个容易出错的sql语句及使用注意事项。 正文开始 1. decimal hive 除了支持 int,double,string等常用类型,也支持 decimal 类型,用于在数据库中存储精确的数值,常用在表示金额的字段上 注意事项: 如:decimal(11,2) 代表最多有11位数字,其中后2位是小数,整数部分是9位; 如果 整数部分超过9位,则这个字段就会变成null,如果整数部分不超过9位,则原字段显示 ; 如果 小数部分不足2位,则后面用0补齐两位,如果小数部分超过两位,则超出部分四舍五入 ; 也可直接写 decimal,后面不指定位数,默认是 decimal(10,0) 整数10位,没有小数 2. location 表创建的时候可以用 location 指定一个文件或者文件夹 create table stu( id int , name

centos7下hadoop-3.1.0伪集群搭建

不羁的心 提交于 2021-01-14 02:43:14
centos7下hadoop-3.1.0集群搭建 环境准备 1.服务器概览 hostname ip 说明 node1.spark 192.168.2.140 node1节点(master) node2.spark 192.168.2.141 node2节点 node3.spark 192.168.2.142 node3节点 分别在三台服务器上执行以下命令 #添加host [root@node1 ~] vim /etc/hosts 192.168.2.140 node1.spark 192.168.2.141 node2.spark 192.168.2.142 node3.spark #执行以下命令关闭防火墙 [root@node1 ~]systemctl stop firewalld && systemctl disable firewalld [root@node1 ~]setenforce 0 #将SELINUX的值改成disabled [root@node1 ~]vim /etc/selinux/config SELINUX=disabled #重启服务器 [root@node1 ~]reboot 2.配置免密码登录 #node1执行以下命令 #生成密钥Pair,输入之后一直选择enter即可。生成的秘钥位于 ~/.ssh文件夹下 [root@node1 ~]# ssh