sqoop

大型分布式网站架构设计与实践5

不打扰是莪最后的温柔 提交于 2020-03-28 17:42:30
第5章 数据分析 5.1 日志收集 5.1.1 inotify机制 通过inotify机制,能够对文件系统的变化进行监控,如对文件进行删除,修改等操作,可以及时通知应用程序进行相关事件的处理。 5.1.2 ActiveMQ-CPP C++接口的消息订阅系统 5.1.3 架构和存储 数据需要经过inotify客户端,经由ActiveMQ进行转发,通过storm进行实时处理,再存储到Mysql、HDFS、Hbase或者Memcache这些存储系统当中,最后再进行深度分析或者实时的展现 5.1.4 Chukwa 5.2 离线数据分析 5.2.1 Hadoop项目简介 Hadoop:HDFS,MapReduce,Zookeeper、Hbase、Hive、Pig、Mahout 5.2.2 Hadoop环境搭建 略 5.2.3 MapReduce编写 5.2.4 Hive的使用 略 5.3 流式数据分析 5.3.1 Storm的介绍 1、Storm是一个开源的分布式实时计算系统,可以简单,可靠地对大量的流式数据进行分析。 2、通过zeroMQ作为底层的消息队列,可以保证消息能得到很快的处理 5.3.2 安装部署storm 略 5.3.3 storm的使用 5.4 数据同步 在线的OLTP 或 日志系统-----OLAP系统----->多维度复杂的数据分析和汇总操作 5.4.1 离线数据同步 1

sqoop mysql 导入HIVe 的快速方法

浪子不回头ぞ 提交于 2020-03-25 11:41:13
3 月,跳不动了?>>> [root @master ~]# sqoop import \ > --connect jdbc:mysql://ip:3306/svdb \ > --username xx \ > --password xxxx \ > --table t_rsd_asset \ > --m 1 --hive-import \ > --fields-terminated-by "\t" \ > --hive-overwrite \ > --hive-table staff_yzy 来源: oschina 链接: https://my.oschina.net/thomas2/blog/3210683

Hive和Sqoop测试数据

不问归期 提交于 2020-03-18 11:30:27
测试数据以Oracle数据库自带scott用户emp和dept表为准: 一、MySQL数据库创建的emp和dept表语法及数据: drop table if exists dept; create table dept ( deptno int not null comment '部门编号', dname varchar(14) comment '部门名称', loc varchar(13) comment '部门地址', PRIMARY KEY (deptno) )default character set 'utf8' comment '部门表'; insert into dept(deptno,dname,loc) values(10,'ACCOUNTING','NEW YORK'); insert into dept(deptno,dname,loc) values(20,'RESEARCH','DALLAS'); insert into dept(deptno,dname,loc) values(30,'SALES','CHICAGO'); insert into dept(deptno,dname,loc) values(40,'OPERATIONS','BOSTON'); ------------------------------------------------

ubuntu 安装 mysql 5.7 简记

空扰寡人 提交于 2020-03-17 11:59:38
安装: apt -get install mysql -server 会安装最新版本的 mysql ,安装时会提示输入 root 的密码 进入 mysql: mysql -u root -p 进入后会出现 mysql> 的提示符。 创建一个用户,下面例子中的用户是 sqoop: create user 'sqoop'@'localhost' identified by '123456'; create user 'sqoop'@'%' identified by '123456'; 创建数据库,并分配权限 create database sqoop_test; flush privileges; grant all privileges on `sqoop_test`.* to 'sqoop'@'%' identified by '123456'; grant all privileges on `sqoop_test`.* to 'sqoop'@'localhost' identified by '123456'; 创建后,用 navicat 联接数据库,可是连不上(mysql 是装在虚拟机里的,navicat 在主机上)。 需要修改 /etc/mysql/mysql.conf.d/mysqld.cnf 里的 bind-address 的值改成 0.0 .0 .0 重启

mac 安装sqoop2

旧城冷巷雨未停 提交于 2020-03-08 00:03:05
1、官网地址: http://sqoop.apache.org/ 下载地址: https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/ 解压: tar -zxvf sqoop-1.99.7-bin-hadoop200.tar.gz -C /usr/local 2、配置环境变量,我这边修改的是 vim ~/.bash_profile export SQOOP_HOME=/Users/zhoueming/simple/sqoop-1.99.7 export PATH=${PATH}:$SQOOP_HOME/bin:$SQOOP_HOME/server/bin:......... 3、sqoop目录下新建一个extraLib 目录 mkdir /sqoop-1.99.7/extraLib 声明一个全局变量,执行 vim ~/.bash_profile 添加一行,声明全局变量 SQOOP_SERVER_EXTRA_LIB export SQOOP_SERVER_EXTRA_LIB=$SQOOP_HOME/extraLib 4、启动 sqoop2-server start error:Caused by: java.lang.SecurityException: sealing violation: package org.apache.derby

sqoop2启动job报错

非 Y 不嫁゛ 提交于 2020-03-04 07:34:07
set option --name verbose --value true #打开报错详情输出 Exception has occurred during processing command Exception: org.apache.sqoop.common.SqoopException Message: GENERIC_HDFS_CONNECTOR_0007:Invalid input/output directory - Unexpected exception 解决方法: 安装配置参考的: http://www.cnblogs.com/duking1991/p/6081118.html hadoop的用户代理机制: http://blog.csdn.net/u012948976/article/details/49904675 我配置的代理访问: <property> <name>hadoop.proxyuser. root .hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser. root .groups</name> <value>*</value> </property> Caused by: Exception: com.mysql.jdbc.exceptions

Sqoop实现HADOOP与DB数据互导

岁酱吖の 提交于 2020-03-04 07:32:48
环境准备 1.hadoop运行正常 2.mysql运行正常,能访问 方法 1.下载sqoop-1.4.1-incubating__hadoop-0.20.tar.gz安装至/sqoop-1.4.1 2.将mysql-connector-java-5.1.21-bin.jar复制至/sqoop-1.4.1/lib 3.修改bin/configure-sqoop 注释掉hbase zookeeper检查: #if [ ! -d "${HBASE_HOME}" ]; then # echo "Error: $HBASE_HOME does not exist!" # echo 'Please set $HBASE_HOME to the root of your HBase installation.' # exit 1 #fi #if [ ! -d "${ZOOKEEPER_HOME}" ]; then # echo "Error: $ZOOKEEPER_HOME does not exist!" # echo 'Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.' # exit 1 #fi 4. 保证/etc/profile 有 export HADOOP_HOME=//hadoop 5..运行

[原创]安装Sqoop并验证

扶醉桌前 提交于 2020-03-04 07:31:44
1. 下载包并配置 下载 hadoop-0.20.2-CDH3B4.tar.gz 、 sqoop-1.2.0-CDH3B4.tar.gz , 并解压,将 Hadoop-0.20.2-CDH3B4 目录下 hadoop-core-0.20.2-CDH3B4.jar 复制到 Sqoop-1.2.0-CDH3B4 的 lib 目录下。修改 Sqoop-1.2.0-CDH3B4/bin/ configure-sqoop, 注释掉对 ZOOKEEPER_HOME 的检查 2. 配置环境变量 export SQOOP_HOME=/home/admin/sqoop-1.2.0-CDH3B4 export PATH=$PATH:$SQOOP_HOME/bin 3. 测试安装 [admin@server1 ~]$ sqoop help usage: sqoop COMMAND [ARGS] Available commands: codegen Generate code to interact with database records create-hive-table Import a table definition into Hive eval Evaluate a SQL statement and display the results export Export an HDFS

Sqoop安装配置及数据导入导出

亡梦爱人 提交于 2020-03-04 07:30:58
前置条件 已经成功 安装配置Hadoop 和Mysql 数据库服务器,如果将数据导入或从Hbase导出,还应该已经成功安装配置Hbase。 下载sqoop 和Mysql 的JDBC 驱动 sqoop-1.2.0-CDH3B4.tar.gz : http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz mysql-connector-java-5.1.28 安装sqoop [hadoop@appserver ~]$ tar -zxvf sqoop-1.2.0-CDH3B4.tar.gz 配置环境变量 拷贝 Hadoop 核心包和 MYSQL 驱动包到 sqoop 的 lib 目录 [hadoop@appserver ~]$ cp hadoop-1.1.2/hadoop-core-1.1.2.jar sqoop-1.2.0-CDH3B4/lib/ [hadoop@appserver ~]$ cp mysql-connector-java-5.1.28-bin.jar sqoop-1.2.0-CDH3B4/lib/ 配置sqoop-1.2.0-CDH3B4/bin/configure-sqoop 文件 注释掉hbase和zookeeper检查(除非准备使用HABASE等HADOOP组件) 启动hadoop 集群 启动mysql

Kylin设置JDBC配置greenplum数据源

↘锁芯ラ 提交于 2020-02-28 23:52:53
Kylin设置JDBC配置greenplum数据源 kylin最开始的时候支持hive和kafka作为数据源,从2.3.0版本之后开始支持JDBC作为第第三种数据源。用户可以自定义的数据库或者数据仓库到自己的kylin集群。比如,mysql,postgresql,greenplum等。 支持原理 需要了解到的是,kylin设置完jdbc作为数据源,是通过sqoop来实现的,他并不是摒弃了底层的hive,而是使用sqoop将你配置的数据源的数据抽取到hive中,kylin通过在hive中生成的表来做cube的预计算。计算完之后,再将导入的临时数据删除。 配置JDBC数据源 首先,在kylin集群安装完之后,自行安装sqoop。注意sqoop的1.0和2.0版本相去甚远,一般在生产环境中不会使用2.0版本,同时需要注意sqoop和hbase的版本兼容问题,一般是sqoop1.x+hbase0.x。 第二步,准备jdbc driver。需要将你要配置的数据库的JDBC Driver配置搭配kylin和sqoop中,路径$KYLIN_HOME/ext和$SQOOP_HOME/lib。注意:mysql的驱动可以不加载,kylin2.3.1已经集成。 第三步,配置kylin.properties文件。 Mysql样例: ################MYSQL #kylin.source