sqoop

Sqoop import postgres to S3 failing

只谈情不闲聊 提交于 2020-06-01 07:22:05
问题 I'm currently importing postgres data to hdfs. I'm planning to move the storage from hdfs to S3. When i'm trying to provide S3 location, the sqoop job is failing. I'm running it on EMR(emr-5.27.0) cluster and I've read/write access to that s3 bucket from all nodes in the cluster. sqoop import \ --connect "jdbc:postgresql://<machine_ip>:<port>/<database>?sslfactory=org.postgresql.ssl.NonValidatingFactory&ssl=true" \ --username <username> \ --password-file <password_file_path> \ --table

Sqoop import postgres to S3 failing

有些话、适合烂在心里 提交于 2020-06-01 07:21:07
问题 I'm currently importing postgres data to hdfs. I'm planning to move the storage from hdfs to S3. When i'm trying to provide S3 location, the sqoop job is failing. I'm running it on EMR(emr-5.27.0) cluster and I've read/write access to that s3 bucket from all nodes in the cluster. sqoop import \ --connect "jdbc:postgresql://<machine_ip>:<port>/<database>?sslfactory=org.postgresql.ssl.NonValidatingFactory&ssl=true" \ --username <username> \ --password-file <password_file_path> \ --table

基于hadoop构建智能推荐系统:第1篇 用户行为数据分析并导出到hdfs

别等时光非礼了梦想. 提交于 2020-04-22 04:51:20
这个分类 我主要想分享基于 hadoop 构建智能推荐系统的过程思路、程序设计和系统架构方面的一些技巧心得,至于 hadoop 、 sqoop 、 hbase 的安装和使用我就不多讲了,网上已经有很多这方面的文章了 让我们直奔主题吧。 1 、 我们要搭建一个智能推荐系统最重要的是什么呢?不是算法、也不是系统的本身,最关键是准确分析用户的行为数据,最终得出一个用户偏好表。有了这个用户偏好 表,我们可以做的事太多了,比如计算用户的相似度、计算物品的相似度、把用户按照行为进行聚类。。。但是这一切的前提都必须有一个“用户偏好表”(如图表 1-1 )。 图表 1-1 用户偏好表 Uid (用户 id ) Itemid (物品 id ) Preference (偏好值) Timestamp (时间戳) 1001 1005 4.5 123278545 1002 1008 3.5 123577865 1001 1008 5.0 123478588 2 、 (下面我将以视频网站的智能推荐系统为例子) 为了得到这样的一张表,我们首先要对用户的行为进行分析, 视频网站 的用户行为一般为 观看记录、评分记录、顶 / 踩、评论记录。。。 我们按照预先设定的权重(图表 2-1 ),将这些行为数据进行简单的权重相加,得出一个比较粗糙的偏好评分。 图表 2-1 行为权重(后面的行为记分 覆盖前面的行为记分) 行为

Spark --Spark Streaming实战 WordCount他来啦!!! updateStateByKey reduceByKeyAndWindow

无人久伴 提交于 2020-04-18 19:42:44
WordCount 需求&准备 ● 图解 ●首先在linux服务器上安装nc工具 nc是netcat的简称,原本是用来设置路由器,我们可以利用它向某个端口发送数据 yum install -y nc ●启动一个服务端并开放9999端口,等一下往这个端口发数据 nc -lk 9999 ●发送数据 话不多说!!!上代码! package cn.itcast.streaming import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, StreamingContext} object WordCount { def main(args: Array[String]): Unit = { //1.创建StreamingContext //spark.master should be set as local[n], n > 1 val conf = new SparkConf().setAppName("wc").setMaster("local[*]") val sc = new SparkContext(conf

记一次私有云向阿里adb导数

◇◆丶佛笑我妖孽 提交于 2020-04-16 12:31:44
【推荐阅读】微服务还能火多久?>>> 1、背景 刚到新公司不久,领导安排了一个组件调研的数据支持工作。 简单说就是从私有云中的数据导出千万级数据量到adb中,为QuickBI调研提供支持。 adb是阿里提供的一个类似mysql的服务,整个任务可以抽象成:从分布式系统向关系型数据库同步数据,可以归类到ETL工作中。 2、问题 首次接触阿里云相关的组件,需要熟悉相关组件的使用。 leader提出了用sqoop进行处理,但是私有云中未安装。 同事提出历史方案,通过将数据上传到oss,利用adb中类似hive外部表的特性进行数据传输。 3、实施方案 因为有了大数据相关的经验,阿里云的相关组件,上手还是比较快的。 利用sqoop工具 由于是第一次安装sqoop,安装过程中对linux的操作更熟悉了一些,对私有云组件的安装情况有个快速的了解。 在使用sqoop中遇到几个问题: 集群客户端节点无法连接到adb --- 经排查是未将客户端ip添加到adb白名单引起的。处理方案:找运维添加白名单。 由于adb提供的服务地址不是ip地址,所以遇到了数据库url解析异常问题 处理方案:通过 ping 相应的域名获取到ip地址,替换原有url服务地址。 运行修改后的脚本,任务还是不能顺利执行,通过查找任务对应的堆栈信息,得到下面的信息: 超时!?那增加数据库的超时时间和socket超时时间。结果是好的

MaxCompute数据的上传下载

放肆的年华 提交于 2020-04-13 18:24:13
【今日推荐】:为什么一到面试就懵逼!>>> Tunnel Tunnel通常用来将本地的数据上传到maxcompute或将maxcompute数据下载到本地 1、MaxCompute数据的上传和下载 MaxCompute系统上传/下载数据包括两种方式 DataHub实时数据通道 Tunnel批量数据通道 OGG插件 大数据开发套件 Flume插件 DTS LogStash插件 Sqoop Fluentd插件 Kettle插件 MaxCompute客户端 Tunnel查看帮助信息 不带参数的tunnel或tunnel help查看帮助信息 也可tunnel help upload Available subcommands: upload 支持文件或目录(只一级目录)的上传; 每一次上传只支持数据上传到一个表或表的一个分区; 有分区的表一定要指定上传的分区,示例如下: tunnel upload d:testp1.txt yunxiang_01.t_test_p/gender='male' tunnel upload d:test yunxiang_01.t_test_p/gender='male' --scan=only 注释:yunxiang_01为项目; t_test_p为表;gender='male'为分区类;--scan=only表示只扫码数据不导入数据。 download

Sqoop on Hadoop: NoSuchMethodError: com.google.common.base.Stopwatch.createStarted() [duplicate]

风格不统一 提交于 2020-04-11 08:03:10
问题 This question already has an answer here : How to resolve Guava dependency issue while submitting Uber Jar to Google Dataproc (1 answer) Closed 3 months ago . I'm running sqoop on hadoop on Google Cloud DataProc to access postgresql via the Cloud SQL Proxy but I'm getting a Java dependency error: INFO: First Cloud SQL connection, generating RSA key pair. Exception in thread "main" java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun

sqoop命令,mysql导入到hdfs、hbase、hive

空扰寡人 提交于 2020-04-08 07:01:00
1.测试MySQL连接 bin/sqoop list-databases --connect jdbc: mysql://192.168.1.187:3306/trade_dev --username 'mysql' --password '111111' 2.检验SQL语句 bin/sqoop eval --connect jdbc: mysql://192.168.1.187:3306/trade_dev --username 'mysql' --password '111111' --query "SELECT * FROM TB_REGION WHERE REGION_ID = '00A1719A489D4F49906A8CA9661CCBE8'" 3.导入hdfs 3.1 导入 bin/sqoop import --connect jdbc: mysql://192.168.1.187:3306/trade_dev --username 'mysql' --password '111111' --table TB_REGION --target-dir /sqoop/mysql/trade_dev/tb_region -m 5 --columns "code,name,category,farthercode,visible,regionlevel,region_id"

大数据之Sqoop安装

时光怂恿深爱的人放手 提交于 2020-04-07 21:14:44
一、Sqoop安装 1、下载并解压 1)下载地址: http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中 3)解压sqoop安装包到指定目录,如: [test@hadoop102 software]$ tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/ 4)解压sqoop安装包到指定目录,如: [test@hadoop102 module]$ mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha/ sqoop 2、修改配置文件 1) 进入到/opt/module/sqoop/conf目录,重命名配置文件 [test@hadoop102 conf]$ mv sqoop-env-template.sh sqoop-env.sh 2) 修改配置文件 [test@hadoop102 conf]$ vim sqoop-env.sh 增加如下内容 export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2 export HADOOP_MAPRED_HOME

最新Java技术

陌路散爱 提交于 2020-04-06 15:15:19
最近在网上查资料碰到好多没接触过的技术,先汇总在这里备用,以后慢慢吸收 转载出处: https://www.cnblogs.com/barrywxx/p/8482214.html 1. JNA JNI的替代品,调用方式比JNI更直接,不再需要JNI那层中间接口,几乎达到Java直接调用动态库 2. SmallSQL 基于JDBC3.0转为Desktop应用设计的嵌入式数据库,纯Java,本地访问,不支持网络 但目前好像不太活跃,最新版本是0.2,并且2008年后没有更新 3. Fisheye 类似Hudson的配置库管理工具,据说简单易用 4. TeamViewer 与Java无关,一个用于远程控制,视频会议工具,挺好用的 5. IgniteRealtime www.igniterealtime.org 开源即时聊天开发工具社区,大多是基于Java XMPP协议,主要使用技术 OpenFire Spark Smack Tinder Whack XIFF 6. TWaver 一款专注于电力、金融、通信行业的图形化支持开发库,非常强大 至于是不是免费没仔细研究呢 非常棒的 TWaver 社区 http://twaver.servasoft.com/ 里面介绍好多TWaver和Swing的技术 7. Inno Setup 开源打包工具,详细看这里 http://www