Azkaban

01-编译azkaban

ぃ、小莉子 提交于 2020-03-20 16:25:51
01-基本环境 1.操作系统 CentOS7 2.azkaban版本 azkaban 3.81.0 02-azkaban下载 1.azkaban下载地址 https://azkaban.github.io/downloads.html 2.azkaban官方文档地址 https://azkaban.readthedocs.io/en/latest/ 03-编译azkaban 1.将azkaban源码zip包解压 2.提前准备gradle对应版本的zip 为了方便编译,查看gradle配置文件,提前下载“gradle-4.6-all” 1)修改gradle配置文件azkaban-master/gradle/wrapper/gradle-wrapper.properties 2)将gradle-4.6-all压缩包放在azkaban-master/gradle/wrapper/目录下 # # Copyright 2018 LinkedIn Corp. # # Licensed under the Apache License, Version 2.0 (the "License"); you may not # use this file except in compliance with the License. You may obtain a copy of # the

Azkaban安装

帅比萌擦擦* 提交于 2020-03-17 22:17:07
一、安装 1、解压安装包 azkaban-web-server-2.5.0.tar.gz azkaban-executor-server-2.5.0.tar.gz  azkaban-sql-script-2.5.0.tar.gz 除了上面三个安装包,还需要安装MySQL 2、在mysql数据库中创建Azkaban的库,并导入数据 mysql> create database azkaban; mysql> use azkaban;-- mysql> source /opt/module/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql 3、创建SSL证书配置 因为利用web端操作,所以需要使用Java自带的Key tool工具来生成证书 keytool -keystore keystore -alias jetty -genkey -keyalg RSA -keystore 指定密钥库的名称及位置(产生的各类信息将存在.keystore文件中) -genkey(或者-genkeypair) 生成密钥对 -alias 为生成的密钥对指定别名,如果没有指定默认是mykey -keyalg 指定密钥的算法 RSA/DSA 默认是DSA 4、集群时间同步 https://zhidao.baidu.com/question

Hadoop - 任务调度系统比较

这一生的挚爱 提交于 2020-03-15 17:31:11
1.概述   在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂。那么,在没有条件和精力去开发一套调度系统的情况下,我们去选择一款第三方开源的调度系统,来尽量减轻和降低我们日常工作的复杂度,也是极好的。今天,笔者给大家比较几种常见的调度系统,供大家去选择。 2.内容 2.1 Oozie   Oozie目前是托管在Apache基金会的,开源。在之前的博客《 Oozie调度 》一文当中,介绍相关Oozie的调度,如何去调度Hadoop的相关,大家可以从博客的文中所描述的内容看出,配置的过程略显繁琐和复杂,配置相关的调度任务比较麻烦,然其可视化界面也不是那么的直观,另外,对UI界面要求较高的同学,此调度系统估计会让你失望。若是对改调度系统感兴趣的同学可以到《 Oozie调度 》一文中做相关细节的了解。这里就不多做赘述了。 2.2 Zeus   它是一个Hadoop的作业平台,从Hadoop任务的调试运行到生产任务的周期调度,它支持任务的整个生命周期。从其功能来看,它支持以下任务: Hadoop的MapReduce任务调度运行 Hive任务的调度运行 Shell任务的运行 Hive元数据的可视化展示查询及数据预览

几种大数据ETL工作流调度系统的介绍和对比

这一生的挚爱 提交于 2020-03-14 12:13:43
几种大数据ETL工作流调度系统的介绍和对比 1. 什么是ETL工作流系统 做过ETL的同学都知道,我们在处理数据的时候往往都是分成好几个任务步骤来完成一个数据处理流程。多个任务单元之间往往有着强依赖关系,上游任务执行并成功,下游任务才可以执行。比如上游任务结束后拿到 A 结果,下游任务需结合 A 结果才能产出 B 结果,因此下游任务的开始一定是在上游任务成功运行拿到结果之后才可以开始。而为了保证数据处理结果的准确性,就必须要求这些任务按照上下游依赖关系有序、高效的执行。 ETL调度系统就是这样可以组织任务前后依赖关系,让任务有序执行的关键系统。 在开源的世界里,目前有这三种调度系统来供我们免费使用,它们是,Airflow,Azkaban,Dolphin scheduler。下面我分别来介绍一下这三个调度系统的架构和工作原理 2. AZKABAN Azkaban 是国外开源的一个工作流调度系统比较成熟。 先上一张架构图 : 主要有如下几种组件构成: Web Server : 主要包括工作流配置管理,用户认证,定时调度,触发任务执行功能 Executor:处理实际工作流和任务的执行 Database: 存储工作流和任务的元信息 具体执行流程: 【1】调度器触发或者人工触发,生成工作流实例信息出入数据库 【2】更具LB选择一个Executor来执行该工作流实例 【3

Azkaban 安装

我怕爱的太早我们不能终老 提交于 2020-03-05 04:35:01
Azkaban安装部署 准备工作 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gz MySQL 目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立了 root用户,密码 root. 下载地址:http://azkaban.github.io/downloads.html Oozie == azkaban 安装 将安装文件上传到集群,最好上传到安装 hive、sqoop的机器上,方便命令的执行 在当前用户目录下新建 azkabantools目录,用于存放源安装文件.新建azkaban目录,用于存放azkaban运行程序 azkaban web服务器安装 解压azkaban-web-server-2.5.0.tar.gz 命令: tar –zxvf azkaban-web-server-2.5.0.tar.gz 将解压后的azkaban-web-server-2.5.0 移动到 azkaban目录中,并重新命名 webserver 命令: mv azkaban-web-server-2.5.0 ../azkaban cd ../azkaban mv azkaban-web-server-2

Azkaban集群部署

情到浓时终转凉″ 提交于 2020-03-05 04:34:09
工作流调度系统产生背景 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等。 各个任务单元之间存在时间先后依赖关系。 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 简单的任务调度: 直接使用linux的crontab来定义,但是缺点也是比较明显,无法设置依赖。 复杂的任务调度:Azkaban Azkaban 调度器 azkaban一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流 Azkaban集群部署 1.准备工作 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gz MySQL 本文档中默认已安装好mysql服务器。 2.上传安装包 将安装包上传到集群,最好上传到安装hive、sqoop的机器上,方便命令的执行。 新建azkaban目录,用于存放azkaban运行程序。 3.azkaban web 服务器安装 解压azkaban-web-server-2.5.0.tar.gz 命令: tar –zxvf

Azkaban2.5.0安装

女生的网名这么多〃 提交于 2020-03-05 04:32:39
1、Azkaban安装部署 azkaban-web-server-2.5.0.tar.gz azkaban-executor-server-2.5.0.tar.gz azkaban-sql-script-2.5.0.tar.gz 2、安装 将安装文件上传到集群,最好上传到安装 spark,hive、sqoop的机器上,方便命令的执行   mkdir azkaban azkaban web服务器安装 解压azkaban-web-server-2.5.0.tar.gz   tar –zxvf azkaban-web-server-2.5.0.tar.gz 将解压后的azkaban-web-server-2.5.0 移动到 azkaban目录中,并重新命名 server   mv azkaban-web-server-2.5.0 ../azkaban cd ../azkaban mv azkaban-web-server-2.5.0 server azkaban 执行服器安装 解压azkaban-executor-server-2.5.0.tar.gz   tar –zxvf azkaban-executor-server-2.5.0.tar.gz 将解压后的azkaban-executor-server-2.5.0 移动到 azkaban目录中,并重新命名 executor   mv

azkaban hdfs plugin 配置

一个人想着一个人 提交于 2020-03-05 04:31:53
http://blog.javachen.com/2014/08/25/install-azkaban.html azkaban 的hdfs 插件配置azkaban的官方文档 http://azkaban.github.io/azkaban/docs/2.5/#plugins 描述的很简单,网上也有很多教程,但是配置到最后去浏览器上查看都是如下这个毫无提示信息的错误 没有办法,只能去下载了azkaban与azkaban-plugin的源码来一点点排查. azkaban 源码地址: github.com/azkaban/azkaban azkaban-plugin 源码地址: github.com/azkaban/azkaban-plugins 前面的安装步骤就不说了,请参考上面的地址. 第一个出错的问题点排查 在azkaban-web 启动的时候,我们会看到如下这部分信息 1 2015/07/30 14:21:39.730 +0800 INFO [HdfsBrowserServlet] [Azkaban] Initializing hadoop security manager azkaban.security.HadoopSecurityManager_H_2_0 2 2015/07/30 14:21:39.737 +0800 INFO

azkaban 配置邮件

流过昼夜 提交于 2020-03-05 04:31:37
1.配置邮件请在azkaban-web-server中进行配置:如下图: /opt/azkaban/azkaban/azkaban-web-server/build/install/azkaban-web-server/conf 注意: 邮件服务器和接受邮件对像使用了QQ邮箱。azkaban可能不支持QQ邮箱。 解决办法:改成其它邮箱,我改成了126.com的邮箱。 2.测试: 在web UI 页面执行个job,成功则发邮件,如下: 看结果,我输入了三个邮箱,而且此job也执行成功,看看三个邮箱都收到没: 都已收到,除了在web UI 中直接配置也可以在job里进行配置。 azkaban配置邮件内容log链接 步骤: 1.打开azkaban server服务器conf下的azkaban.properties文件 2.在jetty参数配置处,添加jetty.hostname=localhost 其中:localhost:为azkaban 的server服务器,当前服务器的ip地址 3.重启azkanba 执行器和server服务器 验证邮件发送即可。 worker:tantan 20180719 来源: https://www.cnblogs.com/xiqing/p/9645824.html

初识Azkaban

≯℡__Kan透↙ 提交于 2020-03-05 04:31:00
先说下hadoop 内置工作流的不足 (1)支持job单一 (2)硬编码 (3)无可视化 (4)无调度机制 (5)无容错机制 在这种情况下Azkaban就出现了 1)Azkaban是什么 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 2)Azkaban的功能特点 ①Web用户界面 ②方便上传工作流 ③方便设置任务之间的关系 ④工作流调度 ⑤认证/授权 ⑥能够杀死并重新启动工作流 ⑦模块化和可插拔的插件机制 ⑧项目工作区 ⑨工作流和任务的日志记录和审计 3)Azkaban的架构 MySQL实例 – Azkaban使用MySQL来存储项目和执行 Azkaban Web服务器 – Azkaban使用Jetty作为Web服务器,用作控制器以及提供Web界面 Azkaban执行服务器 – Azkaban执行服务器执行提交工作流 4)Azkaban三种运行模式 ①solo server mode H2 web server和executor server运行在一个进程里 ②two server mode MySQL(主从结构) web server和executor server运行在不同的进程