Azkaban集群部署
工作流调度系统产生背景 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等。 各个任务单元之间存在时间先后依赖关系。 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 简单的任务调度: 直接使用linux的crontab来定义,但是缺点也是比较明显,无法设置依赖。 复杂的任务调度:Azkaban Azkaban 调度器 azkaban一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流 Azkaban集群部署 1.准备工作 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gz MySQL 本文档中默认已安装好mysql服务器。 2.上传安装包 将安装包上传到集群,最好上传到安装hive、sqoop的机器上,方便命令的执行。 新建azkaban目录,用于存放azkaban运行程序。 3.azkaban web 服务器安装 解压azkaban-web-server-2.5.0.tar.gz 命令: tar –zxvf