初识Azkaban
先说下hadoop 内置工作流的不足 (1)支持job单一 (2)硬编码 (3)无可视化 (4)无调度机制 (5)无容错机制 在这种情况下Azkaban就出现了 1)Azkaban是什么 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 2)Azkaban的功能特点 ①Web用户界面 ②方便上传工作流 ③方便设置任务之间的关系 ④工作流调度 ⑤认证/授权 ⑥能够杀死并重新启动工作流 ⑦模块化和可插拔的插件机制 ⑧项目工作区 ⑨工作流和任务的日志记录和审计 3)Azkaban的架构 MySQL实例 – Azkaban使用MySQL来存储项目和执行 Azkaban Web服务器 – Azkaban使用Jetty作为Web服务器,用作控制器以及提供Web界面 Azkaban执行服务器 – Azkaban执行服务器执行提交工作流 4)Azkaban三种运行模式 ①solo server mode H2 web server和executor server运行在一个进程里 ②two server mode MySQL(主从结构) web server和executor server运行在不同的进程