大数据分析中,进行流程化的批处理是必不可少的。传统的大数据处理大部分是基于关系数据库系统,难以实现大规模扩展;主流的基于Hadoop/Spark体系总体性能较强,但使用复杂、扩展能力弱。大数据分析向Kubernnetes等容器集群发展是大势所趋,AirFlow、NiFi、MLFlow、KubeFlow就是可以用于这些方向的新兴开源软件平台,可以充分容器集群和DevOps、云计算的优势,而且将传统的大量数据处理和机器学习等先进算法能够实现有机的结合。
AirFlow数据流程化处理系统
AirFlow是可编程的DAG流程框架,主要通过Python执行。最新版本通过Executor机制支持Kubernetes集群作为执行环境,从而可以将大量数据处理的流程在容器云中进行迁移。
- Airflow在Kubernetes上的操作器
- AirFlow-Tutorial
- AirFlow-Install
- Notebook Workflows: The Easiest Way to Implement Apache Spark Pipelines
NiFi可视化数据流处理系统
通过可视化的方法编辑流程,并在线运行,支持后台监控、任务调度、执行器扩展等能力。NiFi采用Java和HTML开发,通过Web浏览器访问图形交互界面,服务器端可以运行于容器中。
- NiFi (https://nifi.apache.org/)
- NiFi-面向流程的大数据处理框架
- NiFi资源大全
MLFlow机器学习系统
MLFlow是基于Python开发的DAG数据工作流框架,主要面向机器学习,支持Spark并行环境和Kubernetes容器集群。
- Spark机器学习工具链-MLflow简介
- Spark机器学习工具链-MLflow使用教程
- MLflow机器学习工作流框架更新(2019.3)
- Jupyter on Kubernetes机器学习-MLflow
KubeFlow机器学习系统
Kubeflow是面向机器学习的数据流批处理框架,原生支持Kubernetes集群环境,支持多种机器学习引擎,内置JupyterHub的交互式数据分析环境。
- ksonnet 使用教程
- 基于Kubernetes的机器学习系统
- 深度学习框架的发展与展望(2019.3)
- Kubeflow更新升级到0.4.1
- Kubeflow 入门——为 Kubernetes 打造的组件化、可移植、可扩展的机器学习堆栈
- 使用Argo CD实现Kubeflow的GitOps
- Kubeflow-机器学习工作流框架
- PyTorch支持Kubernetes集群
- Kubeflow 使用指南
- Kubeflow 快速入门
- Kubeflow等镜像部署到集群多节点
- Kubeflow镜像的快速下载(V0.3.3)
JupyterHub/JupyterLab
来源:oschina
链接:https://my.oschina.net/u/2306127/blog/3064671