AirFlow/NiFi/MLFlow/KubeFlow进展

╄→гoц情女王★ 提交于 2019-11-29 04:51:10

大数据分析中,进行流程化的批处理是必不可少的。传统的大数据处理大部分是基于关系数据库系统,难以实现大规模扩展;主流的基于Hadoop/Spark体系总体性能较强,但使用复杂、扩展能力弱。大数据分析向Kubernnetes等容器集群发展是大势所趋,AirFlow、NiFi、MLFlow、KubeFlow就是可以用于这些方向的新兴开源软件平台,可以充分容器集群和DevOps、云计算的优势,而且将传统的大量数据处理和机器学习等先进算法能够实现有机的结合。

AirFlow数据流程化处理系统

AirFlow是可编程的DAG流程框架,主要通过Python执行。最新版本通过Executor机制支持Kubernetes集群作为执行环境,从而可以将大量数据处理的流程在容器云中进行迁移。

NiFi可视化数据流处理系统

通过可视化的方法编辑流程,并在线运行,支持后台监控、任务调度、执行器扩展等能力。NiFi采用Java和HTML开发,通过Web浏览器访问图形交互界面,服务器端可以运行于容器中。

MLFlow机器学习系统

MLFlow是基于Python开发的DAG数据工作流框架,主要面向机器学习,支持Spark并行环境和Kubernetes容器集群。

KubeFlow机器学习系统

Kubeflow是面向机器学习的数据流批处理框架,原生支持Kubernetes集群环境,支持多种机器学习引擎,内置JupyterHub的交互式数据分析环境。

JupyterHub/JupyterLab

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!