kubeflow

kubeflow ParallelFor using the previous containerop output

徘徊边缘 提交于 2020-01-25 10:10:40
问题 I can create a static for loop using with dsl.ParallelFor([1,2,3]) as item: .... How can I use a container_op.output as an input to ParallelFor ? Assume the first container outputs an integer n , and then I want to run ParallelFor n times. Attempts like this does not work: container_op = ContainerOp(...) with dsl.ParallelFor(container_op.output) as item: .... I'm trying to stimulate a parallel python range(n) function. 回答1: The change to suport withItem (static looping) and withParams

Call For Contributor!送价值¥2048华为开发者大会(2020)门票

强颜欢笑 提交于 2020-01-06 16:59:34
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 关于华为开发者大会(HDC 2020) 华为开发者大会2020(Cloud)将于2020年2月11日-12日在深圳举办,这是华为面向ICT(信息与通信)领域全球开发者的年度顶级旗舰活动。大会旨在搭建一个全球性的交流和实践平台,开放华为30年积累的ICT技术和能力,以“鲲鹏+昇腾”硬核双引擎,为开发者提供澎湃动力,改变世界,变不可能为可能。 **本次大会设有两场主题演讲、数十个Codelab、上百场技术论坛、30000+平米展区、15000+开发者、2000+合作伙伴、热门开源项目、创新大赛、初创公司与投资者对接会、黑客松、音乐节等活动,面向企业开发者、初创公司、学生等群体提供个性化内容体验。**我们期待与你在一起,梦飞扬! 大会官网: 华为开发者大会HDC.Cloud-华为云 贡献者活动介绍 **此次贡献者活动将送出20张价值¥2048的华为开发者大会(2020)门票,只要参与社区贡献就有机会获得门票。**这里提到的社区贡献不仅仅是指贡献代码, 您能想到的任何方式例如提交代码修改、发掘Bug、代码review、提交文档修改、提交Issue、发表博客、完善测试用例、反馈需求、增加使用案例等都属于社区贡献。 参与活动的项目包括:KubeEdge、Volcano。 活动规则 鉴于本次活动接受多种贡献方式

kubeflow系列(二):kubeflow组件剖析大全

元气小坏坏 提交于 2020-01-06 15:37:15
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> kubeflow作为基于云原生的机器学习大礼包,即可以作为一个很好的云原生的学习例子,同时基于k8s的生态必将是未来的发展的方向,相信后续Mxnet、paddle等各类型技术框架也都会运行在kubernetes这个生态之上。 为了对kubeflow有个更直观深入的了解,对kubeflow的各组件进行简单的介绍,先从机器学习任务来看kubeflow的的实现。 机器学习任务工程化实现流程 一个建模任务下来主要可以分为四大块任务 业务理解(Business Understanding) 数据获取及数据理解(Data Acquistition) 特征处理(Feature Engineering)、建模与模型训练(Model Training)、模型评估(Model Evaluation) 模型部署(Deployment),提供模型服务 一个机器学习任务从开始到结束主要分为了四大任务,Kubeflow的各项功能可以说就是围绕这四项任务构建的。 kubeflow kubeflow 最开始基于tf-operator,后来随着项目发展最后变成一个基于云原生构建的机器学习任务工具大集合。从数据采集,验证,到模型训练和服务发布,几乎所有步骤的小组件 Kubeflow 都提供解决方案的组件: kubeflow特点: 基于k8s

基于国内阿里云镜像解决kubeflow一键安装

筅森魡賤 提交于 2019-12-26 16:09:33
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 简介: google出品在国内都存在墙的问题,而kubeflow作为云原生的机器学习套件对团队的帮助很大,对于无翻墙条件的团队,基于国内镜像搭建kubeflow可以帮助大家解决不少麻烦,这里给大家提供一套基于国内阿里云镜像的kubeflow 0.6的安装方案。 环境准备 kubeflow 为环境要求很高,看官方要求: at least one worker node with a minimum of: 4 CPU 50 GB storage 12 GB memory 当然,没达到也能安装,不过在后面使用中会出现资源问题,因为这是整包安装方案。 一个已经安装好的kubernetes集群,这里我采用的是rancher安装的集群。 sudo docker run -d --restart=unless-stopped -p 80:80 -p 443:443 rancher/rancher 这里我选择的是k8s的1.14版本,kubeflow和k8s之间的版本兼容可以查看 官网说明 ,这里我的kubeflow采用了0.6版本。 如果直接想安装可以直接调到 kubeflow一键安装部分 kustomize 下载kustomize文件 官方的教程是用 kfclt 安装的,kfclt 本质上是使用了 kustomize

Distributed Tensorflow in Kubeflow - NotFoundError

蓝咒 提交于 2019-12-24 18:44:58
问题 I follow the tutorial for building kubeflow on GCP. At the last step, after deploying the code and training with CPU. kustomize build . |kubectl apply -f - The distributed tensorflow encounter this issue tensorflow.python.framework.errors_impl.NotFoundError: /tmp/tmprIn1Il/model.ckpt-1_temp_a890dac1971040119aba4921dd5f631a; No such file or directory [[Node: save/SaveV2 = SaveV2[dtypes=[DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_INT64], _device="/job:ps

Kubeflow 入门——为 Kubernetes 打造的组件化、可移植、可扩展的机器学习堆栈

扶醉桌前 提交于 2019-11-29 04:51:39
【编者的话】本文来自 Kubeflow 项目的产品经理 David Aronchick 和首席工程师 Jeremy Lewi,主要讲了他们新的开源项目——Kubeflow 的一些入门知识,Kubeflow 致力于使 Kubernetes 上的机器学习堆栈变得简单,快速及可扩展。 Kubernetes 已经迅速成长为部署复杂工作负载的混合解决方案。 虽然提供的只是无状态服务,但客户已经开始将复杂的工作负载转移到Kubernetes 平台上,并充分利用了 Kubernetes 提供的丰富API、可靠性以及良好的性能。其中增长最快的用途之一是使用 Kubernetes 作为机器学习的部署平台。 构建一套生产环境下的机器学习系统需要涉及各种组件,通常需要使用混合供应商并结合自研的解决方案。使用相对复杂的配置来连接和管理这些服务,给学习机器学习带来了巨大障碍。基础设施工程师通常会花费大量时间手动部署,然后才能测试一个模型。 更糟糕的是,上述部署与他们部署的集群紧密相关,这些堆栈是不可移植的,这意味着在没有进行重大重新架构的情况下,将模型从笔记本电脑迁移到高度可扩展的云端集群实际上是不可能的。所有这些差异都会浪费极大的精力,并且每次转换都可能会引入 bug。 Kubeflow 入门 为了解决这些问题,我们决定创建 Kubeflow 项目,一个新的开源 Github repo,致力于在

Kubeflow镜像的快速下载(V0.3.3)

余生长醉 提交于 2019-11-29 04:51:23
Kubeflow是一个面向Kubernetes集群运行的机器学习框架。要想使用得先想办法把镜像搬到自己的环境里来。 目前版本0.3.3的容器镜像已经搬回来,可以使用下面的脚本来从Aliyun的镜像服务站下载: Kubeflow系统容器镜像(0.3.3): echo "" echo "=================================================================" echo "Pull kubeflow images for system from aliyun.com ..." echo "This tools created by openthings, NO WARANTY. 2018.11.28." echo "=================================================================" MY_REGISTRY=registry.cn-hangzhou.aliyuncs.com/openthings echo "" echo "1. centraldashboard" docker pull ${MY_REGISTRY}/kubeflow-images-public-centraldashboard:v0.2.1 docker tag ${MY_REGISTRY}

AirFlow/NiFi/MLFlow/KubeFlow进展

╄→гoц情女王★ 提交于 2019-11-29 04:51:10
大数据分析中,进行流程化的批处理是必不可少的。传统的大数据处理大部分是基于关系数据库系统,难以实现大规模扩展;主流的基于Hadoop/Spark体系总体性能较强,但使用复杂、扩展能力弱。大数据分析向Kubernnetes等容器集群发展是大势所趋,AirFlow、NiFi、MLFlow、KubeFlow就是可以用于这些方向的新兴开源软件平台,可以充分容器集群和DevOps、云计算的优势,而且将传统的大量数据处理和机器学习等先进算法能够实现有机的结合。 AirFlow数据流程化处理系统 AirFlow是可编程的DAG流程框架,主要通过Python执行。最新版本通过Executor机制支持Kubernetes集群作为执行环境,从而可以将大量数据处理的流程在容器云中进行迁移。 Airflow在Kubernetes上的操作器 AirFlow-Tutorial AirFlow-Install Notebook Workflows: The Easiest Way to Implement Apache Spark Pipelines NiFi可视化数据流处理系统 通过可视化的方法编辑流程,并在线运行,支持后台监控、任务调度、执行器扩展等能力。NiFi采用Java和HTML开发,通过Web浏览器访问图形交互界面,服务器端可以运行于容器中。 NiFi ( https://nifi.apache

Kubeflow等镜像部署到集群多节点

柔情痞子 提交于 2019-11-27 20:16:53
为了将Kubeflow( https://github.com/kubeflow/kubeflow )/Kubernetes等镜像放到本地集群部署或者更新,需要一系列的操作。如果集群的多个节点同时访问外部镜像服务,将带来较大的并发网络流量,不仅速度慢、而且费用增加。因此我将其分为两个阶段来进行,第一阶段将镜像下载到本地,第二阶段各个节点从本地文件系统或镜像服务来获取镜像的拷贝。 1、从 gcr到本地存储 这一阶段其实也分为两个步骤。 首先,从能够访问到gcr的站点( https://www.katacoda.com )下载。如: echo "" echo "=================================================================" echo "pull kubeflow images for system from gcr.io and hub.docker.com..." echo "This tools created by openthings, NO WARANTY. 2018.07.10." echo "=================================================================" echo "" echo "1. centraldashboard"