ElasticDL

Kubernetes v1.16 发布 | 云原生生态周报 Vol. 20

隐身守侯 提交于 2021-01-07 04:56:57
作者:心贵、进超、元毅、心水、衷源、洗兵 业界要闻 Kubernetes v1.16 发布 在这次发布中值得关注的一些特性和 Feature: CRD 正式进入 GA 阶段; Admission Webhook 正式进入 GA 阶段; CSI 和 Volume 的一系列增强和修复。 蚂蚁金服开源 ElasticDL 项目 9 月 11 日,蚂蚁金服在 2019 谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。ElasticDL 实现了容错和弹性调度的分布式深度学习,可以极大提升集群的总体利用率,同时显著减少用户提交作业之后等待作业启动的时间(pending time)。 Oracle 宣布永久免费一部分云计算服务 Oracle CEO Larry Ellison 在 OpenWorld 大会上宣布推出了 Oracle Cloud Free Tier ,大小型公司和组织、开发人员、学生和教育工作者都可以构建、学习和探索 Oracle 自治数据库和 Oracle 云基础架构的全部功能。 这次推出的 Oracle Cloud Free Tier(免费套餐计划)共有两个组成部分,分别是免费试用计划和永久性免费云服务。 上游重要进展 Kubernetes 项目 修复 API Server 访问 Webhook

支付宝研究员王益的建议:“学好语文,才能写好代码”

一个人想着一个人 提交于 2020-08-10 12:26:17
简介: 王益,蚂蚁集团研究员,开源项目SQLFlow 和 ElasticDL 的负责人。他从10岁开始写代码。曾经用自己焊接的电路板扩展“中华学习机”来把自家的老式“威力牌”双筒洗衣机改造成了自动洗衣机;用Apple BASIC语言和6502汇编混合编程写了人生中第一个游戏;高中自学了大学所有计算机课程,参加计算机水平测试,先后获得了“程序员”、“高级程序员”、“系统分析员”认证。王益从事 AI 基础架构工作十三年,先后在全球多家顶级互联网公司任职,亦曾在硅谷和北京两地创业。 王益,蚂蚁集团研究员,开源项目SQLFlow 和 ElasticDL 的负责人。他从10岁开始写代码。曾经用自己焊接的电路板扩展“中华学习机”来把自家的老式“威力牌”双筒洗衣机改造成了自动洗衣机;用Apple BASIC语言和6502汇编混合编程写了人生中第一个游戏;高中自学了大学所有计算机课程,参加计算机水平测试,先后获得了“程序员”、“高级程序员”、“系统分析员”认证。王益从事 AI 基础架构工作十三年,先后在全球多家顶级互联网公司任职,亦曾在硅谷和北京两地创业。 王益还是知名开源项目SQLFlow、ElasticDL的负责人,虽已“高龄”,但仍对代码充满热爱,并经常写代码。以下是他的观点: 和每个程序员一样,我的十三年职业生涯里,每一天都在和 code review、design doc、bug

ElasticDL: Kubernetes-native 弹性分布式深度学习系统

徘徊边缘 提交于 2020-03-02 04:44:45
9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系统,据我们所知,ElasticDL 是第一 个。项目负责人王益和我们分享了 ElasticDL 项目的设计意图和现状,尤其是 ElasticDL 与 TensorFlow 2.0 以及 Kubernetes 的技术关联。 分布式深度学习的技术思路 基于 TensorFlow 的分布式训练系统大致可以分为以下四类: 其中,ElasticDL 位于田字格的右上角。之所以选择这条技术思路,是为了利用 Kubernetes 实现容错和弹性调度。 高性能计算和云计算 在深度学习技术研发的早期,涉及的人员相对少,共用一个计算集群的人相对少, 计算作业之间的协调可以通过口头交流实现。大家更关心缩短运行时间,也就是 从作业启动到结束的这段时间。高性能计算技术(HPC)是解决这个问题的有效 途径,比如 NVIDIA 的 cuBLAS 和 cuDNN 优化高性能数学计算、NCCL 优化 GPU 之间的通信效率。 随着深度学习技术的大规模使用,很多工程师和研究员共用一个集群,通过商量 来协调调度显然不可行了

ElasticDL:蚂蚁金服开源基于 TensorFlow 的弹性分布式深度学习系统

旧城冷巷雨未停 提交于 2020-03-02 04:21:51
9 月 11 日,蚂蚁金服在2019谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。 开源地址为: https://github.com/sql-machine-learning/elasticdl/ 开源中国采访了 ElasticDL 项目负责人王益,对该深度学习系统的技术细节进行了全面介绍。 基于 TensorFlow 2.0 和 Kubernetes实现弹性深度学习 这个基于 Eager Execution 模式的开源项目名为“ElasticDL”,它是一个Kubernetes 原生深度学习框架,根据介绍,ElasticDL 主要有四大特点: 容错性 弹性调度 易用性 高效 其中又以容错与弹性调度特性最具特色。 ElasticDL 实现了容错和弹性调度的分布式深度学习,可以极大提升集群的总体利用率,同时显著减少用户提交作业之后等待作业启动的时间(pending time)。 王益介绍:“ElasticDL 是我们知道的第一个基于 TensorFlow 实现弹性深度学习的开源系统。具体地说,ElasticDL 是基于 TensorFlow 2.0 和 Kubernetes 实现弹性深度学习的。” 集群效用从 1/N 到 N/N 在深度学习技术研发的早期,公用一个计算集群的人相对少,

Kubernetes v1.16 发布 | 云原生生态周报 Vol. 20

六月ゝ 毕业季﹏ 提交于 2019-11-30 03:48:05
作者:心贵、进超、元毅、心水、衷源、洗兵 业界要闻 Kubernetes v1.16 发布 在这次发布中值得关注的一些特性和 Feature: CRD 正式进入 GA 阶段; Admission Webhook 正式进入 GA 阶段; CSI 和 Volume 的一系列增强和修复。 蚂蚁金服开源 ElasticDL 项目 9 月 11 日,蚂蚁金服在 2019 谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。ElasticDL 实现了容错和弹性调度的分布式深度学习,可以极大提升集群的总体利用率,同时显著减少用户提交作业之后等待作业启动的时间(pending time)。 Oracle 宣布永久免费一部分云计算服务 Oracle CEO Larry Ellison 在 OpenWorld 大会上宣布推出了 Oracle Cloud Free Tier ,大小型公司和组织、开发人员、学生和教育工作者都可以构建、学习和探索 Oracle 自治数据库和 Oracle 云基础架构的全部功能。 这次推出的 Oracle Cloud Free Tier(免费套餐计划)共有两个组成部分,分别是免费试用计划和永久性免费云服务。 上游重要进展 Kubernetes 项目 修复 API Server 访问 Webhook

ElasticDL:蚂蚁金服开源基于 TensorFlow 的弹性分布式深度学习系统

て烟熏妆下的殇ゞ 提交于 2019-11-29 19:22:49
9 月 11 日,蚂蚁金服在2019谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。 开源地址为: https://github.com/sql-machine-learning/elasticdl/ 开源中国采访了 ElasticDL 项目负责人王益,对该深度学习系统的技术细节进行了全面介绍。 基于 TensorFlow 2.0 和 Kubernetes实现弹性深度学习 这个基于 Eager Execution 模式的开源项目名为“ElasticDL”,它是一个Kubernetes 原生深度学习框架,根据介绍,ElasticDL 主要有四大特点: 容错性 弹性调度 易用性 高效 其中又以容错与弹性调度特性最具特色。 ElasticDL 实现了容错和弹性调度的分布式深度学习,可以极大提升集群的总体利用率,同时显著减少用户提交作业之后等待作业启动的时间(pending time)。 王益介绍:“ElasticDL 是我们知道的第一个基于 TensorFlow 实现弹性深度学习的开源系统。具体地说,ElasticDL 是基于 TensorFlow 2.0 和 Kubernetes 实现弹性深度学习的。” 集群效用从 1/N 到 N/N 在深度学习技术研发的早期,公用一个计算集群的人相对少,

ElasticDL: Kubernetes-native 弹性分布式深度学习系统

泄露秘密 提交于 2019-11-29 19:07:15
9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系统,据我们所知,ElasticDL 是第一 个。项目负责人王益和我们分享了 ElasticDL 项目的设计意图和现状,尤其是 ElasticDL 与 TensorFlow 2.0 以及 Kubernetes 的技术关联。 分布式深度学习的技术思路 基于 TensorFlow 的分布式训练系统大致可以分为以下四类: 其中,ElasticDL 位于田字格的右上角。之所以选择这条技术思路,是为了利用 Kubernetes 实现容错和弹性调度。 高性能计算和云计算 在深度学习技术研发的早期,涉及的人员相对少,共用一个计算集群的人相对少, 计算作业之间的协调可以通过口头交流实现。大家更关心缩短运行时间,也就是 从作业启动到结束的这段时间。高性能计算技术(HPC)是解决这个问题的有效 途径,比如 NVIDIA 的 cuBLAS 和 cuDNN 优化高性能数学计算、NCCL 优化 GPU 之间的通信效率。 随着深度学习技术的大规模使用,很多工程师和研究员共用一个集群,通过商量 来协调调度显然不可行了

当金融科技遇上云原生,蚂蚁金服是怎么做安全架构的?

三世轮回 提交于 2019-11-27 05:48:32
蚂蚁金服在过去十五年重塑支付改变生活,为全球超过十二亿人提供服务,这些背后离不开技术的支撑。在 2019 杭州云栖大会上,蚂蚁金服将十五年来的技术沉淀,以及面向未来的金融技术创新和参会者分享。我们将其中的优秀演讲整理成文并将陆续发布在“ 金融级分布式架构 ”公众号上,本文为其中一篇。 本文作者:何征宇,gVisor 创始人,蚂蚁金服研究员 在云原生发展趋势之下,金融行业想要应用云原生技术,安全问题是一个非常大的拦路虎,而云原生社区对安全问题的重视程度远远不够。蚂蚁金服在落地云原生的时候,解决安全问题是重中之重,经过探索与实践,我们沉淀出了一套从底层硬件到软件、从系统到应用层的全链路金融级云原生安全架构。 金融行业最重要的就是信任,我们认为, 安全所带来的信任,是一种无形的产品,支撑着所有金融业务 。 顺应互联网时代发展,金融行业与机构也发生了很多的变化,包括 App、小程序等更多的访问渠道,更快的业务变化,更多的第三方供应商。但是,不管怎么变化,金融行业有一点始终不变,那就是 Zero Fault,对错误的零容忍,也就是对稳定性和安全性的极高要求。 这里,我还想澄清大家对金融行业的一个错误看法,就是,大家都说金融机构有很多遗留系统,很多技术是十几年前的,就认为金融机构的技术是落后的。但其实,金融行业一直是科技含量非常高的。前段时间有一部电影上映,叫《蜂鸟计划》,根据真实事件改编