Lustre

嘉楠科技:云上的AI芯片设计之旅

人盡茶涼 提交于 2020-12-04 23:45:41
嘉楠科技成立于2013年,同年发布了全球首款基于ASIC芯片的区块链计算设备,引领行业进入ASIC时代,自此逐步积累了丰富的芯片量产经验。 2016年,16nm产品量产标志着嘉楠科技成为中国大陆地区先进制程首个阵营的公司。2018年至今,嘉楠科技相继实现全球首个基于自研的7nm芯片量产,以及量产基于RISC-V自研商用边缘智能计算芯片勘智K210。其中,作为AI神经网络加速器的KPU完全依托于自主研发。 目前,嘉楠科技已实现月均上千万颗芯片的量产,产品和服务遍布全球60多个国家和地区,在美国、加拿大、瑞典、冰岛、波黑、马来西亚、韩国、俄罗斯、亚美尼亚和香港等国家和地区均建立了良好的客户群基础。 未来,嘉楠科技将在芯片研发和高性能计算的基础上,协同业务伙伴推动AI在各领域的普惠化进程,通过AI让生活更美好。 面临的挑战 随着半导体制程工艺的逐步演进,现代芯片设计行业越来越依赖于各种各样的电子设计自动化(EDA, Electronic Design Automation)工具软件来辅助设计人员工作。但是在真实的生产实践中,嘉楠科技发现这些设计工具软件对于企业IT基础设施的要求近乎苛刻。如果投入大量人力物力自建数据中心尝试解决这些问题,往往会带来设计工作之外的额外负担。 首先,在芯片设计的不同阶段,设计人员需要用到不同的工具软件,但是不同的工具软件对于IT基础设施的特性要求不尽相同

如何用Amazon SageMaker 做分布式 TensorFlow 训练?(千元亚马逊羊毛可薅)

人走茶凉 提交于 2020-08-07 08:07:08
机器之心转载,来源:AWS官方博客,作者:Ajay Vohra。 TensorFlow 是广泛被用于开发大型深度神经网络 (DNN) 的开放源机器学习 (ML) 库,此类 DNN 需要分布式训练,并且在多个主机上使用多个 GPU。Amazon SageMaker 是一项托管服务,可通过主动学习、超参数优化、模型分布式训练、监控训练进展,部署培训模型作为自动扩展的 RESTful 服务,以及对并发 ML 实验进行集中式管理,从标签数据开始简化 ML 工作流。 本文将重点讨论使用 Amazon SageMaker 进行分布式 TensorFlow 训练。 概念概述 尽管本文中的许多分布式训练概念通常适用于多种类型的 TensorFlow 模型,但本文着重要介绍的是在 Common Object in Context (COCO) 2017 数据集上对 Mask R-CNN 模型进行的分布式 TensorFlow 训练。 模型 Mask R-CNN 模型用于对象实例分割,其中模型生成像素级掩膜(Sigmoid 二进制分类)和以对象类别(SoftMax 分类)注释的目标框(Smooth L1 回归)描绘图像中的每个对象实例。Mask R-CNN 的一些常见用例包括:自动驾驶汽车的感知、表面缺陷检测和地理空间图像分析。 文中选择 Mask R-CNN 模型的关键原因有三个: 大型数据集上的

争议 | HDFS、Ceph、GFS、GPFS、Swift、Lustre……容器云选择哪种分布式存储更好?

核能气质少年 提交于 2020-02-27 22:53:33
容器云在使用分布式存储时,HDFS、CEPH、GFS、GPFS、Swift等分布式存储哪种更好? 公司在进行容器云技术选型,想了解相应的分布式存储如何匹配,HDFS、CEPH、GFS、GPFS、Swift等分布式存储,采用哪种更好,主要场景是容器存储应用日志、配置文件、非结构化数据文件等。 问题来自@yin986 某保险软件架构设计师,下文来自twt社区众多同行实践经验分享。 @Steven99 软件架构设计师: 日志文件随着时间会是个很大的量,所以建议考虑统一的日志中心存储处理,可以用es等,备份到hdfs。 配置文件在量上通常不是个问题,可以考虑配置中心统一管理,无需额外存储。 非结构化数据通常是大量的文件,可以采用传统nas或分布式对象存储,当然资金充裕可以采购好的存储,存储性能很重要,根据业务重要程度选择不同的存储。 @Garyy 某保险系统工程师: 容器存储的持久化,对于有状态数据的容器使用场景来说至关重要。因此,在技术选型的时候,需要明确存储的具体需求。存储按照数据类型来分,可以分为块存储,对象存储,文件存储。我们传统的环境中,使用最多的还是块存储和文件存储。随着IT的更新换代,现在对于对象存储(非结构化数据)的需求日益旺盛,对象存储在对一些Key-Value型数据的存储有着天然的优势,再加上其分布式,副本/纠删码等可以匹配传统存储的特性,日益成为温数据