MXNet

《阿里云飞天AI加速器+Serverless容器,帮助图森未来提升资源利用率》

有些话、适合烂在心里 提交于 2020-11-28 09:32:02
简介: 今年年初,图森未来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技聚集剧集《The Age of A.I.》(《AI时代》),在剧中不仅顺利完成无人驾驶的行驶任务,还与围追堵截的摄像车“斗智斗勇”,在摄像车各种找拍摄角度的情况下,自动自我调整,化险为夷,避让既礼貌又安全! 图森未来(TuSimple)成立于2015年,是一家专注于L4级无人驾驶卡车技术研发与应用的人工智能企业,已经实现卡车在干线物流场景和半封闭枢纽场景下的无人干预驾驶。图森未来品牌旗下产品——图森未来 L4 级别无人驾驶卡车能够实现环境感知、定位导航、决策控制等自动驾驶核心功能,可应用于高速公路货运和港内集装箱码头运输及其相似场景。 公司于2019年9月完成总额2.15亿美元D轮融资,资方:UPS、鼎晖资本、万都中国、累计融资超过3亿美元,最新估值超过12亿美元,是卡车无人驾驶头部企业,也是全球第一家无人驾驶卡车独角兽企业。 图森未来的业务主要在美国和国内两地展开,在美国主要是高速公路干路货运场景,国内业务开始以连接枢纽场景的干线物流货运为主。 在美国,图森未来已经向包括UPS、USPS、McLane、U.S. Xpress在内的18家客户提供无人驾驶物流服务。 今年年初,图森未来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技聚集剧集《The Age of A.I.》(

AI性能最高提升20倍 阿里云新一代GPU云服务器亮相 搭载NVIDIA A100

南楼画角 提交于 2020-11-17 14:11:26
近日,阿里云异构计算宣布上线gn7 GPU系列云服务器,即日起开放售卖。gn7系列实例是阿里云新一代GPU计算实例,主要面向AI训练和高性能计算应用。该产品基于NVIDIA A100 Tensor Core GPU打造,云服务器中的8块A100 GPU以NVIDIA NVSwitch实现了GPU之间的NVLink直接通信。 结合最新支持的Tensor Core加速能力,阿里云gn7云服务器最高可让AI最佳性能提升20倍,高性能计算速度提升2.5倍,单卡最高支持19.5TFlops(FP64)、156TFlops (TF32)、312 TFlops(FP16 混合精度)的运算。对于大模型训练的场景,阿里云自研的神龙AI加速引擎AIACC可以通过优化多GPU训练通信效率,进一步提升多GPU和多机并行训练的加速比,为AI研发过程节省更多的时间和成本。 第一批上线的产品为效率最高的阿里云神龙裸金属实例ebmgn7, 用户可直接获得一台完整的配置有Intel 2代Xeon Scalable 52核CPU、768G系统内存和由 NVSwitch互联的8颗A100 的GPU服务器主机。 随着人工智能的不断发展,深度学习的训练模型越来越庞大和复杂,训练模型需要的算力也在快速增长。针对AI训练和高性能计算的算力需求,NVIDIA于今年5月推出了 A100 GPU。NVIDIA A100

Mxnet (44): 使用神经协作过滤(NeuMF模型)进行个性化排名

ⅰ亾dé卋堺 提交于 2020-10-14 22:41:59
1.个性化排名 前面对电影数据集的处理只考虑了明确的反馈,通过观察到的等级进行了训练和测试。这种方法有两个缺点: 在实际应用中,大多数的反馈都是隐式的,显式的反馈往往需要更高的收集成本。 未被观察的哪些用户-项目交互可能用于预测用户的喜好但是被忽略了,当这些缺失不是随机导致的而是由于用户的喜好导致的这些方法将不在适用。很显然,未观测的这些用户-项目对是用户真实的负反馈(用户对这些不感兴趣才没看)和缺失值(正常随机的缺失,跟喜好无关,将来有可能会看)的结合体。如果简单的忽略其实是不对的。 为了解决这个问题,针对从隐式反馈生成排名推荐列表的一类推荐模型已获得普及。通常, 可以使用逐点、逐对以及逐列的方法优化个性化排名模型。逐点方法一次只考虑一次交互,并训练分类器或回归器来预测个人偏好。矩阵分解和AutoRec使用逐点目标进行了优化。 逐对方法为每一个用户考虑一对项目并且致力于为这对项目最优排序。通常, 逐对方法更适合于排序任务,因为预测一对的顺序会使人联想到排序。逐列方法将整列的项目近似排序, 如直接优化排名指标:Normalized Discounted Cumulative Gain ( NDCG )。然而, 列表方法比点方法或成对方法更加复杂且计算量大。 1.1 贝叶斯个性化排序 贝叶斯个性化排序(BPR)是从最大后验估计量得出的成对个性化排序损失

Mxnet (40): 注意力机制自然语言推理(SNLI)数据集

房东的猫 提交于 2020-10-12 08:33:15
自然语言推理是通过已知的前提文本来确定能否推断目的文本。也就是说,自然语言推理用于确定一对文本序列之间的关系: 蕴含 : 可以通过前提推断出假设。 矛盾 : 可以推断出与假设相反。 中立 : 所有其他情况。 自然语言推理也可以理解为识别文本的蕴含的任务。 For example, 下面一对文本可以使用 蕴含物 进行标注因为 假设中的"显示出喜欢"可以通过前提中的 "相互拥抱"中推断出来。 前提: 两个女人互相拥抱。 假设: 两个女人显示出喜欢。 下面是一个展示矛盾的例子,“运行编码示例”表示“没有睡觉”而不是“睡觉了”。 前提:一个男人正在运行 《Dive into Deep Learning》的编码示例。 假设: 这个男人正在睡觉。 下面的例子展示 中立 关系,因为从给我们演奏并看不出有不有名。 前提: 音乐家们正在为我们演奏。 假设: 音乐家们都很有名。 自然语言推理一直是理解自然语言的中心主题。它具有从信息检索到开放域问题解答的广泛应用。为了研究这个问题,我们将从研究一种流行的自然语言推理基准数据集开始。 1. 斯坦福大学自然语言推理(SNLI)数据集 斯坦福自然语言推理(SNLI)语料库是 500,000 标记为英语的句子对。下载数据集到本地。 import collections from d2l import mxnet as d2l from mxnet import

Mxnet (39): 上下文敏感的nlp模型:BERT

99封情书 提交于 2020-10-12 01:43:58
word2vec和GloVe之类的词嵌入模型是与上下文无关。他们将相同的预训练向量分配给相同的单词,而不管该单词的上下文(如果有)。他们很难用自然语言处理好多义性或复杂的语义。这种上下文无关的很有局限性,因此出现了很多上下文敏感的模型,ELMo为其中之一。 ELMo将来自预训练的双向LSTM的所有中间层表示形式组合为输出表示形式,然后ELMo表示将作为附加功能添加到下游任务的现有模型中。虽然这解决了上下文无感的问题,但是解决的方案取决与特定的任务体系。但是,为每个自然语言任务设计特定的体系比价困难。为此GPT模型设计为用于上下文相关且非任务确定的通用模型。GPT建立在Transformer解码器上,可以预训练将用于表示文本序列的语言模型。当将GPT应用于下游任务时,语言模型的输出将被馈送到添加的线性输出层中,以预测任务的标签。但是由于模型具有自回归特征,只能向前看(从左到右),在“我去银行存钱”和“我去银行坐下”的情况下,由于“银行”对左侧的上下文很敏感,因此GPT将为“银行”返回相同的表示形式有不同的含义。 ELMo双向编码上下文,GPT与任务无关。BERT吸取了二者的有点,可以双向编码上下文,使用预训练的Transformer编码器,BERT可以基于其双向上下文表示任何token。下图展示了三者的差异: 用于下游任务的监督学习时: BERT表示将被输入到一个附加的输出层中

技术债务的高息信用卡:深入了解那些知名的端到端机器学习平台

拜拜、爱过 提交于 2020-10-07 01:00:25
本文转载自公众号“读芯术”(ID:AI_Discovery)。 机器学习(ML)被称为技术债务的高利率信用卡。对于特定的业务问题,使用适用的模型会相对容易一些,但是要使该模型在可伸缩的生产环境中运行,并能够处理不断变化的混乱数据语义和关系,以及以可靠的自动化方式演进模式,则完全是另一回事。 对于机器学习生产系统而言,只有5%的实际代码是模型本身。将一组机器学习解决方案转变为端到端的机器学习平台的,是一种运用了加速建模、自动化部署和确保生产中的可伸缩性和可靠性的技术的架构。 笔者此前讲过lean D/MLOps,数据和机器学习操作,因为没有数据的机器学习操作是没有意义的,所以端到端机器学习平台需要进行整体构建。CI/CD基金会启动了一个MLOps特别兴趣小组(SIG)。其端到端机器学习平台确定的步骤如下图所示: 不过,其中掩盖了一些不太重要的细节。例如,服务可能需要不同的技术取决于它是否是实时完成的。可伸缩的解决方案通常将模型放在一个负载均衡器后的服务集群的多个机器上的容器内运行。因此,上述图表中的单个框并不意味着实际平台的单个步骤、容器或组件。 这并不是对图中步骤进行批评,而是一个警示:看似简单的事情在实践中可能并不那么容易。 图表中没有模型(配置)管理。可以考虑诸如版本控制、实验管理、运行时统计、用于培训、测试和验证数据集的数据沿袭跟踪,从头开始或从模型快照、超参数值

动手学深度学习源码 & CVPR / ECCV 2020开源代码

放肆的年华 提交于 2020-10-05 13:55:21
动手学深度学习其源码分别包括Pytorch、TensorFlow、MxNet框架的代码,十分方便学习深度学习在不同框架下的实现。面向中文读者的能运行、可讨论的深度学习,它将文字、公式、图像、代码和运行结果结合在一起。全面介绍深度学习从模型构造到模型训练,以及它们在计算机视觉和自然语言处理中的应用。 每一小节都是可以运行的 Jupyter 记事本 你可以自由修改代码和超参数来获取及时反馈,从而积累深度学习的实战经验。 公式 + 图示 + 代码 我们不仅结合文字、公式和图示来阐明深度学习里常用的模型和算法,还提供代码来演示如何从零开始实现它们,并使用真实数据来提供一个交互式的学习体验。 活跃社区支持 你可以通过每个章节最后的链接来同社区的数千名小伙伴一起讨论学习。 被用作教材或参考书 北京大学 复旦大学 哈尔滨工业大学 清华大学 上海财经大学 上海交通大学 浙江大学 中国科学技术大学 Carnegie Mellon University(美国) Emory University(美国) Gazi Üniversitesi(土耳其) Georgia Institute of Technology(美国) Habib University(巴基斯坦) Hasso-Plattner-Institut(德国) Hiroshima University(日本) Imperial College

Mxnet (32): 迁移学习(Fine-Tuning)进行热狗识别

浪子不回头ぞ 提交于 2020-10-04 09:51:50
总所周知,对于训练模型,一定是数据量越大准去率越高,同时越难以过拟合,泛化能力更强。一些模型训练的数据太少,当应用的时候输入的数据范围又太大,导致最终训练的模型的准确性可能无法满足实际需求。 为了解决上面的问题,一个方法就是获取更多的数据,但是获取数据是一个比较浪费金钱以及时间的事情。另一个方法就是通过迁移学习,将学习到的知识从源数据集迁移到目标数据集。比如,ImageNet中的图像大部分与椅子无关,但是在此数据集上训练的模型可以提取更通用的图像特征,这些特征可以帮助识别边缘,纹理,形状以及对象组成。这些特性可能对椅子同样有效。 本篇使用迁移学习中的一种常见技术:Fine-Tuning: 在源数据集上训练模型(源模型)。 创建一个新的模型,即目标模型。目标模型复制所有源模型中的结构以及参数。可以认为源模型参数中包含了从源数据集中学到的知识,并且将这些知识应用与目标数据集。 将满足目标数据集的输出层添加到目标模型上,并初始话输出层的参数。 使用目标数据在组装之后的模型上训练。从头开始训练输出层,而且它层的参数根据源模型参数进行微调。 Fine-Tuning实战:热狗识别 通过热狗识别的例子了解Fine-Tuning的用法。这里使用基于ImageNet数据集上训练的ResNet模型进行微调。这个热狗数据集包含千张图片,其中包含一些热狗的图片。通过微调而来的模型来识别图片中是否含有热狗。

Mxnet (29): AdaGrad算法

元气小坏坏 提交于 2020-10-03 10:51:46
1. 稀疏特征和学习率 在模型训练中会有稀疏特征(很少发生的特征),在自然语言模型中常见,比如,与 “学习”相比“预处理”更加少见。同时在其他领域也会用到,例如计算广告和个性化的协同过滤。因为只有少数人感兴趣的事情很多。长尾经济很受用。 在学习率下降的情况下,我们可能最终会遇到以下情况:常见特征的参数收敛到其最佳值相当快,而对于罕见特征,在确定最佳值之前,我们仍然缺乏足够频繁地观察它们的情况。换句话说,对于频繁使用的功能,学习率降低得太慢,对于不频繁使用的功能,学习率降低得太快。 解决此问题的一种可行方法是计算我们看到特定功能的次数,并将其用作调整学习率调度器。 2.AdaGrad算法 AdaGrad算法会使用一个小批量随机梯度 g t g_t g t ​ 通过 s t s_t s t ​ 累计过去梯度的方差: g t = ∂ w l ( y t , f ( x t , w ) ) , s t = s t − 1 + g t 2 , w t = w t − 1 − η s t + ϵ ⋅ g t . \begin{aligned} \mathbf{g}_t & = \partial_{\mathbf{w}} l(y_t, f(\mathbf{x}_t, \mathbf{w})), \\ \mathbf{s}_t & = \mathbf{s}_{t-1} + \mathbf{g}_t