最近英伟达发布了最新GPU-A100，当我们先后经历了K系列、M系列、P系列、V系列之后，这一次的A系列发布又会带来哪些影响，未来行业的走势如何，新入行的同学究竟选择哪个领域入门比较合适。今天我将从3个方向为大家一一剖析，

计算力变强了，会给行业带来什么影响
计算力变便宜了，会给行业带来什么影响
英伟达的野心在哪里，对行业有什么影响

1 计算力变强的影响

这次新的GPU在算力方面变强的幅度是比较夸张的，根据官方数据显示，在Bert模型的场景下，训练和预测都有大幅度的提升。

同时新的机器搭载了三星的40G的超大HBM2显存。这些信号意味着什么呢？意味着计算框架的算力层面价值在弱化。过去提到TensorFlow、PyTorch，大家比的是哪种框架在分布式场景下更快，因为当模型的训练量大到单机很难在短时间内收敛，因为当模型大小大到单机内存没法承载之后，只能依赖分布式的方案去解决问题。

今天，A100即使在单机情况下也提供了可能过去可能2到5台机器的分布式能力。也就是说，今天单机的能力变强了。在计算框架层面，未来更多地需要从计算力优化的角度转向如何提升用户体验，提供更简单的开发接口。

所以，未来深度学习的开发会变得更简单，得益于框架的向用户体验转型。另外，框架级别的优化工作以及各种模型量化工作，将只在部分超大规模的应用场景下有意义。

如果把AI拆分成三层，最下方是计算力为代表的芯片GPU，中层是计算框架，最上层的是CV、ASR、推荐、NLP等业务算法。对于新入行的同学，更多地关注最上层的业务会比较保险，因为框架层的价值会随着计算力的增强而弱化（在巨头公司不会有这样的情况，这里泛指整个行业）。

2 计算力变便宜的影响

GPU发布会提到了一个观点，就是计算力的发展跟不上目前计算量的发展需求。这句话其实要延伸一下，并不是说之前V100卡不够快，一定要更快的卡才能满足用户的业务，而是V100太贵了，很多客户买不起。

英伟达应该也是意识到了这个问题，所以来了一个Slogan：“The more you buy, the more you save.”「现在，你只需要十分之一的硬件成本，二十分之一电力消耗就能做同样的事。The more you buy, the more you save !」黄仁勋说道。

计算力变便宜了，后续会对行业有什么影响呢？我们看到，虽然总体A100计算力增强了，但是单机8卡的GPU机器貌似比以前贵了，搭载8卡的DGX要卖到19.9万美元，极高的价格。这个价格会让很多腰部以下的互联网厂商放弃自建IDC GPU集群，从而选择上云，因为买几台机器就要小1千万。一家300人左右的互联网公司每年的IT成本也就1千万。所以对于云厂商来讲，关键是如何能让昂贵的单点计算机器的资源更弹性。怎么能满足客户弹性的需求，是云厂商后续要重点关注的，基于K8S的实现如何做到资源的最大限度利用，是关键。

3 英伟达的野心对行业影响

虽然GPU已经在AI的计算力方面几乎形成了垄断，但是2020财年，英伟达的利润总体出现下滑。这就意味着，单纯最底层的芯片级别的技术演进，很难形成高增长，缺少软件附加值。另外，新的A100技术架构，只有50倍左右的算力提升空间。当计算力的提升到了瓶颈，英伟达又将怎么发展。

英伟达最新的举措可以看一些端倪，在框架层面开始做很多文章，比如推出了语音交互框架Jarvis。后续英伟达一定会向上层的应用拓展业务，这样就触碰到了PyTorch、TensorFlow的领地，跟FaceBook和Google展开直接竞争。Google现在也在自己研制TPU芯片用来制衡GPU。后续的竞争可能不再是框架或者计算力的单点竞争，而是生态的竞争。

所以，今天只会TensorFlow或PyTorch都是不保险的，未来可能有新的框架进来。亘古不变的是上层的业务实现方式，了解CV的流程、ASR的流程、推荐的业务流程，这些业务的流程短时间内不会有大的变化，而且会兼容各种引擎和框架的发展，学好这些是安身立命的根本。

PS：本文只是作者自己YY，周末阅读新闻的感想，权当消遣。

来源：oschina

链接：https://my.oschina.net/u/4415723/blog/4281624

标签

tensorflow