NOC

我所理解的SRE、PE和应用运维(下)

荒凉一梦 提交于 2020-12-04 02:21:41
注:因为评论功能尚未开通,所以欢迎大家公众号留言讨论,因为后面还会有个番外篇,专门有一部分用来回答问题,如果大家有什么疑问可以公众号留言,我会选择一些典型的问题和答复放在文章中,感谢大家支持! 上篇介绍了关于SRE、PE和应用运维的一些理解和业界部分公司的玩法,这一篇写一下应用运维在具体做的一些事情和组织方式,看看为什么这个岗位越来越受到重要,越来越受到重视,他的价值到底体现在哪里。然后分析下应用运维这个职业方向的发展趋势,希望对于当前正置身于这个行当的同学能有一些帮助和启发。 关于SRE的定位 首先抛个结论出来, SRE的目标不是Operation,而是Engineering,是一个是“通过软件工程的方式开发自动化系统来替代重复和手工操作”的岗位 ,为了保证达成这个目标,Google强制约定了50%的工作法则,SRE至少保证50%的时间是在做自动化开发的工作上,实际这个比例可能会更高,所以SRE运维的工作内容是低于50%的。书中相关的描述如下: Common to all SREs is the belief in and aptitude for developing software systems to solve complex problems. 所有的SRE团队成员都必须非常愿意,也非常相信用软件工程方法可以解决复杂的运维问题。 这里我个人觉得更准确的理解应该是

精益求精!华为工程师凝聚超凡的智慧结晶:网络编程,已献上膝盖

人盡茶涼 提交于 2020-10-19 08:51:24
为什么要学习底层知识? 不学习底层知识可能不会阻碍你成为一个称职的程序员,但也许会阻碍你成为一个优秀的程序员。 了解底层的知识有助于解决问题,并且做出更好的设计。打个比方,就像庖丁解牛,他看到一个牛后,不止看到的是牛,而是由各个骨骼,经络,肌肉等模块组成的有机体——整个系统对你来说就是赤裸裸的,没有任何神秘的面纱。这样也许能够给程序员提供更多的安全感。 但是如果你编程所依赖的平台需要你去了解更底层的知识才能够解决问题,那么,他可能没有做好他应尽的职责。 我们每个程序员或许都有一个梦,那就是成为大牛,我们或许都沉浸在各种框架中,以为框架就是一切,以为应用层才是最重要的,你错了。在当今计算机行业中,会应用是基本素质,如果你懂其原理才能让你在行业中走的更远,而计算机基础知识又是重中之重。下面,跟随我的脚步,为你介绍一下计算机底层知识。 第一份笔记、底层知识笔记 大纲 目录 CPU 大家都是程序员,大家都是和计算机打交道的程序员,大家都是和计算机中软件硬件打交道的程序员,大家都是和CPU打交道的程序员,所以,不管你是玩儿硬件的还是做软件的,你的世界都少不了计算机最核心的- CPU CPU是什么 CPU的全称是 Central Processing Unit ,它是你的电脑中最 硬核 的组件,这种说法一点不为过。CPU是能够让你的计算机叫计算机的核心组件,但是它却不能代表你的电脑

新AI芯片介绍(3):tenstorrent

*爱你&永不变心* 提交于 2020-08-14 16:24:50
今天我们来看tenstorrent的芯片,这个是一个比较新的startup,没有什么正儿八经的paper,但是我们可以从各个地方搜集来的信息看这个芯片的细节 https://www.tenstorrent.com/wp-content/uploads/2020/04/Tenstorrent-Scales-AI-Performance.pdf ​ www.tenstorrent.com https://www.youtube.com/watch?v=ME-6uxSoVm0 ​ www.youtube.com Tenstorrent主要的产品是这些 Tenstorrentt跟其他架构最大的差别在于MAC核的数量。Tenstorrent有整整120个核,这些核都比我们之前接触的TPU、含光或者Groq要来的小的多,大概架构长这样: 这个图片里面紫色的CPU不是我们电脑上面的CPU,而是一个很小的RISC的核。小核有一个很大的优势,就是conditional computation。这个芯片相对别的玩家来说TDP要低。 At a peak rate of 368 TOPS, the chip runs on just 65W 一个小核里面总数大概是一千个int8 的MAC(比如32*32),不过他们也支持fp16跟bf16 Tenstorrent withheld further

DevOps落地成不成,关键不在持续集成?

笑着哭i 提交于 2020-08-14 13:13:48
作者介绍 赵辉, 前HSBC商业银行DevOps团队主管,DevOps专家,现任一线公有云企业DevOps平台解决方案架构师。 ​当下的IT领域,持续测试是成功采用DevOps交付模式的关键因素。持续交付的目标,是能够快速和持续地反馈符合客户需求的高质量产品。 然而,理想很丰满,现实很骨感。自从2012年,第一份DevOps报告由Alana Brown发布之后,DevOps开始逐渐获得业界的认知。越来越多来自各领域和产业的IT团队开始谈论DevOps和数字化转型,其中不少团队已经根据自身对DevOps的理解采取了行动。根据哈佛商业评论的数据,在2019年大约有70%的转型项目失败,而失败的原因与其DevOps落地的情况有着很强的相关性。 本文我们具体来看看,现阶段持续测试是如何帮助团队成功落地并实现DevOps转型的。 一、避免中心化的测试团队 传统上来说,QA、开发和产品Owner隶属于不同的团队,即烟囱式的中心化团队。当开发完成一个功能需求的开发之后,QA团队才开始测试用例的设计,并且执行对应的测试用例,无论是手工测试还是自动化测试。当所有的测试工作结束后,产品负责人会验收这个新开发的功能是否符合预期。通常在这种开发模式下,QA团队或者产品Onwer的反馈已经晚了,因为代码已经被合并到了主干,导致任何代码的变化将造成的成本已经高出了大多数人的预期

我永远爱着OOP——第一单元总结

て烟熏妆下的殇ゞ 提交于 2020-05-08 07:35:48
我永远爱着OOP——第一单元总结 一、三次作业总结分析 1. 第一次作业 1.1 作业分析 第一作业主要是给我们引入了一个对于非法输入处理的思想,包括第一次上机,都一直围绕着一个全新的主题,就是非法输入处理,而对于这次作业本身,其实难度并不是很大,甚至用纯C也不会有很大的工作量,但是引入了一个这样一个重要思想笔者觉得是学到很多的 1.2 程序架构 说起第一次作业,笔者其实是有为第二次作业做准备的(但是看起来准备的并不合格),在第一次作业中笔者还专门准备了一个虚基类来准备继承其他的项(因为怕操作失误删了),以方便在第二次作业如果加入其他的函数,就直接加上一个新的子类,然后上层逻辑用利用多态,根本不用改(事实证明是我想少了)。 直接上UML图吧(先让我去git clone 一下) 可以看到,看到每个类的方法很多,不过细看可以看出来很多其实这主要是方法模块化的结果。 首先是关于错误处理和输入规范化,笔者单独实现了一个Parser解析类来完成这个工作,利用正则分割和匹配每一项,在遇到非法输入即抛出异常,有顶层类捕获并输出WF 然后就是求导部分,因为只有加法,所以只需要表达式调用每个项的求导即可完成求导 最后是化简,也就是优化,在本章作业里,优化都是一个让我觉得很难受的地方,也不一定说每个优化有多么复杂的逻辑或是算法,但是更多的给我的感觉是,从整理到求导整个过程像是一个整体

数据包进入互联网在网络中的传输

╄→尐↘猪︶ㄣ 提交于 2020-04-28 06:56:18
本章是‘网络是怎么连接的--读后感’第四章 前言    本章是系列博客的第四章;第一章讲数据发送的场景;第二章主要讲叙消息是如何发送出去的;第三章主要阐述数据包在客户端局域网中的传输;本章详细阐述数据在互联网中是如何传输的。 实现需求 本章主要阐述数据在互联网中的传输;主要讲两种网络接入方式;在接入网的过程中运营商通过使用ppp协议和隧道技术实现对用户的身份验证和公有地址分配;同时会对网络运营商内部网络进行介绍;同时还会对互联网中跨运营商通信进行介绍。 ADSL接入网的结构和工作方式 光纤接入网 接入网时通过使用ppp和隧道来进行用户身份验证 网络运营商的内部 跨运营商通信时网络包传输 正文 一、 ADSL接入网的结构和工作方式(不对称数字用户线,利用电话线将用户接入互联网的一种技术)   结构如上图所示: 用户端的互联网接入路由器首先会将收到的包转发给adsl模块,在转发前会在包前面加入mac头部,pppoe头部,ppp头部; adsl modem接收数据包的操作和网卡是一样的;接收到包后会将数据包拆分成很小段的数据块,称之为信元,并转化为电信号发给分离器;(通信运营商传输数据是通过atm技术实现的,这种技术传的就是信元因此需要拆分) adsl model中会将信元调制成电信号,并将电信号发给分离器,这一步可以统称为调制; 分离器是将电话信号和网络信号分离的设备

降低20%成本,国内首个GPU可用区上线

百般思念 提交于 2019-12-05 07:59:04
2015年,UCloud在国内云厂商中首先推出了K80-GPU云主机。此后,我们又相继推出了P40、V100等GPU云主机、定制化物理机以及UAI-Train、UAI-Inference等以GPU为基础的AI产品,为人工智能用户持续创造价值。如今,我们更进一步,推出专门的GPU可用区。通过对架构精裁,其相比于普通可用区,GPU价格降低20%,带宽价格降低64%,并支持10G/25G物理网络和VPC私有网络,凭借独享性能、丰富产品互联、自助购买、按月租赁,帮助用户避免自行维护GPU集群做AI训练的高昂投入。 目前,福建GPU可用区A已对全部用户开放,并支持在控制台直接购买下单。 降低20%成本,支持按月付费 GPU使用成本高,一方面是GPU卡本身非常昂贵,另一方面功耗与机柜成本几乎占据了整体成本的40%,而这部分成本可以被有效降低。为此UCloud在国内臻选电力成本较低且符合基础标准的机房建立GPU可用区。此次上线的GPU可用区位于福建省,为省级骨干IDC机房,符合国际数据中心标准Tier3,提供移动线路。 UCloud的云计算核心原本为标准可用区设计,目的是支撑上万级别的服务器,近百种不同的云计算服务。为了提升整体性价比,我们花费1周时间,便对GPU可用区快速进行了定制,推出了一个全新版本的迷你型云计算核心,内部代号“蚂蚁”。“蚂蚁”核心压缩了超过50%的云控制面成本