分布式计算

Pytorch调研笔记

随声附和 提交于 2020-01-21 16:07:51
Pytorch 训练调研 首先我们简单说明一下,这么多深度学习框架中,为什么选择PyTorrch呢? 因为PyTorch是当前难得的简洁优雅且高效快速的框架。在笔者眼里,PyTorch达到目前深度学习框架的最高水平。当前开源的框架中,没有哪一个框架能够在灵活性、易用性、速度这三个方面有两个能同时超过PyTorch。下面是许多研究人员选择PyTorch的原因。 1、简洁:PyTorch的设计追求最少的封装,尽量避免重复造轮子。不像TensorFlow中充斥着session、graph、operation、name_scope、variable、tensor、layer等全新的概念,PyTorch的设计遵循tensor→variable(autograd)→nn.Module 三个由低到高的抽象层次,分别代表高维数组(张量)、自动求导(变量)和神经网络(层/模块),而且这三个抽象之间联系紧密,可以同时进行修改和操作。 简洁的设计带来的另外一个好处就是代码易于理解。PyTorch的源码只有TensorFlow的十分之一左右,更少的抽象、更直观的设计使得PyTorch的源码十分易于阅读。 2、速度:PyTorch的灵活性不以速度为代价,在许多评测中,PyTorch的速度表现胜过TensorFlow和Keras等框架 。框架的运行速度和程序员的编码水平有极大关系,但同样的算法

Hadoop概述

[亡魂溺海] 提交于 2020-01-10 11:15:50
Hadoop概述 Hadoop项目是Apache的顶级项目 Hadoop项目是以 可靠、可扩展和分布式计算为目的发展而来的软件 大数据特点 数据容量大:TB--PB 数据类型多:各种非结构化数据。 商业价值高:客户群体细分,提供定制化服务 处理速度快:分布式存储计算,提高效率 Hadoop核心组件 主要作用: 存储和计算 核心组件: hadoop Common: 一组分布式文件系统通用的I/O的组件与接口。(序列化、java RPC 和持计划数据结构) HDFS:Hadoop的分布式文件系统 Hadoop MapReduce:分布式计算框架 可以离线分布式计算,多台机器同时计算其中的一部分数据,将计算结果汇总。得到计算结果。可扩展 Hadoop Yarn:(分布式的资源管理器) MapReduce任务运行在yarn上。yarn提供资源 Hadoop的框架演变 Hadoop1.0的MR:将资源管理和任务调度、计算功能放在一起、扩展性差,不支持多计算框架 Hadoop2.0的MR:将资源管理和任务调度分开,提高扩展性,支持多计算框架 Hadoop生态圈 管理工具:Ambari、CDH等等。目前多数企业使用CDH管理集群 资源管理器:yarn yarn管理集群资源,通俗讲就是用来跑任务的。 计算框架:MapReduce(离线)、Storm、Spark、Flink(实时计算) 数据采集

分布式计算框架MapReduce

风格不统一 提交于 2019-12-27 18:10:10
MapReduce概述 MapReduce源自Google的MapReduce论文,论文发表于2004年12月。Hadoop MapReduce可以说是Google MapReduce的一个开源实现。MapReduce优点在于可以将海量的数据进行离线处理,并且MapReduce也易于开发,因为MapReduce框架帮我们封装好了分布式计算的开发。而且对硬件设施要求不高,可以运行在廉价的机器上。MapReduce也有缺点,它最主要的缺点就是无法完成实时流式计算,只能离线处理。 MapReduce属于一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 MapReduce官方文档地址如下: https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial

云需硬件加技术,企业上云时代来临

天涯浪子 提交于 2019-12-25 12:01:50
在这科技突飞猛进的时代里,很多新技术不断的涌现,为各个领域的发展注入了新动力,而云计算技术就是当下最大的宠儿,也是通往未来世界的基石。 云计算本身是分布式计算的一种,在早期简单的分布式计算,解决任务分发,进行计算结果的合并。所以云计算又被叫做网格计算。通过这项技术,可以在几秒内完成数据的处理(数以万计),达到强大的网络服务。 而现在的云服务早已今非昔比,不仅仅只是分布式计算了,而是分布式计算、效用计算、并行计算、网络存储、负载均衡、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。作为前沿技术,它毅然点起了多年来人们对未来世界的憧憬并狂热追逐。科技企业、服务企业、教育机构等等等也都进入了全力发展时期紧跟世界的脚步。 企业上云大势所趋 这几年,很多通信服务商、信息数据咨询公司、前沿技术研发部门都积极了解云技术,想要能够融入企业上云的潮流,并推动云计算技术在不同领域的应用。在政策引导下,很多企业决策者也开始从客观、科学的角度去看待云计算所带来的影响,私有云、公有云、混合云等技术不断地被普通民众所熟知,连地铁里都出现了广告。2019年是一道分水岭,是从传统IT向云计算全面转移的元年,社会各界人士都在关注着。很多人也在分析云计算这种技术的利弊所在。 云计算具有的优势 和前些年比起来,企业上云的渠道愈加多元,也更加清晰。从事科研的机构来说,私有云技术需要做好数据信息的加密保存工作

云需硬件加技术,企业上云时代来临

醉酒当歌 提交于 2019-12-24 20:28:41
在这科技突飞猛进的时代里,很多新技术不断的涌现,为各个领域的发展注入了新动力,而云计算技术就是当下最大的宠儿,也是通往未来世界的基石。 云计算本身是分布式计算的一种,在早期简单的分布式计算,解决任务分发,进行计算结果的合并。所以云计算又被叫做网格计算。通过这项技术,可以在几秒内完成数据的处理(数以万计),达到强大的网络服务。 而现在的云服务早已今非昔比,不仅仅只是分布式计算了,而是分布式计算、效用计算、并行计算、网络存储、负载均衡、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。作为前沿技术,它毅然点起了多年来人们对未来世界的憧憬并狂热追逐。科技企业、服务企业、教育机构等等等也都进入了全力发展时期紧跟世界的脚步。 企业上云大势所趋 这几年,很多通信服务商、信息数据咨询公司、前沿技术研发部门都积极了解云技术,想要能够融入企业上云的潮流,并推动云计算技术在不同领域的应用。在政策引导下,很多企业决策者也开始从客观、科学的角度去看待云计算所带来的影响,私有云、公有云、混合云等技术不断地被普通民众所熟知,连地铁里都出现了广告。2019年是一道分水岭,是从传统IT向云计算全面转移的元年,社会各界人士都在关注着。很多人也在分析云计算这种技术的利弊所在。 云计算具有的优势 和前些年比起来,企业上云的渠道愈加多元,也更加清晰。从事科研的机构来说,私有云技术需要做好数据信息的加密保存工作

分区排序

筅森魡賤 提交于 2019-12-23 03:11:47
hdfs的副本的配置 修改hdfs-site.xml文件 <property> <name> dfs.namenode.secondary.http-address </name> <value>hd-02:50090</value> </property> 需要同步到其它机器: scp hdfs-site.xml hd-02:$PWD hadoop启动方式 1)启动hdfs集群 $ start-dfs.sh 2)启动yarn集群 $ start-yarn.sh 3)启动hadoop集群 $ start-all.sh 大数据干什么的? 1)海量数据的存储(mysql/orcale) 分布式文件系统hdfs dfs->Hdfs mapreduce->mapreduce bigtable->hbase 分而治之! 2)海量数据的计算 分布式计算框架mapreduce 配置checkpoint时间 <property> <name>dfs.namenode.checkpoint.period</name> <value>7200</value> </property> hadoop­2.8.4安装部署 1)准备工作 设置主机名:vi /etc/hostname 注意:需要重启 reboot 设置映射:vi /etc/hosts 设置免密登录:ssh-keygen ssh-copy-id

分布式计算,核心知识点

隐身守侯 提交于 2019-12-22 04:48:40
最近在学习和总结,分布式相关的一些技术知识。 读了几本书,感觉内容比较多,需要梳理下。 在知乎等地方,也找到了一些写得比较好的文章。 以下为转载内容 分布式计算就是通过计算机网络将计算工作分布到多台主机上,多个主机一起协同完成工作。 我试着列一下相关知识吧。 网络通讯,网络是分布式的基础,对分布式的理解建立在对网络的理解上,包括: OSI模型的7层 TCP/IP,DNS,NAT HTTP,SPDY/HTTP2 Telnet 网络编程,是通过程序在多个主机之间通信。包括: Socket 多线程 非阻塞IO 网络框架 Netty Mina ZeroMQ 操作系统的网络部分 RPC,Socket使用不是很方便,很多分布式应用是基于RPC的,包括: 同步RPC 异步RPC 主要的一些RPC协议 RMI Rest API Thrift 集群,分布式计算离不开集群。集群就是多台主机被当作一个系统 集群类型 高可用,如主机备机切换,冷备,热备,双活 伸缩性,如Web服务器集群,数据库服务器的Sharding 并行计算,如网格,大数据 集群相关技术,包括: 高可用性,保证服务一直能够被访问,延长MTBF,缩短MTTR 冗余的设备 多副本,为了避免单点失效 负载均衡,如何将大量工作负载分配到多个主机上,最大化吞吐量,最小化平均响应时间,最大化资源利用率。 伸缩性(横向)

分布式计算,核心知识点

旧时模样 提交于 2019-12-22 04:48:25
最近在学习和总结,分布式相关的一些技术知识。 读了几本书,感觉内容比较多,需要梳理下。 在知乎等地方,也找到了一些写得比较好的文章。 以下为转载内容 分布式计算就是通过计算机网络将计算工作分布到多台主机上,多个主机一起协同完成工作。 我试着列一下相关知识吧。 网络通讯,网络是分布式的基础,对分布式的理解建立在对网络的理解上,包括: OSI模型的7层 TCP/IP,DNS,NAT HTTP,SPDY/HTTP2 Telnet 网络编程,是通过程序在多个主机之间通信。包括: Socket 多线程 非阻塞IO 网络框架 Netty Mina ZeroMQ 操作系统的网络部分 RPC,Socket使用不是很方便,很多分布式应用是基于RPC的,包括: 同步RPC 异步RPC 主要的一些RPC协议 RMI Rest API Thrift 集群,分布式计算离不开集群。集群就是多台主机被当作一个系统 集群类型 高可用,如主机备机切换,冷备,热备,双活 伸缩性,如Web服务器集群,数据库服务器的Sharding 并行计算,如网格,大数据 集群相关技术,包括: 高可用性,保证服务一直能够被访问,延长MTBF,缩短MTTR 冗余的设备 多副本,为了避免单点失效 负载均衡,如何将大量工作负载分配到多个主机上,最大化吞吐量,最小化平均响应时间,最大化资源利用率。 伸缩性(横向)

五年大数据开发者浅谈Hadoop的小发展「值得收藏」

╄→尐↘猪︶ㄣ 提交于 2019-12-16 08:44:48
遥想十多年前国内IT圈还不知道什么是Hadoop,现如今,几乎所有的互联网企业都拥有了自己的Hadoop集群,人们提起大数据,就会想起Hadoop,Hadoop俨然成为了大数据时代的代名词。楼主就不再赘述Hadoop啦,今天楼主尽量用大白话带着大家了解它的不足之处以及大佬们是如何改进的。 不足之处 随着计算机硬件的发展,存储介质不再是掣肘大数据发展的因素,大数据越来越火的今天人们对分布式计算的要求也越来越高,很显然Hadoop这项十多年前就起源的技术必须跟着时代潮流向前发展了。那么Hadoop到底有什么不足之处呢? 大家都知道,分布式计算之所以能够引领一个时代是因为它将复杂计算划分开来,在很多台机器上同时处理,故而它处理速度快。但是在新时代人们对事务处理的效率又有了新的需求,Hadoop要等待计算全部结束才能获取结果,那如果中间结果就能够满足用户对精度的要求,Hadoop还是要等全部节点计算结束才能够返回结果,如此这般,不仅响应速度慢,也造成一定的资源浪费。有需求就有进步,大牛们开始想办法了,能不能在一部分计算结束后,先返回一个中间结果给用户呢? 产生中间结果 楼主看来应用最广泛的是2010年Tyson Condie等人提出的HOP(hadoop online prototype)方法。该改进方法的大致思路是利用“snapshot”将Map的结果用管道传输给Reduce

分布式系统

北战南征 提交于 2019-12-13 04:48:08
第一章 分布式计算 定义: 分布式计算是研究把一个需要非常巨大的计算能力解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把各部分的计算结果合并起来得到的最终成果(分而治之)。 分布式计算的优缺点: 优点: 1、低廉的计算机价格和网络访问的可用性 2、资源共享 3、可伸缩性 4、容错性 缺点: 1、多点故障 2、安全性低 分布式计算的相关形式: 1、单机计算:利用单台计算机进行计算,此时计算机不与任何网络连接,因而只能使用本计算机系统内可被即时访问的所有资源。 2、并行计算:采用多个处理器来执行单个指令。并行计算是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。 3、网络计算:网络计算的概念较宽泛。网络计算的核心思想是,把网络连接起来的各种自治资源和系统组合起来,以实现资源共享、协同工作和联合计算,为各种用户提供基于网络的各类综合性服务。 4、网格计算:利用互联网把地理上广泛分布的各类资源(计算、存储、宽带、软件、数据、信息、知识等)连成一个逻辑整体,就像超级计算机,为用户提供一体化信息和应用服务(计算、存储、访问)。 5、云计算:这个概念是由Google公司提出。云计算是一种资源交付方式,使用虚拟化技术为核心。云计算的主要形式包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。