spark技术

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(4)

和自甴很熟 提交于 2020-04-15 18:26:02
【推荐阅读】微服务还能火多久?>>> 此时重启IDEA: 此时重启IDEA: 重启后进入如下界面: Step 4 :在IDEA中编写Scala代码: 首先在进入在我们前一步的进入界面中选择“Create New Project”: 此时选在左侧列表中的“Scala”选项: 为了方便以后的开发工作,我们选择右侧的“SBT”选项: 点击“Next”进入下一步,设置Scala工程的名称和目录: 点击“Finish”完成工程的创建: 由于我们在前面选择了“SBT”选择,所以IDEA此时智能的帮助我们构建SBT工具: 我们点击工程名称“HelloScala”: IDEA自动完成SBT工具的安装需要一段时间,家林这里花了大约5分钟的时间,SBT好后SBT会自动帮我们建立好一些目录: 此时右击src下的main下的scala在弹出的“New”下选择“Scala Class” 输入文件名称: 把Kinde选择为“Object”: 点击“OK”完成: 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/316982

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(1)

守給你的承諾、 提交于 2020-04-07 05:50:04
第一步:通过Spark的shell测试Spark的工作 Step1: 启动Spark集群,这一点在第三讲讲的极为细致,启动后的WebUI如下: Step2: 启动Spark Shell: 此时可以通过如下Web控制台查看shell的情况: Step3: 把Spark安装目录“README.md”拷贝到HDFS系统上 在Master节点上新启动一个命令终端,并进入到Spark安装目录下: 我们把文件拷贝到HDFS的root文件夹下: 此时,我们观察一下Web控制台,会发现该文件已经成功上传到HDFS上: Step4: 在Spark shell之下操作编写代码,操作我们上传的“README.md”: 首先,我们看一下在Shell环境下的“sc”这个自动帮助我们生产的环境变量: 可以看出sc就是SparkContext的实例,这是在启动Spark Shell的时候系统帮助我们自动生成的,SparkContext是把代码提交到集群或者本地的通道,我们编写Spark代码,无论是要运行本地还是集群都必须有SparkContext的实例。 接下来,我们读取“README.md”这个文件: 我们把读取的内容保存给了file这个变量,其实file是一个MappedRDD,在Spark的代码编写中,一切都是基于RDD操作的; 再接下来,我们从读取的文件中过滤出所有的“Spark”这个词

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第二步)(1)

帅比萌擦擦* 提交于 2019-12-05 11:58:40
在VMWare 中准备第二、第三台运行Ubuntu系统的机器; 在VMWare中构建第二、三台运行Ubuntu的机器和构建第一台机器完全一样,再次不在赘述。。 与安装第一台Ubuntu机器不同的几点是: 第一点:我们把第二、三台Ubuntu机器命名为了Slave1、Slave2,如下图所示: 创建完的VMware中就有三台虚拟机了: 第二点:为了简化Hadoop的配置,保持最小化的Hadoop集群,在构建第二、三台机器的时候使用相同的root超级用户的方式登录系统。 2.按照配置伪分布式模式的方式配置新创建运行Ubuntu系统的机器; 按照配置伪分布式模式的方式配置新创建运行Ubuntu系统的机器和配置第一台机器完全相同, 下图是家林完全安装好后的截图: 3. 配置Hadoop分布式集群环境 ; 根据前面的配置,我们现在已经有三台运行在VMware中装有Ubuntu系统的机器,分别是:Master、Slave1、Slave2; 下面开始配置Hadoop分布式集群环境: Step 1:在/etc/hostname中修改主机名并在/etc/hosts中配置主机名和IP地址的对应关系: 我们把Master这台机器作为Hadoop的主节点,首先看一下Master这台机器的IP地址: 可以看到当前主机的ip地址是“192.168.184.133”. 我们在/etc

2014年spark开发者大赛火热进行中!

别说谁变了你拦得住时间么 提交于 2019-12-04 16:13:42
“发现最有正能量的网络达人”,Spark开发者大赛火热进行! 2014年9月30日,2014 Spark开发者大赛在北京正式启动。本次大赛由Spark亚太研究院联合国内领先的IT技术创新与发展的互联网媒体平台51CTO传媒及国内最大的IT在线教育平台51CTO学院在亚太范围内发起。面向云计算大数据从业者、Spark技术爱好者及数百所高校在读学生。无论是对Spark有浓厚兴趣的初学者、或者Spark应用高手,还是Spark源码级别大牛,都可以借助本次大赛,一展才华,就Spark技术与应用实践展开交流及切磋。 Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、GraphX近乎完美的解决了大数据中Batch Processing、Streaming Processing、Ad-hoc Query等三大核心问题,更为美妙的是在Spark中Spark SQL、Spark Streaming、MLLib、GraphX四大子框架和库之间可以无缝的共享数据和操作,这是当今任何大数据平台都无可匹敌的优势

【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂(改)

荒凉一梦 提交于 2019-12-03 14:49:17
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第18期互动问答分享】 Q1 :Master和Driver的是同一个东西吗? 两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过多线的方式处理任务的; Master 位于集群的管理节点,一般和 NameNode在同一个节点上; Driver 一般都位于客户机上,客户机一般都不属于集群,但是和集群在同一个网络环境下,因为客户机中的Driver要和集群中的Executor频繁的交互; Q2 :Standalone和Yarn之间如何选择 Standalone 和Yarn都是用于资源管理的系统,Standalone是专门为Spark打造的资源管理和分配方式,是轻量级的,而Yarn是大数据通用的资源管理框架,不仅可以用于管理Spark顶点资源分配,也可以用于管理实现了Yarn的其它计算平台的资源管理和分配; 如果在生产系统中有多套计算框架 ,例如Spark、MapReduce、Mahout并存,建议使用Yarn或者Mesos进行资源统一的管理和调度;如果只使用Spark的话,建议使用Standalone就足够了,Yarn比较消耗资源; Q3 :Spark 的HA怎么处理的? 对于Master的HA,在Standalone模式下

【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

孤街醉人 提交于 2019-12-03 14:49:05
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第15期互动问答分享】 Q1 :AppClient和worker、master之间的关系是什么? :AppClient 是在StandAlone模式下SparkContext.runJob的时候在Client机器上应 用程序的代表,要完成程序的registerApplication等功能; 当程序完成注册后Master会通过Akka发送消息给客户端来启动Driver; 在Driver中管理Task和控制Worker上的Executor来协同工作; Q2 :Spark的shuffle 和hadoop的shuffle的区别大么? Spark 的Shuffle是一种比较严格意义上的shuffle,在Spark中Shuffle是有RDD操作的依赖关系中的Lineage上父RDD中的每个partition元素的内容交给多个子RDD; 在Hadoop中的Shuffle是一个相对模糊的概念,Mapper阶段介绍后把数据交给Reducer就会产生Shuffle,Reducer三阶段的第一个阶段即是Shuffle; Q3 :Spark 的HA怎么处理的? 对于Master的HA,在Standalone模式下,Worker节点自动是HA的,对于Master的HA,一般采用Zookeeper; Utilizing ZooKeeper

【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

笑着哭i 提交于 2019-12-03 14:48:51
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第12期互动问答分享】 Q1 :jobserver 企业使用情况如何? 中国有一家视频网站已经使用超过JobServer超过半年的时间; 2013 年和2014年Spark Summit均大力推荐使用JobServer; Q2 :请问,jobserver是适合企业内部还是供外部客户使用(可能并发、安全有要求),还是两者ok? 目前可见的企业使用案例均是用在企业内部; 如果是企业外部可以作为云服务或者大数据资源池使用; Q3 :请问,spark 跑1T数据需要多少内存才能很快跑完 这首先和程序运行时候在每台Worker上使用的内存和CPU有关,提交程序的时候可以手动配置; 其次是和带宽有关系,Shuffle的要尽量减少数据; Driver 所在的机器的配置也是极为重要的,一般而言Driver所在的Client的内存和CPU根据实际情况要尽可能的更高的配置,同时,也是至关重要的Driver和Spark集群要在同一个网络环境,应为Driver要不断的task给Worker上的Executor,同时接受Driver的数据; Q4 :我目前是解决stackoverflow Error 是用checkPoint解决lineage过长的问题 但是这样会影响效率 怎样在效率和error之间均衡呢? :StackOverflow

【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

99封情书 提交于 2019-12-03 14:48:40
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第13期互动问答分享】 Q1 :tachyon+spark 框架现在有很多大公司在使用吧? Yahoo! 已经在长期大规模使用; 国内也有公司在使用; Q2 :impala 和spark sql如何选择呢? Impala 已经被官方宣布“安乐死”,被官方温柔的放弃; Spark SQL 是Spark 的核心子框架,同时能够和图计算、机器学习框架无缝集成,强烈推荐使用! Q3 :如果有程序采用流式不停往tachyon 集群写数据,但tachyon内存不够怎么办? Tachyon 数据具有Lineage ; Tachyon 中可以配置存储策 Tachyon 中可以配置存储策 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/317821

【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂

扶醉桌前 提交于 2019-12-03 05:37:26
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第10期互动问答分享】 Q1 :Spark on Yarn的运行方式是什么? Spark on Yarn 的运行方式有两种:Client和Cluster模式 Client 模式如下所示: Cluster 模式如下所示: Q2 :Yarn的框架内部是如何实现的? Yarn 是一个框架,内部实现好了RM和NM: 公开课: 上海:9月26-28日,《决胜大数据时代:Hadoop、Yarn、Spark企业级最佳实践》 北京: 10月26-28日, 《决胜大数据时代:Hadoop、Yarn、Spark企业级最佳实践》 北京:11月1-3日,《决胜大数据时代:Hadoop、Yarn、Spark企业级最佳实践》 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/310171

【互动问答分享】第17期决胜云计算大数据时代Spark亚太研究院公益大讲堂

非 Y 不嫁゛ 提交于 2019-12-02 07:10:14
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第17期互动问答分享】 Q1 :为了加快spark shuffle 的执行速度是否可以把spark_local_dirs 指向一块固态硬盘上面,这样做是否有效果。 可以把spark_local_dirs指向一块固态硬盘上面,这样会非常有效的提升Spark执行速度; 同时想更快的提升Spark运行速度的话可以指定多个Shuffle输出的目录,让Shuffle并行读写磁盘; Q2 :solidation=true只是在同一机器上进行合并对吧 solidation=true 是在同一台机器上进行合并; 当进行合并的时候会把属于同一个Reducer的bucket放入同一个文件,这回极大的减少Shuffler文件的数量,提升性能; Q3 :未来spark与hadoop会共存吗 Spark 和hadoop会共存, Spark+Hadoop= A winning combination; 并存的时候,Hadoop主要使用HDFS进行数据存储,Spark负责对大数据一体化多元化的计算; 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/333327