spark互动问答

【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

笑着哭i 提交于 2019-12-03 14:48:51
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第12期互动问答分享】 Q1 :jobserver 企业使用情况如何? 中国有一家视频网站已经使用超过JobServer超过半年的时间; 2013 年和2014年Spark Summit均大力推荐使用JobServer; Q2 :请问,jobserver是适合企业内部还是供外部客户使用(可能并发、安全有要求),还是两者ok? 目前可见的企业使用案例均是用在企业内部; 如果是企业外部可以作为云服务或者大数据资源池使用; Q3 :请问,spark 跑1T数据需要多少内存才能很快跑完 这首先和程序运行时候在每台Worker上使用的内存和CPU有关,提交程序的时候可以手动配置; 其次是和带宽有关系,Shuffle的要尽量减少数据; Driver 所在的机器的配置也是极为重要的,一般而言Driver所在的Client的内存和CPU根据实际情况要尽可能的更高的配置,同时,也是至关重要的Driver和Spark集群要在同一个网络环境,应为Driver要不断的task给Worker上的Executor,同时接受Driver的数据; Q4 :我目前是解决stackoverflow Error 是用checkPoint解决lineage过长的问题 但是这样会影响效率 怎样在效率和error之间均衡呢? :StackOverflow

【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

99封情书 提交于 2019-12-03 14:48:40
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第13期互动问答分享】 Q1 :tachyon+spark 框架现在有很多大公司在使用吧? Yahoo! 已经在长期大规模使用; 国内也有公司在使用; Q2 :impala 和spark sql如何选择呢? Impala 已经被官方宣布“安乐死”,被官方温柔的放弃; Spark SQL 是Spark 的核心子框架,同时能够和图计算、机器学习框架无缝集成,强烈推荐使用! Q3 :如果有程序采用流式不停往tachyon 集群写数据,但tachyon内存不够怎么办? Tachyon 数据具有Lineage ; Tachyon 中可以配置存储策 Tachyon 中可以配置存储策 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/317821

【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂

扶醉桌前 提交于 2019-12-03 05:37:26
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第10期互动问答分享】 Q1 :Spark on Yarn的运行方式是什么? Spark on Yarn 的运行方式有两种:Client和Cluster模式 Client 模式如下所示: Cluster 模式如下所示: Q2 :Yarn的框架内部是如何实现的? Yarn 是一个框架,内部实现好了RM和NM: 公开课: 上海:9月26-28日,《决胜大数据时代:Hadoop、Yarn、Spark企业级最佳实践》 北京: 10月26-28日, 《决胜大数据时代:Hadoop、Yarn、Spark企业级最佳实践》 北京:11月1-3日,《决胜大数据时代:Hadoop、Yarn、Spark企业级最佳实践》 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/310171

【互动问答分享】第17期决胜云计算大数据时代Spark亚太研究院公益大讲堂

非 Y 不嫁゛ 提交于 2019-12-02 07:10:14
“决胜云计算大数据时代” Spark 亚太研究院100期公益大讲堂 【第17期互动问答分享】 Q1 :为了加快spark shuffle 的执行速度是否可以把spark_local_dirs 指向一块固态硬盘上面,这样做是否有效果。 可以把spark_local_dirs指向一块固态硬盘上面,这样会非常有效的提升Spark执行速度; 同时想更快的提升Spark运行速度的话可以指定多个Shuffle输出的目录,让Shuffle并行读写磁盘; Q2 :solidation=true只是在同一机器上进行合并对吧 solidation=true 是在同一台机器上进行合并; 当进行合并的时候会把属于同一个Reducer的bucket放入同一个文件,这回极大的减少Shuffler文件的数量,提升性能; Q3 :未来spark与hadoop会共存吗 Spark 和hadoop会共存, Spark+Hadoop= A winning combination; 并存的时候,Hadoop主要使用HDFS进行数据存储,Spark负责对大数据一体化多元化的计算; 来源: oschina 链接: https://my.oschina.net/u/1791057/blog/333327