sparksql例子

大数据架构师从入门到精通,该具备怎么样的知识体系?

不羁的心 提交于 2020-01-14 14:19:27
经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。 其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大 ,TB->PB 数据类型繁多 ,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高 ,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高 ,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的: 文件存储: Hadoop HDFS、Tachyon、KFS 离线计算: Hadoop MapReduce、Spark 流式、实时计算: Storm、Spark Streaming、S4、Heron K-V、NOSQL数据库: HBase、Redis、MongoDB 资源管理:

写给大数据开发初学者的话 | 附教程

匿名 (未验证) 提交于 2019-12-03 00:22:01
导读: 第一章:初识 Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第十章:牛逼高大上的机器学习 经常有初学者在博客和QQ问我,自己想往 大数据 方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。。 其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的 大数据框架 越来越多

没有编程基础,大数据学习步骤是怎么样的?

无人久伴 提交于 2019-11-29 00:52:51
很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该学习哪些技术?学习路线又是什么? 所有萌生入行的想法与想要学习Java的同学的初衷是一样的。岗位非常火,就业薪资比较高,,前景非常可观。基本都是这个原因而向往大数据,但是对大数据却不甚了解。 如果你想学习,那么首先你需要学会编程,其次你需要掌握数学,统计学的知识,最后融合应用,就可以想在数据方向发展,笼统来说,就是这样的。但是仅仅这样并没有什么帮助。 现在你需要问自己几个问题: 对于计算机/软件,你的兴趣是什么? 是计算机专业,对操作系统、硬件、网络、服务器感兴趣? 是软件专业,对软件开发、编程、写代码感兴趣? 还是数学、统计学专业,对数据和数字特别感兴趣。 你自己的专业又是什么? 如果你是金融专业,你可以学习,因为这结合起来你自己的专业,将让你在只有你专业知识的竞争者之中脱颖而出,毕竟现在AI+已经涉及到金融行业了。 说了这么多,无非就是想告诉你,大数据的三个大的发展方向: 平台搭建/优化/运维/监控; 大数据开发/ 设计/ 架构; 数据分析/挖掘。 请不要问我哪个容易,只能说能挣钱的都不简单。如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣群:数字4583+数字45782,私信管理员即可免费领取开发工具以及入门学习资料 说一下大数据的四个典型的特征: 数据量大;

SparkSQL 通过FlatMap算子 或 纯SQL 两种方式实现列转行(炸裂)

六眼飞鱼酱① 提交于 2019-11-26 19:32:32
SparkSQL通过FlatMap算子实现列转行(炸裂) 我用了两种方法实现列转行,说一下我平时使用SparkSQL的习惯,我通常 1)是先读取HDFS中的文件,包括txt、parquet等格式 2)然后通过createOrReplaceTempView 方法创建临时表格 3)之后写sql直接处理 相关代码可以参考我写的另一篇文章: 一、开发环境 spark-2.1.0-bin-hadoop2.6 二、纯SQL实现列转行 1、因为我在项目中的需求是同时将两个Array字段展开,所以在这里举的例子是同时处理两个字段的情况。 2、要提醒的是,同时展开多个字段会造成数据膨胀严重,计算时会消耗大量的资源,需要根据实际情况进行考虑,选择比较合适的方法。 3、语法:使用lateral view explode 函数进行列转行,新字段的别名,不能和以前的字段名相同。 sparkSession.sql( s""" |select | user_id, | hobby, | skill |from t1 |lateral view explode(hobbies) tempcol as hobby |lateral view explode(skills) tempcol as skill """.stripMargin ) 三、使用DataFrame、Rdd格式数据