数据收集大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在多台服务器上进行,且采集过程不能影响正常业务的开展。基于这种需求,就衍生了多种日志收集工具,如 Flume 、Logstash等,它们都能通过简单的配置完成复杂的数据收集和数据聚合。数据存储收集到数据后,下一个问题就是:数据该如何进行存储?我们通常熟知的就是把数据存入MySQL、Oracle等传统的关系型数据库,这些传统的数据库的特点是能够快速存储结构化的数据,并支持随机访问。但大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),为了解决海量半结构化和非结构化数据的存储,衍生了 Hadoop HDFS 、KFS、GFS 等分布式文件系统,它们都能够支持结构化、半结构和非结构化数据的存储,并可以通过增加机器进行横向扩展。分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据库的优点,基于这种需求,就产生了 HBase、MongoDB。数据分析大数据处理最重要的环节就是数据分析,数据分析通常分为两种:批处理和流处理。批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架有 Hadoop MapReduce、Spark、Flink 等;流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有 Storm、Spark Streaming、Flink Streaming 等。批处理和流处理各有其适用的场景,时间不敏感或者硬件资源有限,可以采用批处理;时间敏感和及时性要求高就可以采用流处理。随着服务器硬件的价格越来越低和大家对及时性的要求越来越高,流处理越来越普遍,如股票价格预测和电商运营数据分析等。数据应用数据分析完成后,接下来就是数据应用的范畴,这取决于你实际的业务需求。比如你可以将数据进行可视化展现,或者将数据用于优化你的推荐算法,这种运用现在很普遍,比如短视频个性化推荐、电商商品推荐、头条新闻推荐等。当然你也可以将数据用于训练你的机器学习模型,这些都属于其他领域的范畴,都有着对应的框架和技术栈进行处理,这里就不一一赘述。学习路线学习大数据门槛相对较高,首先要有一定的语言基础1.java大数据框架大多采用 Java 语言进行开发,并且几乎全部的框架都会提供 Java API 。Java 是目前比较主流的后台开发语言,所以网上免费的学习资源也比较多。2.scalaScala 是一门综合了面向对象和函数式编程概念的静态类型的编程语言,它运行在 Java 虚拟机上,可以与所有的 Java 类库无缝协作,著名的 Kafka 就是采用 Scala 语言进行开发的。为什么需要学习 Scala 语言 ? 这是因为当前最火的计算框架 Flink 和 Spark 都提供了 Scala 语言的接口,使用它进行开发,比使用 Java 8 所需要的代码更少,且 Spark 就是使用 Scala 语言进行编写的,学习 Scala 可以帮助你更深入的理解 Spark。Linux基础通常大数据框架都部署在 Linux 服务器上,所以需要具备一定的 Linux 知识。构建工具这里需要掌握的自动化构建工具主要是 Maven。Maven 在大数据场景中使用比较普遍,主要在以下三个方面:1.管理项目 JAR 包,帮助你快速构建大数据应用程序;2.不论你的项目是使用 Java 语言还是 Scala 语言进行开发,提交到集群环境运行时,都需要使用 Maven 进行编译打包;3.大部分大数据框架使用 Maven 进行源码管理,当你需要从其源码编译出安装包时,就需要使用到 Maven。框架学习我们对框架进行简单的分类总结:日志收集框架:Flume 、Logstash、Kibana分布式文件存储系统:Hadoop HDFS数据库系统:Mongodb、HBase分布式计算框架:· 批处理框架:Hadoop MapReduce· 流处理框架:Storm· 混合处理框架:Spark、Flink查询分析框架:Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix集群资源管理器:Hadoop YARN分布式协调服务:Zookeeper数据迁移工具:Sqoop任务调度框架:Azkaban、Oozie集群部署和监控:Ambari、Cloudera Manager上面列出的都是比较主流的大数据框架,社区都很活跃,学习资源也比较丰富。建议从 Hadoop 开始入门学习,因为它是整个大数据生态圈的基石,其它框架都直接或者间接依赖于 Hadoop 。接着就可以学习计算框架,Spark 和 Flink 都是比较主流的混合处理框架,Spark 出现得较早,所以其应用也比较广泛。 Flink 是当下最火热的新一代的混合处理框架,其凭借众多优异的特性得到了众多公司的青睐。两者可以按照你个人喜好或者实际工作需要进行学习。Listening to Meiyun's words, Zhang Yun nodded.In my mind, I think of two other things about Blue Nurse in this dormitory. 'Ah! I've been here all the time. Do you two roommates have any objections? Listening to Zhang Yun's words, Meiyun and Meiqing secretly laughed in their mouths.'Husband! You're silly. You're still a fool.' 'Mei Qing and I are pink nurses, and you are a doctor in VIP ward. As such, they are two little blue nurses. Dare to have an opinion?' 'If you stay in our dormitory for one night, they can onlyrecognize it. Mei Qing and I don't call them, they dare not come back.' Listening to Meiyun's words, Zhang Yun knew in his heart. The importance of hierarchical status in hospitals. 'Oh...' Meiyun and Meiqing are two young women's sisters.Let Zhang Yun feel comfortable.Sitting on the sofa in the room, he lit a cigarette and smoked. Meiyun and Meiqing tidied up a little in bed. Dressed neatly, he got out of bed. Xu Yiyi, too, dressed up and walkeddown.Accompanied by Zhang Yun. Xu 11 knelt at Zhang Yun's feet and pinched Zhang Yun's thighs.I don't know what's on my face, and I'm blushing.Meiyun looked at her husband and stayed here, reluctant to leave for the time being. 'Hello, friends, long time no see! A year ago, I worked with Jackie Chan in action movies! The director asked me if I could change my hair, so now I see my hair is very long and crazy! Now I want to shoot a new action movie. The director asked me if I could change my hair, so now I want to cut my hair short! My role is a secret! I can't tell you about my role. But I canallow you to see what I look like after cutting my hair! Goodbye! Friends, look at me now, my hair is getting shorter! This is my hairstyle, maybe I will do a new hairstyle in the future! But now I feel the same, I am very excited now, because my hair is very comfortable now! Not crazy! Goodbye! “
来源:https://www.cnblogs.com/1654kjl/p/12568959.html