导读:目前我国大数据产业发展已步入行业规模快速增长时期,随着“新基建”越来越受重视,大数据产业也将迎来发展新机遇。今天,小编带大家了解一些热门的大数据技术,以及一些硬核好书。
来源:华章计算机(hzbook_jsj)
目前我国大数据产业发展已步入行业规模快速增长时期,随着云时代的来临,大数据技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素,人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析技术将帮助企业用户在合理时间内攫取、管理、处理、整理海量数据,为企业经营决策提供积极的帮助。大数据分析作为数据存储和挖掘分析的前沿技术,广泛应用于物联网、云计算、移动互联网等战略性新兴产业。
大数据在用户画像建模、个性化推荐与精准营销中的应用占比越来越大。在众多数据分析方法中,用户画像几乎是后期数据工作的“标配”,适用于应用层的个性化推荐、精准营销、客群管理和运营等各个场景。用户画像是数据分析和算法工程都无法绕过的话题,小编为大家推荐《用户画像:方法论与工程化解决方案》。
赵宏田 著
这是一本从技术、产品和运营3个角度讲解如何从0到1构建一个用户画像系统的著作,同时它还为如何利用用户画像系统驱动企业的营收增长给出了解决方案。
书中手把手教授工程实现、模型搭建、应用场景等内容,对于做分层策略的运营人员、追求用户体验的产品经理、寻找解决方案的数据分析师、搭建底层特征的算法工程师来说,是不可多得的案头工具书!
大数据分析与挖掘已经成为大数据时代重要的技能之一,社会对这方面的人才的需求随着数据的增长而不断增长。数据分析师这个职业变得越来越重要,数据分析能力也变得尤为重要。而Python是数据分析的一门重要工具。小编为大家推荐《Python数据分析与挖掘实战(第2版)》。
张良均 等著
畅销书全新升级,第1版销售超过10万册,被国内100余所高等院校采用为教材,同时被广大数据科学工作者奉为经典,是Python数据分析与挖掘领域公认的事实标准。
本书基于新版的Python升级和优化,提供丰富的配套资源,如上机环境、Python源代码、案例建模数据、教学PPT。
在《2019-2020 年中国开发者调查报告》中,关于大数据技术应用现状分析发现:Hadoop 社区正式发行版本开发者最受欢迎;Spark 是使用最普遍的大数据平台组件;Redis 和Kafka 是最普遍使用的消息队列和数据采集技术组件。小编为大家推荐一本立足于企业真实的商用项目来讲解如何高效从事大数据实践的著作,《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》。
肖冠宇 著
技术层面,从全栈的角度系统梳理和详尽讲解了大数据的核心技术,包括Spark、Druid、Flume、Kafka等;
经验层面,为企业的大数据技术选型和大数据平台建设提供了成熟的解决方案;
实操层面,提供了大量的案例,其中包括2个综合性的案例。
流式计算是未来大数据发展的必然趋势,统一批处理和流处理的框架广受欢迎。就目前来看,Flink是一个优秀的统一批处理和流处理框架,国内相关的中文书籍和资料比较少。小编为大家推荐《Flink原理、实战与性能优化》,这本书从批量计算、流式计算等方面对Flink进行了非常系统的介绍,是一本非常不错的中文参考书。
张利兵 著
从功能、原理、实战和调优4个维度循序渐进讲解利用Flink进行分布式流式应用开发,指导读者从零基础入门到进阶。
Spark是专为大规模数据处理而设计的快速通用的计算引擎,Spark 是大数据开发者们必备的技能之一。Spark已经在全球范围内被广泛使用,无论是微软、Intel、阿里巴巴、百度、腾讯等国际互联网巨头,还是一些初创公司,都在使用Spark。小编为大家推荐《Spark大数据分析实战》。
高彦杰 倪亚宇 著
这本书根据应用场景讲解如何通过Spark进行大数据分析与应用构建,以实战为导向。
一本Spark的实战案例类的书籍,适合Spark初学者和开发人员阅读。
Apache Kylin是大数据时代的宠儿,是业界目前实现了秒级别交互式大数据分析的开源技术,数仓OLAP霸主。小编为大家推荐《Apache Kylin权威指南(第2版)》。这本书由 Apache Kylin 核心开发团队编写,系统地介绍了 Apache Kylin 安装、入门、调优、可视化、运维管理、流式计算、Spark 构建、扩展开发、跟主流云平台的集成,以及经典案例等各个方面,是系统学习Apache Kylin的优秀材料。
Apache Kylin 核心开发团队编写
国内关于Apache Kylin 的全面技术书
基于较新的Apache Kylin2.5,从架构设计、各模块的使用、与第三方的整合、二次开发以及开源实践等各个方面讲解Apache Kylin。
本书从入门开始,深入浅出,包含众多实际大数据分析案例,让技术落地解决实际问题。实操性强。
Redis和 Kafka 是最普遍使用的消息队列和数据采集技术组件,消息队列中间件是分布式系统中重要的组件,主要解决应用解耦、异步处理、流量削峰、消息通讯等 问题。Kafka 使用最为普遍。小编为大家推荐《Kafka源码解析与实战》,这本书全面解析了Kafka的核心架构设计和源码,是国内少有的针对Kafka进行系统性讲解的书籍。
王亮 编著
本书从LinkedIn(领英)公司内部大数据架构讲起,引申出消息队列Kafka,接着讲解Kafka的基本架构,然后着重分析Kafka内部的各模块实现细节。从诞生背景至架构组成,再到内部实现细节,由浅入深,循序渐进。
本书不仅讲解Kafka内部的实现原理,而且还详细描述Kafka外部的维护工具,对外的客户端编程原理以及和第三方集成的方式。
Hadoop在大数据平台的技术应用层面,除了 Java、Linux 等语言及命令之外,Hadoop 是大数据开发的重要框架,它主要以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 除了社区发行版,还有商业发行版,主要提供了更为专业的支持,这对于大型企业较为重要。
目前,数据分析与挖掘方面的技术和工具已经很多,而且在不断成熟,基于Hadoop架构的大数据挖掘技术在这方面具有非常明显的优势,应用范围也越来越广,但是这方面的系统性学习资料却十分稀缺。小编为大家推荐《Hadoop与大数据挖掘》
张良均 等著
这本书从大数据挖掘的应用出发,以电力、航空、医疗、互联网、制造、电信等行业真实案例为主线,详细讲解了数据挖掘建模的过程和数据挖掘的二次开发。
本文分享自微信公众号 - 小晨说数据(flink-spark)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
来源:oschina
链接:https://my.oschina.net/u/4658124/blog/4643741