作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。
《Spark高级数据分析第2版》由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。
《Spark高级数据分析(第2版)》中文PDF+英文PDF+源代码
《Spark高级数据分析(第2版)》中文PDF,452页,带目录,文字可复制;英文PDF,455页,带目录,文字可复制;配套源代码。
下载: https://pan.baidu.com/s/1AljbMRZcv5_vJ5GxStfrpg
提取码: iaar
根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。涵盖模式如下:
● 音乐推荐和Audioscrobbler数据集● 用决策树算法预测森林植被● 基于K均值聚类进行网络流量异常检测
● 基于潜在语义算法分析维基百科● 用GraphX分析伴生网络● 对纽约出租车轨迹进行空间和时间数据分析
● 通过蒙特卡罗模拟来评估金融风险● 基因数据分析和BDG项目● 用PySpark和Thunder分析神经图像数据
结合理论和实践,《Hadoop权威指南第四版》由浅入深,全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台。5部分24 章,第Ⅰ部分介绍Hadoop 基础知识,第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维,第Ⅳ部分介绍Hadoop 相关开源项目,第Ⅴ部分提供了三个案例。
学习参考:《Hadoop权威指南第四版》中文PDF+英文PDF+代码
《Hadoop权威指南(第四版)》中文PDF,734页,带书签目录;英文PDF,805页,带书签目录。配套源代码。
下载: https://pan.baidu.com/s/13aLqszgjRZF2tpLeBwri3g
提取码: tqct
Hadoop生态都有涉及,很厚很全:HDFS, MapReduce1&2(YARN), Hive, HBase, Pig, ZooKeeper, Sqoop等。 多数章节对自己的要求都是了解和能用即可,唯独ZK一章爱不释手,从算法到实现到操作到应用讲的真是好。 系统性学习不还是得看经典书籍。
Python作为一种高级程序设计语言,凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言之一。《Python地理空间分析指南第2版》以地理空间分析为背景,介绍了Python在地理信息处理方面的应用技巧。共分为10章,分别介绍了Python与地理空间分析、地理空间数据、地理空间技术、Python的地理空间分析工具、Python与地理信息系统、Python与遥感、Python与高程数据、Python与地理空间高级建模、实时数据、综合应用等内容。内容结构清晰,示例完整,适合希望了解测绘数字化和分析的读者,也适合想使用Python进行空间地理分析、建模和GIS分析的开发人员及研究人员参考。
《Python地理空间分析指南第2版》中英文PDF+代码
《Python地理空间分析指南(第2版)》中文PDF,289页,带书签目录,文字可以复制。英文PDF,394页,带书签目录,文字可以复制。中英文两版对比学习。配套源代码。
下载: https://pan.baidu.com/s/1e-I3JaSIZfUNC5mXa_7-5w
提取码: n3mm
某种意义上说,elasticsearch 可分为集群层、索引层、分片层和最后的存储引擎层(lucene);集群层,一个节点作为 master,采用 bully 算法选出,负责进行 allocation、全局状态管理等;其他节点作为协调节点(gateway、query、route & merge) 和 数据节点;每个 数据节点多个分片,分片间主从,采用 PacificA、translog 进行同步; 一个比较奇怪的点是,es 居然是 partition by DocId(而非 term)这 导致了其搜索必须采用广播形式,因此无法做到很大规模;线程模型嘛,看起来是按照任务,分为不同独立的线程池和队列,底层数 据共享。
对Elasticsearch进行改进的研发人员、平台运维人员,对分布式搜索感兴趣的,在使用Elasticsearch过程中遇到了问题,推荐学习 《Elasticsearch源码解析与优化实战》。
《Elasticsearch源码解析与优化实战 》PDF,362页,带目录,文字可复制。配套源代码。
下载: https://pan.baidu.com/s/1o5lSkqKxqiMnJwHIPiJ7cA
提取码: kqgb
介绍了Elasticsearch的系统原理,旨在帮助了解其内部原理、设计思想,以及在生产环境中如何正确地部署、优化系统。系统原理分两 方面介绍,一方面详细介绍主要流程,例如启动流程、选主流程、恢复流程;另一方面介绍各重要模块的实现,以及模块之间的关系 ,例如gateway模块、allocation模块等。最后一部分介绍如何优化写入速度、搜索速度等大家关心的实际问题,并提供了一些诊断问题 的方法和工具供参考。
初看ES源码,有一本这样的源码解析的书,知道从哪个模块,更具体到哪个类入手开始看,所以还是有一些帮助的。其实发现书中好 多东西也是从官方文档中借鉴过来的吧,结合书和英文文档看,理解起来会快一些。比如第六章数据副本模型:参考的链接就有很多 docs-replication、elasticsearch-sequence-ids-6-0、pacifica-replication-in-log-based-distributed-storage-systems、issue-24841、data-replication 、BullyExample。
Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包括了全文搜索功能,还可以进行以下工作:
分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。实时分析的分布式搜索引擎。可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
《Elasticsearch服务器开发第2版》中文PDF+英文PDF+源代码
《Elasticsearch服务器开发第2版》中文PDF,297页,带目录,文字可复制。英文PDF,428页,带目录,文字可复制。配套源代码。
下载: https://pan.baidu.com/s/1J3YGv8y_BRF4KrHzchF-iw
提取码: 54uw
内容基本上以ES官方网站的参考指南为主,对于ES入门者帮助挺大。很好的入门手册,讲的很全面。开篇介绍各 种基础概念,第三章对基本的搜索语句讲的比较详细。花了三天时间从无到有完成了个模糊查询的 Java小需求,
感觉很nice。介绍了Elasticsearch这个优秀的全文检索和分析引擎从安装和配置到集群管理的各方面知识。
介绍如何启动和运行Elasticsearch、Elasticsearch的基本概念,以及如何以最基本的方式索引和搜索数据。讨论了
Querydsl查询语言,通过它可以创建复杂的查询并过滤返回的结果。展示了如何使用切面技术(faceting)基于查
询结果来计算汇总数据,如何使用新引进的聚合框架,如何使用Elasticsearch的空间搜索和预搜索,阐释
Elasticsearch的管理API,如分片安置控制和集群处理等功能。不管是全文检索和Elasticsearch的初学者,还是使用过Elasticsearch,能有所收获。
构建智能搜索应用是现在互联网业务中的工程热点,相关性搜索需要一定的软性技能,较高的查全率保证了所有正确的匹配都会出现 在搜索结果中,而较高的查准率则保证了搜索结果中只包含较少的错误匹配。
推荐学习《相关性搜索》,更多的是讲搜索的原理,如何实现与用户需求更相关的搜索结果,不囿于具体的语法,而是从高一层次讲 述了相关性在搜索引擎中的重要性、实现和调优,加深了对搜索引擎的理解。
《相关性搜索利用Solr与Elasticsearch创建智能应用》中文PDF+英文PDF+源代码
《相关性搜索利用Solr与Elasticsearch创建智能应用》中文PDF,391页,带目录,文字可复制。英文PDF,362页,带目录,文字可复制。配套源代码。
下载: https://pan.baidu.com/s/1XSPScfOwmOgIRSHHgZmXAg
提取码: mn39
《相关性搜索利用Solr与Elasticsearch创建智能应用》揭开了相关性搜索的神秘面纱,告诉大家如何将 Elasticsearch与 Solr这样的搜索引擎
作为可编程的相关性框架,从而表达业务排名规则。
学会如何结合各种外部数据源、分类方法以及文本分析手段对相关性进行编程,以满足用户的个性化需求,将令人满意的搜索结果呈
现给用户。学习怎样与业务人员协作,为业务找到正确的相关性需求,从而在搜索产品的整个研发生命周期内,实现相关性改进的良
性循环。
《相关性搜索利用Solr与Elasticsearch创建智能应用》介绍了搜索引擎的基本原理,及相关性搜索的调试技术,用大量实例的方式详述了 搜索引擎的诸多特性,以形成一整套针对相关性搜索的系统化方法,并倡导致力于提高搜索质量的企业文化。适用于想利用 Elasticsearch或 Solr尝试构建智能搜索应用的开发人员。
在使用搜索引擎的时候,我们关心的是其与相关性有关的那些特性,而全然不会涉及其他特性或知识点,这些特性包括:内容分析、 数据提取、特征缩放、和性能表现。