《Spark高级数据分析第2版》由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。
《Spark高级数据分析(第2版)》中文PDF+英文PDF+源代码
《Spark高级数据分析(第2版)》中文PDF,452页,带目录,文字可复制;英文PDF,455页,带目录,文字可复制;配套源代码。
下载: https://pan.baidu.com/s/1AljbMRZcv5_vJ5GxStfrpg
提取码: iaar
根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。涵盖模式如下:
● 音乐推荐和Audioscrobbler数据集● 用决策树算法预测森林植被● 基于K均值聚类进行网络流量异常检测
● 基于潜在语义算法分析维基百科● 用GraphX分析伴生网络● 对纽约出租车轨迹进行空间和时间数据分析
● 通过蒙特卡罗模拟来评估金融风险● 基因数据分析和BDG项目● 用PySpark和Thunder分析神经图像数据
学习参考:《Hadoop权威指南第四版》中文PDF+英文PDF+代码
《Hadoop权威指南(第四版)》中文PDF,734页,带书签目录;英文PDF,805页,带书签目录。配套源代码。
下载: https://pan.baidu.com/s/13aLqszgjRZF2tpLeBwri3g
提取码: tqct
Hadoop生态都有涉及,很厚很全:HDFS, MapReduce1&2(YARN), Hive, HBase, Pig, ZooKeeper, Sqoop等。 多数章节对自己的要求都是了解和能用即可,唯独ZK一章爱不释手,从算法到实现到操作到应用讲的真是好。 系统性学习不还是得看经典书籍。
Python作为一种高级程序设计语言,凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言之一。《Python地理空间分析指南第2版》以地理空间分析为背景,介绍了Python在地理信息处理方面的应用技巧。共分为10章,分别介绍了Python与地理空间分析、地理空间数据、地理空间技术、Python的地理空间分析工具、Python与地理信息系统、Python与遥感、Python与高程数据、Python与地理空间高级建模、实时数据、综合应用等内容。内容结构清晰,示例完整,适合希望了解测绘数字化和分析的读者,也适合想使用Python进行空间地理分析、建模和GIS分析的开发人员及研究人员参考。
《Python地理空间分析指南第2版》中英文PDF+代码
《Python地理空间分析指南(第2版)》中文PDF,289页,带书签目录,文字可以复制。英文PDF,394页,带书签目录,文字可以复制。中英文两版对比学习。配套源代码。
下载: https://pan.baidu.com/s/1e-I3JaSIZfUNC5mXa_7-5w
提取码: n3mm
《Elasticsearch源码解析与优化实战 》PDF,362页,带目录,文字可复制。配套源代码。
下载: https://pan.baidu.com/s/1o5lSkqKxqiMnJwHIPiJ7cA
提取码: kqgb
介绍了Elasticsearch的系统原理,旨在帮助了解其内部原理、设计思想,以及在生产环境中如何正确地部署、优化系统。系统原理分两 方面介绍,一方面详细介绍主要流程,例如启动流程、选主流程、恢复流程;另一方面介绍各重要模块的实现,以及模块之间的关系 ,例如gateway模块、allocation模块等。最后一部分介绍如何优化写入速度、搜索速度等大家关心的实际问题,并提供了一些诊断问题 的方法和工具供参考。
分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。实时分析的分布式搜索引擎。可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
《Elasticsearch服务器开发第2版》中文PDF+英文PDF+源代码
《Elasticsearch服务器开发第2版》中文PDF,297页,带目录,文字可复制。英文PDF,428页,带目录,文字可复制。配套源代码。
下载: https://pan.baidu.com/s/1J3YGv8y_BRF4KrHzchF-iw
提取码: 54uw
感觉很nice。介绍了Elasticsearch这个优秀的全文检索和分析引擎从安装和配置到集群管理的各方面知识。
介绍如何启动和运行Elasticsearch、Elasticsearch的基本概念,以及如何以最基本的方式索引和搜索数据。讨论了 Querydsl查询语言,通过它可以创建复杂的查询并过滤返回的结果。展示了如何使用切面技术(faceting)基于查
询结果来计算汇总数据,如何使用新引进的聚合框架,如何使用Elasticsearch的空间搜索和预搜索,阐释 Elasticsearch的管理API,如分片安置控制和集群处理等功能。不管是全文检索和Elasticsearch的初学者,还是使用过Elasticsearch,能有所收获。
《相关性搜索利用Solr与Elasticsearch创建智能应用》中文PDF,391页,带目录,文字可复制。英文PDF,362页,带目录,文字可复制。配套源代码。
下载: https://pan.baidu.com/s/1XSPScfOwmOgIRSHHgZmXAg
提取码: mn39
《相关性搜索利用Solr与Elasticsearch创建智能应用》揭开了相关性搜索的神秘面纱,告诉大家如何将 Elasticsearch与 Solr这样的搜索引擎 作为可编程的相关性框架,从而表达业务排名规则。
学会如何结合各种外部数据源、分类方法以及文本分析手段对相关性进行编程,以满足用户的个性化需求,将令人满意的搜索结果呈 现给用户。学习怎样与业务人员协作,为业务找到正确的相关性需求,从而在搜索产品的整个研发生命周期内,实现相关性改进的良 性循环。
《相关性搜索利用Solr与Elasticsearch创建智能应用》介绍了搜索引擎的基本原理,及相关性搜索的调试技术,用大量实例的方式详述了 搜索引擎的诸多特性,以形成一整套针对相关性搜索的系统化方法,并倡导致力于提高搜索质量的企业文化。适用于想利用 Elasticsearch或 Solr尝试构建智能搜索应用的开发人员。