Hadoop 学习总结
本文整理自 W3Cschool Hadoop 教程 (https://www.w3cschool.cn/hadoop/) Hadoop 关于 大数据概念 不能使用一台机器进行处理数据 大数据的核心是样本=总体 大数据特性 大量性(volume): 一般在大数据里,单个文件的级别至少为几十,几百GB以上 快速性(velocity): 反映在数据的快速产生及数据变更的频率上 多样性(variety): 泛指数据类型及其来源的多样化,进一步可以把数据结构归纳为结构化(structured),半结构化(semi-structured),和非结构化(unstructured) 易变性: 伴随数据快速性的特征,数据流还呈现一种波动的特征。不稳定的数据流会随着日,季节,特定事件的触发出现周期性峰值 准确性: 又称为数据保证(data assurance)。不同方式,渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低 复杂性: 体现在数据的管理和操作上。如何抽取,转换,加载,连接,关联以把握数据内蕴的有用信息已经变得越来越有挑战性 关键技术 数据分布在多台机器上 可靠性:每个数据块都复制到多个节点 性能:多个节点同时处理数据 计算随数据走 网络IO速度 << 本地磁盘 IO 速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行