parquet介绍

假装没事ソ 提交于 2019-12-28 12:39:04

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>>

Apache Parquet是Hadoop生态系统中任何项目均可使用的列式存储格式,而与选择数据处理框架,数据模型或编程语言无关。

parquet文件的优势

  1. 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。
  2. 压缩编码可以降低磁盘存储空间,由于同一列的数据类型是一样 的,可以使用不同的压缩编码。
  3. 只读取需要的列,支持向量运算,能够获取更好的扫描 性能。
  4. Parquet适配多种计算框架,查询引擎(Hive、Impala 、pig 、IBMBigSQL等等); 计算框架(MapReduce、Spark、Kite  、Cascading等等);数据模型(Avro、Thrift、 ProtocolBuffers等)
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!