【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>>
Apache Parquet是Hadoop生态系统中任何项目均可使用的列式存储格式,而与选择数据处理框架,数据模型或编程语言无关。
parquet文件的优势
- 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。
- 压缩编码可以降低磁盘存储空间,由于同一列的数据类型是一样 的,可以使用不同的压缩编码。
- 只读取需要的列,支持向量运算,能够获取更好的扫描 性能。
- Parquet适配多种计算框架,查询引擎(Hive、Impala 、pig 、IBMBigSQL等等); 计算框架(MapReduce、Spark、Kite 、Cascading等等);数据模型(Avro、Thrift、 ProtocolBuffers等)
来源:oschina
链接:https://my.oschina.net/u/4427158/blog/3148945