Hadoop数据压缩技术
一、Hadoop数据压缩及其优缺点 1、压缩技术的好处与坏处 好处: 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。 坏处: 由于使用数据时,需要先将数据解压,加重了CPU的负荷。 使用压缩的基本原则: 运算密集型的job,少用压缩 IO密集型的job,多用压缩 2、压缩格式 压缩格式 Hadoop自带 算法 文件扩展名 是否可以切分 工具 Hadoop编码/解码器 Default 是,直接使用 Default .deflate 否 N/A org.apache.hadoop.io.compress.DefaultCodec Gzip 是,直接使用 Default .gz 否 gzip org.apache.hadoop.io.compress.GzipCodec bzip 是,直接使用 bzip2 .bz2 是 bzip2 org.apache.hadoop.io.compress.BZip2Codec LZO 否,需要安装 LZO .lzo 是 Lzop com.hadoop.compression.lzo.LzopCodec LZ4 否,需要安装 lZ4 .lz4 否 N/A com.hadoop.compression.lzo.Lz4Codec Snappy 否,需要安装 Snappy .snappy 否 N