Hadoop的I/O操作
一、数据完整性 HDFS的数据完整性 1、hadoop自带一套原子操作用于IO操作; 2、HDFS数据完整性:会对写入的所有数据计算校验和,并在读取数据时验证校验和,针对每个io.bytes.per.checksum指定字节的数据计算校验和; 3、由于HDFS存储着每个数据块的复本,因为它可以通过数据复本来修复损坏的数据块; LocalFileSystem:执行客户端的校验和验证 1、新建.filename.crc的隐藏文件,块大小于io.bytes.per.checksum控制,默认512字节; CheckSumFileSystem类:继承自FileSystem,向其他文件系统加入校验和 1、FileSystem rawFS = ....;FileSystem checksummedFS = new CheckSumFileSystem(rawFS); 二、压缩 1、最快的压缩方法:gzip -1 filename (-1为最快压缩,但空间减少最少,-9为节省最大空间压缩) 2、CodeC压缩/解压缩算法类:org.apache.hadoop.io.compress.DefaultCodeC/GzipCodeC/BZip2CodeC/LzopCodeC/Lz4CodeC/SnappCodeC 3、CompressionCodeC压缩/解压缩:写入输入流压缩方法--