压缩率

linux 下 压缩文件

谁说我不能喝 提交于 2020-01-20 03:42:20
一、zip格式 zip可能是目前使用的最多的文档压缩格式。它最大的优点就是在不同的操作系统平台上使用。缺点就是支持 的压缩率不是很高,而tar.gz和tar.bz2在压缩率方面做得非常好。 我们可以使用下列的命令压缩一个文件: zip -r archive_name.zip filename (-r是压缩文件) 下面是如果解压一个zip文件: unzip archive_name.zip (解压文件在当前文件下) unzip archive_name.zip -d new_dir (解压文件可以将文件解压缩至一个你指定的的目录,使用-d参数) 二、tar格式 tar是在Linux中使用得非常广泛的文档打包格式。它的好处就是它只消耗非常少的CPU以及时间去打包文件,它 仅仅只是一个打包工具,并不负责压缩。下面是如何打包一个目录: tar -cvf archive_name.tar directory_to_compress -c参数是建立新的存档 -v参数详细显示处理的文件 -f参数指定存档或设备 打包之后如何解包: tar -xvf archive_name.tar 上面这个解包命令将会将文档解开在当前目录下面。当然,你也可以用下面的这个命令来解包到指定的路径: tar -xvf archive_name.tar -C new_dir (解包的参数是-C,不是小写c) 三、tar

云服务器怎么解压文件

风格不统一 提交于 2019-12-13 21:05:24
我们在使用云服务器的过程中,经常涉及到文件的解压缩,这里我们以Linux系统为例,下面宵云小编介绍下云服务器怎么解压文件。 一、zip格式 zip可能是目前使用的最多的文档压缩格式。它最大的优点就是在不同的操作系统平台上使用。缺点就是支持的压缩率不是很高,而tar.gz和tar.bz2在压缩率方面做得非常好。 我们可以使用下列的命令压缩一个文件: zip -r archive_name.zip filename (-r是压缩文件) 下面是如果解压一个zip文件: unzip archive_name.zip (解压文件在当前文件下) unzip archive_name.zip -d new_dir (解压文件可以将文件解压缩至一个你指定的的目录,使用-d参数) 二、tar格式 tar是在Linux中使用得非常广泛的文档打包格式。它的好处就是它只消耗非常少的CPU以及时间去打包文件,它仅仅只是一个打包工具,并不负责压缩。下面是如何打包一个目录: tar -cvf archive_name.tar directory_to_compress -c参数是建立新的存档 -v参数详细显示处理的文件 -f参数指定存档或设备 打包之后如何解包: tar -xvf archive_name.tar 上面这个解包命令将会将文档解开在当前目录下面。当然,你也可以用下面的这个命令来解包到指定的路径:

Hadoop数据压缩技术

扶醉桌前 提交于 2019-12-11 21:03:05
一、Hadoop数据压缩及其优缺点 1、压缩技术的好处与坏处 好处: 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。 坏处: 由于使用数据时,需要先将数据解压,加重了CPU的负荷。 使用压缩的基本原则: 运算密集型的job,少用压缩 IO密集型的job,多用压缩 2、压缩格式 压缩格式 Hadoop自带 算法 文件扩展名 是否可以切分 工具 Hadoop编码/解码器 Default 是,直接使用 Default .deflate 否 N/A org.apache.hadoop.io.compress.DefaultCodec Gzip 是,直接使用 Default .gz 否 gzip org.apache.hadoop.io.compress.GzipCodec bzip 是,直接使用 bzip2 .bz2 是 bzip2 org.apache.hadoop.io.compress.BZip2Codec LZO 否,需要安装 LZO .lzo 是 Lzop com.hadoop.compression.lzo.LzopCodec LZ4 否,需要安装 lZ4 .lz4 否 N/A com.hadoop.compression.lzo.Lz4Codec Snappy 否,需要安装 Snappy .snappy 否 N

Linux使用高压缩率的lzma和xz

时光毁灭记忆、已成空白 提交于 2019-12-10 16:08:12
压缩 tar -c --xz -f my_archive.tar.xz /some_directory # results in my_archive.tar.xz tar -c --lzma -f my_archive.tar.lzma /some_directory # results in my_archive.tar.lzma 解压缩 tar -x --xz -f my_archive.tar.xz # results in /some_directory tar -x --lzma -f my_archive.tar.lzma # results in /some_directory 其中--xz可以用-J代替 更简洁的方式: tar -cJf aaa.tar.xz my_dir tar -xJf aaa.tar.xz 或者使用tar的选项"-a"自动识别压缩文件后缀的方式: tar -caf aaa.tar.xz my_dir tar -xaf aaa.tar.xz 如果你嫌tar.xz 太长了,可以使用txz。 由于受到Dos 8.3文件名格式的限制,tar常使用下列缩写: .tgz等价于.tar.gz .tbz与tb2等价于.tar.bz2 .taz等价于.tar.Z .tlz等价于.tar.lzma .txz等价于.tar.xz 继续补充: 查看tar包中的文件

spark & 文件压缩

核能气质少年 提交于 2019-12-08 19:24:43
hdfs中存储的文件一般都是多副本存储,对文件进行压缩,不仅可以节约大量空间,适当的存储格式还能对读取性能有非常大的提升。 文本文件压缩 bzip2 压缩率最高,压缩解压速度较慢,支持split。 import org .apache .hadoop .io .compress .BZip 2Codec rdd .saveAsTextFile ( "codec/bzip2" ,classOf[BZip2Codec]) snappy json文本压缩率 38.2%,压缩和解压缩时间短。 import org .apache .hadoop .io .compress .SnappyCodec rdd .saveAsTextFile ( "codec/snappy" ,classOf[SnappyCodec]) gzip 压缩率高,压缩和解压速度较快,不支持split,如果不对文件大小进行控制,下次分析可能可能会造成效率低下的问题。 json文本压缩率23.5%,适合使用率低,长期存储的文件。 import org .apache .hadoop .io .compress .GzipCodec rdd .saveAsTextFile ( "codec/gzip" ,classOf[GzipCodec]) parquet文件压缩 parquet为文件提供了列式存储

Deep Compression

試著忘記壹切 提交于 2019-12-05 02:26:01
本文为Deep compression的论文笔记,相应的ppt及文字讲解 原论文《 Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman coding 》https://arxiv.org/abs/1510.00149 相关论文 深鉴科技FPGA2017最佳论文ESE Efficient speech recognition engine with sparse LSTM on FPGA论文详解 PipeCNN论文详解:用OpenCL实现FPGA上的大型卷积网络加速 韩松EIE:Efficient Inference Engine on Compressed Deep Neural Network论文详解 韩松博士毕业论文Efficient methods and hardware for deep learning论文详解 目录 一、摘要 意义 方法 作用 二、方法 2.1 剪枝 稀疏矩阵的存储 2.2 权值量化与共享 聚类方法 权值更新方法Fine-tune 意义 压缩率 量化没有降低数据精度 2.3 初始化权重的值 2.4 哈夫曼编码 可压缩性 哈夫曼编码 三、实验 四、结论 Deep compression是一篇关于模型压缩的论文

摘要: hadoop中4种压缩格式的特征的比较

回眸只為那壹抹淺笑 提交于 2019-12-03 14:42:02
摘要: hadoop中4种压缩格式的特征的比较 1 gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。 缺点:不支持split。 应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件,运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和java写的mapreduce程序完 全和文本处理一样,压缩之后原来的程序不需要做任何修改。 2 lzo压缩 优点:压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;支持hadoop native库;可以在linux系统下安装lzop命令,使用方便。 缺点:压缩率比gzip要低一些;hadoop本身不支持,需要安装;在应用中对lzo格式的文件需要做一些特殊处理(为了支持split需要建索引,还需要指定inputformat为lzo格式)。 应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。 3 snappy压缩 优点:高速压缩速度和合理的压缩率

Ubuntu16 压缩解压文件命令

匿名 (未验证) 提交于 2019-12-03 00:22:01
转载请注明出处: http://blog.csdn.net/feibendexiaoma/article/details/73739279 ZIP zip是比较常用的文档压缩格式,最大的有点是跨平台,缺点是支持的压缩率不是很高。 压缩 #zip -r studio.zip directory_to_compress 1 解压 #unzip studio.zip 1 TAR 好处是只消耗非常少的CPU及时间打包,只是一个打包工具,并不负责压缩。 #tar -cvf studio.tar directory_to_compress 1 解包 到当前目录下 #tar -xvf studio.tar 1 到指定目录下 #tar -xvf studio . tar -C /tmp/extract / 1 TAR.GZ 压缩时不会占用太多的CPU,就可以得到一个非常理想的压缩率。 压缩 #tar -zcvf studio.tar.gz directory_to_compress 1 解压 到当前目录 #tar -zxvf studio.tar.gz 1 到指定目录 #tar -zxvf studio . tar . gz -C /tmp/extract / 1 TAR.BZ2 这种压缩格式是这几种方式中压缩率最好的 # tar -jcvf studio.tar.bz2 directory_to

Apache Kafka(六)- High Throughput Producer

泄露秘密 提交于 2019-11-28 19:27:54
High Throughput Producer 在有大量消息需要发送的情况下,默认的Kafka Producer配置可能无法达到一个可观的的吞吐。在这种情况下,我们可以考虑调整两个方面,以提高Producer 的吞吐。分别为消息压缩(message compression),以及消息批量发送(batching)。 1. Message Compression Producer一般发送的数据都是文本数据,例如JSON ,但是这类数据的问题在于:数据量会较大,消耗较多的传输带宽。这种情况下,有必要对Producer的数据进行压缩。 数据压缩可以仅在Producer level完成即可,并不需要任何Broker或Consumer端的配置更改 控制压缩的参数为 compression.type,可选值为 none(默认),gzip,lz4,snappy 发送给Kafka的消息的数据量越大,使用Compression的收益也就越大 有博主针对压缩性能进行过测试,详细内容可以参考以下文档: https://blog.cloudflare.com/squeezing-the-firehose/ 一般Producer在向kafka传输消息时会用到Producer Batch,将多条消息以一个batch的方式传输。对一个batch的消息进行压缩,然后传输给Kafka,会大大减少消息的传输

Hadoop的数据压缩方式

一个人想着一个人 提交于 2019-11-28 16:23:28
Hadoop的数据压缩 概述 ​ 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。 ​ 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没有代价。 ​ 如果磁盘I/O和网络带宽影响了MapReduce作业性能,在任意MapReduce阶段启用压缩都可以改善端到端处理时间并减少I/O和网络流量。 ​ 压缩 Mapreduce 的一种优化策略:通过压缩编码对 Mapper 或者 Reducer 的输出进行压缩,以 减少磁盘IO ,提高MR程序运行速度(但相应增加了cpu运算负担)。 注意:压缩特性运用得当能提高性能,但运用不当也可能降低性能。 基本原则: (1) 运算密集型的job,少用压缩 (2) IO密集型的job,多用压缩 MR支持的压缩编码 压缩格式 hadoop自带? 算法 文件扩展名 是否可切分 换成压缩格式后,原来的程序是否需要修改 DEFAULT 是,直接使用 DEFAULT .deflate