snappy

mongodb的安装与使用(一)

 ̄綄美尐妖づ 提交于 2020-05-03 21:50:16
一、什么是MongoDB ? MongoDB一种由C++语言编写的,是一个基于分布式文件存储的非关系型数据库(NoSql),是一种强大、灵活、可扩展的数据存储方式,因为MongoDB是文档模型,数据结构由键值(key=>value)对组成, 似于 JSON 对象,字段值可以包含其他文档,数组及文档数组。自由灵活很高。 同时对于大数据量、高并发、弱事务的互联网应用,与高负载的情况下,添加更多的节点,可以保证服务器性能。 MongoDB内置的水平扩展机制提供了从百万到十亿级别的数据量处理能力,还对MapReduce式聚合的支持,以及对地理空间索引的支持。 MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。 二、MongoDB 优缺点 优点 文档结构的存储方式,能够更便捷的获取数据 内置GridFS,支持大容量的存储 海量数据下,性能优越 动态查询 全索引支持,扩展到内部对象和内嵌数组 查询记录分析 快速,就地更新 高效存储二进制大对象 (比如照片和视频) 复制(复制集)和支持自动故障恢复 内置 Auto- Sharding 自动分片支持云级扩展性,分片简单 MapReduce 支持复杂聚合 缺点 不支持事务操作 MongoDB 占用空间过大 (不过这个确定对于目前快速下跌的硬盘价格来说,也不算什么缺点了) MongoDB没有如MySQL那样成熟的维护工具

HBase 热点问题——rowkey散列和预分区设计

不想你离开。 提交于 2020-04-30 20:25:52
热点发生在大量的client直接访问集群的一个或极少数个节点(访问可能是读,写或者其他操作)。大量访问会使热点region所在的单个机器超出自身承受能力,引起性能下降甚至region不可用,这也会影响同一个RegionServer上的其他region,由于主机无法服务其他region的请求,造成资源浪费。设计良好的数据访问模式以使集群被充分,均衡的利用。  数据倾斜:Hbase可以被划分为多个Region,但是默认创建时只有一个Region分布在集群的一个节点上,数据一开始时都集中在这个Region,也就是集中在这一个节点上,就算region存储达到临界值时被划分,数据也是存储在少数节点上。这就是数据倾斜 随机散列与预分区二者结合起来,是比较完美的 。预分区一开始就预建好了一部分region,这些region都维护着自己的start-end keys,在配合上随机散列,写数据能均衡的命中这些预建的region,就能解决上面的那些缺点,大大提供性能。 1. 预分区 1.1 HBase的预分区概述 默认分区: HBase表被创建时,只有1个Region,当一个Region过大达到默认的阀值时(默认10GB大小),HBase中该Region将会进行split,分裂为2个Region,以此类推。 缺点: 表在进行split的时候,会耗费大量的资源,频繁的分区对HBase的性能有巨大的影响

kafka produce.properties

空扰寡人 提交于 2020-04-27 20:06:21
#指定kafka节点的列表,用于获取metadata,不必全部指定 metadata.broker.list= kafka01:9092,kafka02:9092,kafka03:9092 #指定分区处理类,默认kafka.prodicer.DefaultPartitioner,表通过key哈希到对应的分区 # partitioner.class= kafka.producer.DefaultPartitioner #是否压缩,0代表不压缩,1代表用gzip压缩,2代表用snappy压缩 compression.codec= 0 #指定序列化处理类 serializer.class= kafka.serializer.DefaultEncoder #如果要压缩消息,这里指定哪些topic要压缩消息,默认是empty,表示不压缩 # compressed.topics= #设置发送数据是否需要服务端的反馈,有三个值0,1,-1 # 0:producer不会等待broker发送ack # 1:当leader接收到消息后发送ack # -1:当所有的follower都同步消息成功后发送ack request.required.acks= 0 #在向producer发送ack之前,broker均需等待的最大时间 request.timeout.ms= 10000 #同步还是异步

[转帖]RocksDB简介

人盡茶涼 提交于 2020-04-17 08:25:31
【推荐阅读】微服务还能火多久?>>> RocksDB简介 https: // www.jianshu.com/p/a0088d7e9b97 1、RocksDB简介 RocksDB项目起源于Facebook的一个实验项目,该项目旨在开发一个与快速存储器(尤其是闪存)存储数据性能相当的数据库软件,以应对高负载服务。 这是一个c++库,可用于存储键和值,可以是任意大小的字节流。它支持原子读和写。 RocksDB具有高度灵活的配置功能,可以通过配置使其运行在各种各样的生产环境,包括纯内存,Flash,硬盘或HDFS。它支持各种压缩算法,并提供了便捷的生产环境维护和调试工具。 2、假设和目标 性能: RocksDB的主要设计目标是保证存取快速存储器和高负载服务器更高效,保证充分利用Flash或RAM子系统提供的高速率读写,支持高效的查找和范围scan,支持高负载的随机读、高负载的更新操作或两者的结合。其架构应该支持高并发读写和容量大增时系统的一致性。 向后兼容性: 这个软件的新版本应该是向后兼容的,因此,当升级到新版本时现有的应用程序不需要改变。 3、高级体系结构 RocksDB是一个嵌入式键值存储器,其中键和值是任意的字节流。RocksDB中的所有数据是按序存放的。常见操作包括Get(key), Put(key), Delete(key) and Scan(key)。

Hadoop(22)-Hadoop数据压缩

佐手、 提交于 2020-04-02 05:55:00
1.压缩概述 2.压缩策略和原则 3.MapReduce支持的压缩编码 64位系统下的单核i7,Snappy的压缩速率可以达到至少250MB/S,解压缩速率可以达到至少500MB/S 4.压缩方式选择 1) Gzip 2) Bzip2 3) Lzo 4) Snappy 4. 压缩位置选择 压缩可以在MapReduce作用的任意阶段启用 5. 压缩参数配置 参数 默认值 阶段 建议 io.compression.codecs (在core-site.xml中配置) org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec 输入压缩 Hadoop使用文件扩展名判断是否支持某种编解码器 mapreduce.map.output.compress(在mapred-site.xml中配置) false mapper输出 这个参数设为true启用压缩 mapreduce.map.output.compress.codec(在mapred-site.xml中配置) org.apache.hadoop.io.compress.DefaultCodec mapper输出

PHP输出PDF打印HTML5+CSS3打印格式控制

浪子不回头ぞ 提交于 2020-03-27 18:23:39
3 月,跳不动了?>>> ERP系统进入尾声,各种送货单、退货单、合同、对账单等等一系列的东东排着队调打印格式。HTML5+CSS3已经这样流行,然则眼下,基于CSS3的打印控制,居然还处于原始部落阶段,Chrome、Firefox、Edge等连简单的@page都支持得不完善。经过一番折腾,终于找到好的解决方案,即借道输出PDF,先让PHP抓取目标的HTML代码,然后输出到指定解析器,生成PDF内容,最终打印。 实际上,这个模式里: 1. HTML5+CSS3,只是输出内容的调节环节,需要确保CSS3 @page的全特性支持无误。尤其是长文章(合同)分页,和长表格自动分页(最好是thead和tfoot能分页重复显示)。 2. PDF预览时,实际上就是打印前的排版预览,之后就直接输出打印即可。 3. PDF可供用户自行下载成本地文件做备份。 4. HTML内容(PDF内容),可以通过缓存类库进行缓存,自己调控周期、压缩存储即可。 于是打印问题迎刃而解。 本文推荐两个可用的类库: Prince 和 wkhtmltopdf 。这两位都是跨平台系统支持,并且不需要内嵌于php,不需要有任何担心。 这两货都需要在官网下载安装,如果是windows,记得安装的时候别放在C盘,不然会无法执行。 php调用: Prince:下载他官方的这个类库: Prince for php 。顺带说

MongoDB-New flexible storage architecture

感情迁移 提交于 2020-03-20 06:18:53
MongoDB从2.8开始,有了新的更灵活的存储架构,引入了存储引擎API,目前已经支持两种存储引擎MMAPv1和WiredTiger。 MMAPv1 - MongoDB2.8版本的默认存储引擎,其基于内存映射技术的存储引擎,支持集合级锁(Collection Level Locking)。 WiredTiger - MongoDB3.0版本的默认存储引擎 ,(3.0正式版发布后,MMAPv1为默认存储引擎2015.3.5)BerkerlyDB 架构师开发的存储引擎,主要特点为高性能写入、支持压缩(Snappy和Zlib,Snappy默认)和文档级锁(Document Level Locking)。 备注: 存储引擎 - 存储引擎是数据库管理系统的一个重要组成部分,它的主要职责是把数据存储到磁盘和把数据从磁盘中检索出来。不同的存储引擎对不同的应用需求有特殊的优化。 存储引擎API - 存储引擎API提供统一的接口,可以让特定用户,根据特定的性能、可用性、高效性、容量及扩展性等具体需求开发适合于这些场景的存储引擎。 Snappy - Snappy 是一个 C++ 的用来压缩和解压缩的开发包,其目标不是最大限度压缩,而且不兼容其他压缩格式。Snappy 旨在提供高速压缩速度和合理的压缩率。Snappy 比 zlib 更快,但文件相对要大 20% 到 100%。在 64位模式的 Core

关于spark-shell 程序执行中 net.jpountz.lz4.LZ4BlockInputStream.(Ljava/io/InputStream;Z)V 问题

南楼画角 提交于 2020-03-12 10:32:24
今天在用spark-shell测试的时候,发现报了这个错误,怎么也没想明白是什么原因。 可能是spark默认使用的压缩方式是lz4的,但是jar包又不缺,所以没有弄懂,后续弄懂了再来修改博客 目前的解决方案: 将压缩方式改成snappy,这样就不报错了,暂时能用 ./spark-shell --master local[2] --conf spark.io.compression.codec=snappy 来源: CSDN 作者: Piggy-George 链接: https://blog.csdn.net/zhc74110/article/details/104780630

小而美 | Mac上鲜为人知,但极大提升效率的小工具

不羁岁月 提交于 2020-02-28 12:51:20
一、Noizio -自然而然的白噪声,专注工作 Noizio是一款OS X 下的白噪音应用,可以让自己觉着是坐在一个壁炉前、咖啡馆里、森林里,海边,有 10种模拟音效,可以让你忽略其他噪音,专注工作。这是一种自然而然的感觉,不需要刻意去倾听,一种背景音。Noizio 支持优山美地、支持Retina,可以随机启动,总之很棒呆。 Mac AppStore下载: https://itunes.apple.com/us/app/noizio/id928871589?mt=12 二、Recordit- 两次点击即可轻松做出GIF Recordit 是一款 Windows、OS X 平台下的屏幕录制工具,非常易用并且可以导出为 GIF 动画。一共就一个按钮,开始/结束即完成录屏。视频会自动上传到Recordit网站并得到一个url,你可以直接分享这个 url 或者打开后下载 GIF 再分享,支持直接分享到 Twitter。 官网: http://recordit.co/ (需要科学上网) 三、littlefox- 一键秒连的科学上网工具 littlefox(小狐狸加速器)是一款科学上网工具,全平台客户端,简单易用,无需配置,一个按钮即可控制连接/断开。工具就应该这个样子,省心高效。 除此之外,速度非常快,刷FB和刷微博一样溜,看海外超清视频和看优酷一样流畅。小狐狸打破了我对vpn麻烦、慢

14、Hive压缩、存储原理详解与实战

空扰寡人 提交于 2020-02-03 18:40:58
1、Hive 压缩 1.1数据压缩说明 压缩模式评价: (1)压缩比 (2)压缩时间 (3)已经压缩的是否可以再分割;可以分割的格式允许单一文件有多个Mapper程序处理,才可以更好的并行化。 Hadoop编码/解码器方式: 1.2数据压缩使用 压缩模式评价 可使用以下三种标准对压缩方式进行评价 1 、压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2、压缩时间:越快越好 3、已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化 常见压缩格式 压缩方式 压缩比 压缩速度 解压缩速度 是否可分割 gzip 13.4% 21 MB/s 118 MB/s 否 bzip2 13.2% 2.4MB/s 9.5MB/s 是 lzo 20.5% 135 MB/s 410 MB/s 是 snappy 22.2% 172 MB/s 409 MB/s 否 Hadoop编码/解码器方式 压缩格式 对应的编码/解码器 DEFLATE org.apache.hadoop.io.compress.DefaultCodec Gzip org.apache.hadoop.io.compress.GzipCodec BZip2 org.apache.hadoop.io.compress.BZip2Codec LZO com.hadoop.compress