快照技术

深入理解Flink核心技术及原理

只谈情不闲聊 提交于 2019-11-29 17:42:36
前言 Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念。 文章转载自: 深入理解Flink核心技术 一.Flink简介 Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。 DataStream API,对数据流进行流处理操作,将流式的数据抽象成分布式的数据流,用户可以方便地对分布式数据流进行各种操作,支持Java和Scala。 Table API,对结构化数据进行查询操作,将结构化数据抽象成关系表,并通过类SQL的DSL对关系表进行各种查询操作,支持Java和Scala。 此外,Flink还针对特定的应用领域提供了领域库

存储系统的快照技术

随声附和 提交于 2019-11-29 14:49:45
赵二狗刚刚毕业,应聘进入了锤钮匹科技有限公司,成为了这里的新员工。入司的第一天是分配宿舍(背景音:天哪,还有宿舍!羡慕嫉妒恨!)。跟他在同一个宿舍的是公司的老员工 王大拿,王大拿是该公司的架构师,对公司的情况基本上无所不知。请注意,这里说的是公司的八卦新闻,哈哈! 赵二狗进了宿舍,王大拿正在那里噼里啪啦的敲键盘... ... 赵二狗: 前辈,我是新报道的同事。 没有任何反应。 “前辈”,赵二狗提高了嗓门。 还是没有任何反应。 “前辈!”,赵二狗大喝一声。 王大拿忽的从椅子上站了起来,“干毛,吓死老子了”,王大拿略带怒气的说。 “前辈,我是新入职的同事,跟您一个宿舍,认识您很高兴!”,赵二狗面带笑容的说。 一听这样,王大拿笑了,“好说,好说,你随便坐吧,我这忙着调程序呢”。 “周末还不休息!?”赵二狗小声嘀咕着。 王大拿很愤愤,“是啊,娘的,遇到个Bug,阻塞好几天了。” “什么问题?”赵二狗问。 “说了你也不懂,小鲜肉”,王大拿不屑的说。 王大拿继续说, “你知道什么是快照吗?” “切,不就是快照,那有什么不懂的,我也是堂堂985的硕士研究生,之前专门搞存储的”,赵二狗很不爽。 “好小子,那你讲讲”,王大拿突然提起了兴趣。 于是赵二狗同学开始娓娓道来... ... 什么是快照 快照是存储系统中的一种数据保护技术,主要是实现数据的 逻辑保护。所谓逻辑保护

Raid与Lvm磁盘阵列

怎甘沉沦 提交于 2019-11-28 13:56:41
一、Raid磁盘冗余阵列 RAID 技术通过把多个硬盘设备组合成一个容量更大、安全性更好的磁盘阵列,并把数据切割成多个区段后分别存放在各个不同的物理硬盘设备上,然后利用分散读写技术来提升磁盘阵列整体的性能,同时把多个重要数据的副本同步到不同的物理硬盘设备上,从而起到了非常好的数据冗余备份效果。 RAID 技术确实具有非常好的数据冗余备份功能,但是它也相应地提高了成本支出。 RAID 不仅降低了硬盘设备损坏后丢失数据的几率,还提升了硬盘设备的读写速度,所以它在绝大多数运营商或大中型企业中得以广泛部署和应用。 出于成本和技术方面的考虑,需要针对不同的需求在数据可靠性及读写性能上作出权衡,制定出满足各自需求的不同方案。 1、Raid0 RAID 0 技术把多块物理硬盘设备(至少两块)通过硬件或软件的方式串联在一起,组成一个大的卷组,并将数据依次写入到各个物理硬盘中。这样一来,在最理想的状态下,硬盘设备的读写性能会提升数倍,但是若任意一块硬盘发生故障将导致整个系统的数据都受到破坏。通俗来说, RAID 0 技术能够有效地提升硬盘数据的吞吐速度,但是不具备数据备份和错误修复能力。 2、Radi1 尽管RAID 0技术提升了硬盘设备的读写速度,但是它是将数据依次写入到各个物理硬盘中,也就是说,它的数据是分开存放的,其中任何一块硬盘发生故障都会损坏整个系统的数据。因此

Linux就该这么学07学习笔记

荒凉一梦 提交于 2019-11-28 04:04:49
参考链接: https://www.linuxprobe.com/chapter-07.html RAID磁盘冗余阵列 RAID 0 RAID 0技术把多块物理硬盘设备(至少两块)通过硬件或软件的方式串联在一起,组成一个大的卷组,并将数据依次写入到各个物理硬盘中。这样一来,在最理想的状态下,硬盘设备的读写性能会提升数倍,但是若任意一块硬盘发生故障将导致整个系统的数据都受到破坏。通俗来说,RAID 0技术能够有效地提升硬盘数据的吞吐速度,但是不具备数据备份和错误修复能力。如图所示,数据被分别写入到不同的硬盘设备中,即disk1和disk2硬盘设备会分别保存数据资料,最终实现提升读取、写入速度的效果。 ​ RAID 1 尽管RAID 0技术提升了硬盘设备的读写速度,但是它是将数据依次写入到各个物理硬盘中,也就是说,它的数据是分开存放的,其中任何一块硬盘发生故障都会损坏整个系统的数据。因此,如果生产环境对硬盘设备的读写速度没有要求,而是希望增加数据的安全性时,就需要用到RAID 1技术了。 RAID 1把两块以上的硬盘设备进行绑定,在写入数据时,是将数据同时写入到多块硬盘设备上(可以将其视为数据的镜像或备份)。当其中某一块硬盘发生故障后,一般会立即自动以热交换的方式来恢复数据的正常使用。 ​ ​ 优缺点:​ RAID 1技术虽然十分注重数据的安全性

时光之旅-51CTO(2005-2017)

这一生的挚爱 提交于 2019-11-28 01:15:20
考虑到新年伊始,节后综合征估计还没消散,就先和大家聊聊比较有意思的话题 今天发现一个地方,可以能洞穿网站的历史,我估计51CTO官方没有记录历史的习惯,让我们看看历史上的51CTO吧 以下为每年一个网站快照,未必有代表性,但是真实的反应了网站的发展与变化和互联网&&IT趋势(由于是截图,只保留部分内容) 2005-51CTO 2005年,是51CTO创立之年,它大概是这个样子的,用今天眼光看,网站布局貌似还是蛮丑的 2006-51CTO 到了2006比年,内容是这样的,SUN貌似还活着 2007-51CTO 2007年,我赫然看见了王达的文章位于首页 2008-51CTO 嗯,让国人兴奋又难过的一年,有奥运会们还有汶川大地震 2009-51CTO 如果没有记错的话,我应该是在09年入驻的51CTO 2010-51CTO 在右上角看到English的标记 2011-51CTO 这一年出现了商务办公 2012-51CTO WIN8预览版出现了 2013-51CTO 这一年,学院上线了,但你别问我哪月哪天 2014-51CTO 14年Swift成了热门语言 2015-51CTO 15年应该是DOCKER开始兴起之年 2016-51CTO 16年,貌似出了高招 2017-51CTO 这是最后一张去年的网站快照 伙伴们,我们的时光之旅结束了。本文没有任何技术含量

阿里云云计算认证ACP模拟考试练习题第4套模拟题分享(共10套)

旧街凉风 提交于 2019-11-28 00:33:25
阿里云认证考试包含ACA、ACP、ACE三种认证类型,报名考试最多的是ACP认证考试,本人整理了100道全真阿里云ACP认证考试模拟试题,适合需要参加阿里云ACP认证考试的人复习,模拟练习。此为第4套模拟题分享。 阿里云云计算认证ACP模拟考试练习题4 认证级别 云计算 大数据 云安全 中间件 助理工程师(ACA) 云计算助理工程师认证报名入口 大数据助理工程师认证报名入口 云安全助理工程师认证报名入口 专业工程师(ACP) 云计算工程师认证报名入口 大数据工程师认证报名入口 大数据分析师认证报名入口 云安全工程师认证报名入口 企业级互联网架构工程师认证报名入口 高级工程师(ACE) 云计算架构师高级认证报名入口 认证证书有效性查询入口 阿里云代金券 (可以用于抵扣报名费) ​ -------------------------------------------------------------------------------------------------------------- 试题说明:本试卷分单选(共50题)、多选(共30题)、判断(共20题)三种题型,方框选项题为多选题,圆圈选项题为单选题,对、错选项题为判断题 单选题(共50题 每题1分) 1 用户在阿里云以外的服务器上安装“安骑士客户端”后,通过_________方式与指定的阿里云官网帐号关联。 (1.0

Linux逻辑卷管理(LVM)

戏子无情 提交于 2019-11-27 18:22:53
Linux逻辑卷管理(LVM) LVM基本概念 PV (物理卷): 可以由硬盘或分区创建。(使用硬盘分区创建时PV时,若原分区已有文件系统,需将分区的id更改为8e,使用fdisk 命令中t选项修改) VG(卷组): 由若干个PV组成,创建时候,需指定最小单元PE(物理扩展盘区)大小,并同时将指定的PV加入VG内作为成员。 PE(Physical Extent): PE是PV中固定大小的物理存储单元,LVM技术就是通过在VG中交换PE来实现LV的空间容量扩容或缩减的 LV(逻辑卷): 在VG中划分,由若干个PE组成的分区,可以动态调整大小,其空间需小于或等于VG的最大空间。 LVM相关原理示意图如下: LVM的操作管理 LVM操作相关命令 pv管理工具 显示pv信息 pvs:简要pv信息显示 pvdisplay:显示pv详细信息 创建pv pvcreate /dev/DEVICE 删除pv pvremove /dev/DEVICE vg管理工具 显示卷组 vgs vgdisplay 创建卷组 vgcreate [-s #[kKmMgGtTpPeE]] VolumeGroupName PhysicalDevicePath [PhysicalDevicePath...] 管理卷组 vgextend VolumeGroupName PhysicalDevicePath

ENode 2.0 - 整体架构介绍

天涯浪子 提交于 2019-11-27 12:38:18
前言 今天是个开心的日子,又是周末,可以轻轻松松的写写文章了。去年,我写了ENode 1.0版本,那时我也写了一个 分析系列 。经过了大半年的时间,我对第一个版本做了很多架构上的改进,最重要的就是让ENode实现了分布式,通过新增一个分布式消息队列 EQueue 来实现。之所以要设计一个分布式的消息队列是因为在enode 1.0版本中,某个特定的消息队列只能被某个特定的消费者消费。这样就会导致一个问题,就是如果这个消费者挂了,那这个消费者对应的消息队列就不能自动被其他消费者消费了。这个问题会直接导致系统不可用。而ENode 2.0中,就不会有这个问题了,因为消息队列被设计为独立的,被消费者所共享的;一个消息队列可以被多个消费者集群消费或广播消费,如果一个消费者挂了,那其他的消费者会自动顶上。这里具体的细节,我会在后面详细介绍。 ENode框架简介 框架名称:ENode 框架特色: DDD+CQRS + EDA + Event Sourcing + In Memory 设计目标:让程序员只关注业务代码、高性能、分布式、可水平扩展 开源地址: https://github.com/tangxuehua/enode 基于enode实现的一个完成案例,一个论坛: https://github.com/tangxuehua/forum nuget包Id:ENode

MySQL之事务

泪湿孤枕 提交于 2019-11-27 05:58:37
什么是事务? 事务是一个或一组数据库操作的集合。 事务的ACID 原子性:事务要么都做,要么都不做。如果有一个操作执行失败,其余操作必须取消执行。 一致性:事务必须从一个一致性状态变到另一个一致性状态,它和原子性是密不可分的。如果一个事务是将A的值转移到B,那么B增加的同时A必须得减少一致的数量 隔离性:即使是在并发条件下,事务也不可以被其他事务所干扰 持久性:一个事务提交成功后,对数据的改变就应该是永久的了,不可以被其他操作或故障所影响 MySQL是通过WAL方式,来保证数据库事务的一致性和持久性 WAL(Write-Ahead Logging)是一种实现事务日志的标准方法,具体而言就是: 1、修改记录前,一定要先写日志; 2、事务提交过程中,一定要保证日志先落盘,才能算事务提交完成。 通过WAL方式,在保证事务特性的情况下,可以提高数据库的性能。 日志文件:undo和redo undo用来存放修改前的数据,redo用来存放修改后的数据 假设有A、B两个数据,值分别为1,2,开始一个事务,事务的操作内容为:把1修改为3,2修改为4,那么实际的记录如下(简化): A.事务开始. B.记录A=1到undo log. C.修改A=3. D.记录A=3到redo log. E.记录B=2到undo log. F.修改B=4. G.记录B=4到redo log. H.将redo

说下更新百度快照的利弊

倾然丶 夕夏残阳落幕 提交于 2019-11-27 03:28:56
说到百度快照站长都很熟悉,百度对你的服务器感不感兴趣,来的频繁度或者来的蜘蛛是高权重蜘蛛还是低权重蜘蛛,站长们都很关心快照的更新时间。 快照如果更新是当日的那么说明当天来你网站的蜘蛛数量多,首页由于权重高,把快照都给更新了。如果你的网站快照一直不更新,很多人喜欢手动更新快照,这里说下手动更新快照方法,在百度搜索框里输入:site:www.xxx.com 这里的xxx就是你的域名,这样网站快照就出来了,点击”投诉快照”,就可以直接投诉快照,需要贴写的邮箱信息要完整. 一般快照手动跟新1-7天才可以查看,建议多手动几次,更换IP和不同的百度账号,这样快照投诉会及时更新好.这里要说的是建议不要同一个账号下投诉快照,这样对这个账户后期维护不利. 百度内部的人说,不建议经常投诉快照,只对首页投诉符合申诉要求,其他页面只是建议在内容上打动蜘蛛爬去,不建议内页投诉形式来更新快照,对排名和展现有一定的妨碍. 这里推荐站长如果用linux服务器,建议使用旗鱼云梯这个云平台,旗鱼云梯可以使用云端化技术管理服务器和网站,自带的SEO优化工具,帮助网站在SEO底层优化上助力. 对于服务器安全百度是很在意的,服务器一旦被挂马可能被拉黑,所以服务器安全旗鱼云梯下了苦功夫,在waf防火墙和恶意登录上做的比较好,建议站长使用. 来源: https://blog.csdn.net/leo12036okokok