校验和

Hadoop的I/O操作

限于喜欢 提交于 2019-12-18 14:10:38
一、数据完整性 HDFS的数据完整性 1、hadoop自带一套原子操作用于IO操作; 2、HDFS数据完整性:会对写入的所有数据计算校验和,并在读取数据时验证校验和,针对每个io.bytes.per.checksum指定字节的数据计算校验和; 3、由于HDFS存储着每个数据块的复本,因为它可以通过数据复本来修复损坏的数据块; LocalFileSystem:执行客户端的校验和验证 1、新建.filename.crc的隐藏文件,块大小于io.bytes.per.checksum控制,默认512字节; CheckSumFileSystem类:继承自FileSystem,向其他文件系统加入校验和 1、FileSystem rawFS = ....;FileSystem checksummedFS = new CheckSumFileSystem(rawFS); 二、压缩 1、最快的压缩方法:gzip -1 filename (-1为最快压缩,但空间减少最少,-9为节省最大空间压缩) 2、CodeC压缩/解压缩算法类:org.apache.hadoop.io.compress.DefaultCodeC/GzipCodeC/BZip2CodeC/LzopCodeC/Lz4CodeC/SnappCodeC 3、CompressionCodeC压缩/解压缩:写入输入流压缩方法--

第四章之Hadoop I/O

狂风中的少年 提交于 2019-12-18 14:10:11
数据的完整性 检测数据是否损坏的常见措施是:在数据第一次引入系统的时候计算校验和(checksum),并在数据通过一个不可靠的通道进行传输时候再次计算校验和,这样就能发现数据是否损坏。如果新的校验和和原来的校验和不匹配,我们就认为数据已经损坏。常用的数据检测码是:CRC-32(循环冗余校验) HDFS的数据完整性 datanode负责验证收到的数据后存储数据及其校验和,它在收到客户端的数据或复制期间其他datanode的数据时候执行这个操作。正在写数据的客户端将数据极其校验和发送到由一些列datanode组成的管线,管线中的最后一个datanode负责验证校验和。如果datanode检测到错误,客户端变收到一个ChecksumException异常。 客户端从datanode读取数据的时候,也会验证校验和,将他们与datanode中存储的校验和进行比较。每个datanode均持久保存有一个用户验证的校验和日志(persistent log of checksum verification),so他知道每个数据块最后一次的验证时间。客户端成功验证一个数据块以后,会告诉这个datanode,datanode由此更新日志。不只是客户端在读取数据的时候会验证校验和,每个datanode也会在一个后台线程中运行DataBlockScanner

TCP/IP详解

你说的曾经没有我的故事 提交于 2019-12-17 00:46:53
上篇文章中简单描述了OSI模型和TCP/IP模型基本内容,前一段时间美团电面的时候面试官问的一些关于网络的问题,现在总结一下希望大家可以参考下。 大概基本的问题如下: IP头部报文格式 TCP头部报文格式 IP协议和TCP协议关系 三次握手过程 IP报文格式 IP协议是TCP/IP协议族中最为核心的协议。它提供不可靠、无连接的服务,也即依赖其他层的协议进行差错控制。在局域网环境,IP协议往往被封装在以太网帧中传送。而所有的TCP、UDP、ICMP、IGMP数据都被封装在IP数据报中传送。如下图所示: 下边来看下IP的报头格式:(RFC 791) 下边是进行查询资料后对IP报头格式的部分解释: 版本(Version)字段:占4比特。用来表明IP协议实现的版本号,当前一般为IPv4,即0100。 报头长度(Internet Header Length,IHL)字段:占4比特。是头部占32比特的数字,包括可选项。普通IP数据报(没有任何选项),该字段的值是5,即160比特=20字节。此字段最大值为60字节。 服务类型(Type of Service ,TOS)字段:占8比特。其中前3比特为优先权子字段(Precedence,现已被忽略)。第8比特保留未用。第4至第7比特分别代表延迟、吞吐量、可靠性和花费。当它们取值为1时分别代表要求最小时延、最大吞吐量、最高可靠性和最小费用

计算机网络 UDP协议

百般思念 提交于 2019-12-09 19:46:02
UDP协议(User Datagram Protocol-用户数据报协议) 预备知识: 1、吞吐量 : 主机之间 实际的传输速率 被称作吞吐量。其 单位 与 带宽(单位时间内从一段传送到另一端的最大数据量) 相同,都是bps(Bits per second)。吞吐量不仅衡量带宽,同时也衡量 主机的CPU处理能力、网络的拥堵程度、报文中数据字段的占有份额 等 信息。 2、拥塞控制: 3、二进制反码计算用于IP/ICMP/IGMP/TCP/UDP等协议的校验和算法。 4、 UDP的校验和是如何实现 检查了UDP数据报,又对IP数据报的源IP地址和目的IP地址进行了检验 ???UDP校验码的接收方是如何对UDP数据报进行校验???UDP协议是运输层,伪首部里面的源IP,目的IP是IP层数据,这些数据是如何获取的?如何理解逻辑上区分层,但是不同逻辑上的分层的数据存储在同一个物理区域?? UDP协议 定义: 实现原理: 1、UDP无连接,不存在建立连接的 时延 ,而且与TCP相比不需要维护连接状态,也就不需要跟踪包括接收和发送缓存,拥塞控制参数,序号和确定号参数。 空间和时间上 ,在两者能同时满足条件下,UDP更具有优势。UDP常用于 一次性传输比较少量数据 的网络应用,或者数据的 可靠传输并不重要 ,不可容忍TCP的 拥塞控制产生较大的延迟 的情况。 2、DP首部8字节,由4个字段组成

重读TCP/IP(4)之IP协议及传输

喜你入骨 提交于 2019-12-09 10:27:44
IP IP 是 TCP/IP 协议族中最为核心的协议,所有的 TCP,UDP,ICMP 及 IGMP 数据都以 IP 数据报格式传输, IP 协议是不可靠,无连接的,这是针对它的上层 TCP 来说的,不可靠指的是它不能保证 IP 数据能成功地到达目的地,它仅提供最好的传输服务,如果发生某种错误,如路由器缓存用完了, IP 会丢弃该数据报,发送 ICMP 消息给信源端说不可达,也就仅此而已。无连接指的是 IP 并不唯护任何关于后续数据报的状态信息,每个数据报的处理是相互独立的, IP 数据报可以不按顺序接收,每个数据报独立的选择路由路线,因此到达顺序不可知。数据在经过网络层时会对数据进行封装,也就是 IP 首部,在以太网帧中, IPv4 头紧跟着以太网帧头,同时以太网帧头中的协议类型为 0x0800. IP 首部 Version 版本 : 占 4bit , 用来表明 IP 协议实现的版本号,当前为 IPv4, 即 0100 Internet Header Length(IHL) 头部长度 :占 4bit , 包头的长度是 n*32 , 由于 IPv4 的包头可能有可变数量的可选项,所以这个字段可以用来确定 ipv4 中数据部分偏移位置。 IP 包头的最小长度为 20 字节,因此一般 IHL 的最小值是 5 ,由于 IHL 占 4 位,最大也就 60 个字节,目前最多是 24 个字节

磁盘检查软件Checkpoint v1.1 macOS

拥有回忆 提交于 2019-12-06 11:47:41
你是否需要一款可以检查你的磁盘的工具呢?试试Checkpoint for Mac吧!Checkpoint Mac版是一款运行在MacOS系统上的磁盘检查软件。Checkpoint的运行界面简洁,功能单一。会定期检查你的堆栈备份是否损坏。支持通过网络复制镜像文件,同时使用另一台机器进行验证。 地址: Checkpoint for Mac 验证而不复制。在开始编辑之前,Checkpoint会确保旅行磁盘健康且完整。定期检查您的堆栈备份是否损坏。通过网络复制镜头,同时使用另一台机器进行验证。 Checkpoint for Mac功能特点 增强备份能力 不确定壁橱中的驱动器堆栈中存储了什么?那只是一个昂贵的镇纸。使用Checkpoint索引所有媒体,创建校验和(如果尚不存在),然后解锁存档。 100%完全健康 曾经收到旅行旅行证明不完整吗?不需要这样做:验证驱动器上应该存在的内容是否确实存在-并且状况良好。在编辑过程中,没有更多的惊喜或剪辑丢失。 重新利用现有备份 Checkpoint可以使用最现代的校验和算法来验证现有文件,而无需复制它们。它是定期检查备份堆栈是否处于正常工作状态的理想工具。 创建校验和 安全性有数字,在这种情况下,还包括校验和。能够显示媒体的数字指纹越来越成为专业视频制作中的要求。 解锁旧档案 您的MAM一无所知的那叠DVD或其他旧驱动器

IP数据报

*爱你&永不变心* 提交于 2019-12-06 00:14:40
IP数据报格式 1)版本号:占用4位二进制数,表示该IP数据报使用的IP协议版本。目前Internet中使用的主要是TCP/IP协议族中版本号为4的IP协议。 2)头长度:占用4位二进制位,此域指出整个报头的长度(包括选项),该长度是以32位二进制数为一个计数单位的,接收端通过此域可以计算出报头在何处结束及从何处开始读数据。普通IP数据报(没有任何选项)该字段的值是5(即20个字节的长度)。 3)服务类型(TOS、type of service):占用8位二进制位,用于规定本数据报的处理方式。服务类型字段的8位分成了5个子域: (1)—优先权(0-7)数越大,表示该数据报优先权越高。网络中路由器可以使用优先权进行拥塞控制,如当网络发生拥塞时可以根据数据报的优先权来决定数据报的取舍。 (2)—短延迟位D(Delay):该位置1时,数据报请求以短延迟信道传输,0表示正常延时。 (3)—高吞吐量位T(Throughput):该位置1时,数据报请求以高吞吐量信道传输,0表示普通。 (4)—高可靠位R(Reliability):该位置1时,数据报请求以高可靠性信道传输,0表示普通。 (5)—保留位。 目前在Internet中使用的TCP/IP协议大多数情况下网络并未对TOS进行处理,但在实际编程时,有专门的函数来设置该字段的各域。一些重要的网际应用协议中都设置了建议使用的TOS值:

【计算机网络】-传输层-Internet传输协议-UDP

天大地大妈咪最大 提交于 2019-12-06 00:02:46
【计算机网络】-传输层-UDP 简介 Internet协议集支持一个无连接的传输协议,该协议称为用户数据报协议(UDP,UserDatagram Protocol) 。UDP为应用程序提供了一-种无需建立连接就可发送封装的IP数据报的方法。 UDP的头 段:UDP传输的段( segment)由8字节的头和有效载荷字段构成。 端口号:两个端口(port) 分别用来标识源机器和目标机器内部的端点。 UDP长度:(UDP Length)字段包含8字节的头和数据两部分的总长度。最小长度是8 个字节,刚好覆盖UDP头。最大长度是65515字节,恰好低于填满16比特的最大字节数,而这是由IP数据包限制的。 校验和:一个可选的校验和(UDP Checksum)字段还提供了额外的可靠性。它校验头、数据和一个概念性的IP伪头。执行校验和计算时,校验和字段先被设置为零,如果数据字段的长度是奇数则用零填充成偶字节。校验和算法很简单,先按16位字的补码相加求和,然后再取总和的补码。因此,当接收端对整个段计算校验和时,要包括UDP校验和字段,正确的结果应该为0。如果发送端没有计算校验和,则将该字段值填为0,因为补码计算结果可能碰巧真的是0,则存储为全1.然而,关闭校验和计算不是明智之举,除非数据传输的质量并不重要(例如,数字化语音)。 远程过程调用 RPC通过网络将应用程序与熟悉的过程调用抽象连接起来

TCP协议

元气小坏坏 提交于 2019-12-05 16:59:34
简介 传输控制协议 (英语: T ransmission C ontrol P rotocol,缩写: TCP )是一种面向连接的、可靠的、基于 字节流 的 传输层 通信协议,由 IETF 的 RFC 793 定义。在简化的计算机网络 OSI模型 中,它完成第四层传输层所指定的功能。 用户数据报协议 (UDP)是同一层内另一个重要的传输协议。 在因特网协议族( Internet protocol suite)中,TCP层是位于 IP 层之上, 应用层 之下的中间层。不同主机的应用层之间经常需要可靠的、像 管道 一样的连接,但是IP层不提供这样的流机制,而是提供不可靠的包交换。 应用层向TCP层发送用于网间传输的、用8位字节表示的数据流,然后TCP把数据流分割成适当长度的报文段(通常受该计算机连接的网络的数据链路层的 最大传输单元 (MTU)的限制)。之后TCP把结果包传给IP层,由它来透过网络将包传送给接收端实体的TCP层。TCP为了保证不发生丢包,就给每个包一个序号,同时序号也保证了传送到接收端实体的包的按序接收。然后接收端实体对已成功收到的包发回一个相应的 确认信息 (ACK);如果发送端实体在合理的 往返时延 (RTT)内未收到确认,那么对应的数据包就被假设为 已丢失 并进行重传。TCP用一个 校验和 函数来检验数据是否有错误,在发送和接收时都要计算校验和。 运作方式

UDP协议的详细解析

夙愿已清 提交于 2019-12-05 15:14:53
UDP数据报 一、UDP的概述(User Datagram Protocol,用户数据报协议) UDP是传输层的协议,功能即为在IP的数据报服务之上增加了最基本的服务:复用和分用以及差错检测。 UDP提供不可靠服务,具有TCP所没有的优势: UDP无连接,时间上不存在建立连接需要的时延。空间上,TCP需要在端系统中维护连接状态,需要一定的开销。此连接装入包括接收和发送缓存,拥塞控制参数和序号与确认号的参数。UCP不维护连接状态,也不跟踪这些参数,开销小。空间和时间上都具有优势。 举个例子: DNS如果运行在TCP之上而不是UDP,那么DNS的速度将会慢很多。 HTTP使用TCP而不是UDP,是因为对于基于文本数据的Web网页来说,可靠性很重要。 同一种专用应用服务器在支持UDP时,一定能支持更多的活动客户机。 分组首部开销小**,TCP首部20字节,UDP首部8字节。 UDP没有拥塞控制,应用层能够更好的控制要发送的数据和发送时间,网络中的拥塞控制也不会影响主机的发送速率。某些实时应用要求以稳定的速度发送,能容 忍一些数据的丢失,但是不能允许有较大的时延(比如实时视频,直播等) UDP提供尽最大努力的交付,不保证可靠交付。所有维护传输可靠性的工作需要用户在应用层来完成。没有TCP的确认机制、重传机制。如果因为网络原因没有传送到对端,UDP也不会给应用层返回错误信息