校验和 | 易学教程

Hadoop的I/O操作

阅读更多关于 Hadoop的I/O操作

一、数据完整性 HDFS的数据完整性 1、hadoop自带一套原子操作用于IO操作； 2、HDFS数据完整性：会对写入的所有数据计算校验和，并在读取数据时验证校验和，针对每个io.bytes.per.checksum指定字节的数据计算校验和； 3、由于HDFS存储着每个数据块的复本，因为它可以通过数据复本来修复损坏的数据块； LocalFileSystem：执行客户端的校验和验证 1、新建.filename.crc的隐藏文件，块大小于io.bytes.per.checksum控制，默认512字节; CheckSumFileSystem类：继承自FileSystem，向其他文件系统加入校验和 1、FileSystem rawFS = ....;FileSystem checksummedFS = new CheckSumFileSystem(rawFS); 二、压缩 1、最快的压缩方法：gzip -1 filename (-1为最快压缩，但空间减少最少，-9为节省最大空间压缩) 2、CodeC压缩/解压缩算法类：org.apache.hadoop.io.compress.DefaultCodeC/GzipCodeC/BZip2CodeC/LzopCodeC/Lz4CodeC/SnappCodeC 3、CompressionCodeC压缩/解压缩：写入输入流压缩方法--

第四章之Hadoop I/O

阅读更多关于第四章之Hadoop I/O

数据的完整性检测数据是否损坏的常见措施是：在数据第一次引入系统的时候计算校验和（checksum），并在数据通过一个不可靠的通道进行传输时候再次计算校验和，这样就能发现数据是否损坏。如果新的校验和和原来的校验和不匹配，我们就认为数据已经损坏。常用的数据检测码是:CRC-32(循环冗余校验) HDFS的数据完整性 datanode负责验证收到的数据后存储数据及其校验和，它在收到客户端的数据或复制期间其他datanode的数据时候执行这个操作。正在写数据的客户端将数据极其校验和发送到由一些列datanode组成的管线，管线中的最后一个datanode负责验证校验和。如果datanode检测到错误，客户端变收到一个ChecksumException异常。客户端从datanode读取数据的时候，也会验证校验和，将他们与datanode中存储的校验和进行比较。每个datanode均持久保存有一个用户验证的校验和日志(persistent log of checksum verification)，so他知道每个数据块最后一次的验证时间。客户端成功验证一个数据块以后，会告诉这个datanode，datanode由此更新日志。不只是客户端在读取数据的时候会验证校验和，每个datanode也会在一个后台线程中运行DataBlockScanner

TCP/IP详解

阅读更多关于 TCP/IP详解

上篇文章中简单描述了OSI模型和TCP/IP模型基本内容，前一段时间美团电面的时候面试官问的一些关于网络的问题，现在总结一下希望大家可以参考下。大概基本的问题如下： IP头部报文格式 TCP头部报文格式 IP协议和TCP协议关系三次握手过程 IP报文格式 IP协议是TCP/IP协议族中最为核心的协议。它提供不可靠、无连接的服务，也即依赖其他层的协议进行差错控制。在局域网环境，IP协议往往被封装在以太网帧中传送。而所有的TCP、UDP、ICMP、IGMP数据都被封装在IP数据报中传送。如下图所示：下边来看下IP的报头格式：(RFC 791) 下边是进行查询资料后对IP报头格式的部分解释：版本（Version）字段：占4比特。用来表明IP协议实现的版本号，当前一般为IPv4，即0100。报头长度（Internet Header Length，IHL）字段：占4比特。是头部占32比特的数字，包括可选项。普通IP数据报（没有任何选项），该字段的值是5，即160比特=20字节。此字段最大值为60字节。服务类型（Type of Service ，TOS）字段：占8比特。其中前3比特为优先权子字段（Precedence，现已被忽略）。第8比特保留未用。第4至第7比特分别代表延迟、吞吐量、可靠性和花费。当它们取值为1时分别代表要求最小时延、最大吞吐量、最高可靠性和最小费用

计算机网络 UDP协议

阅读更多关于计算机网络 UDP协议

UDP协议（User Datagram Protocol-用户数据报协议）预备知识： 1、吞吐量：主机之间实际的传输速率被称作吞吐量。其单位与带宽（单位时间内从一段传送到另一端的最大数据量）相同，都是bps（Bits per second）。吞吐量不仅衡量带宽，同时也衡量主机的CPU处理能力、网络的拥堵程度、报文中数据字段的占有份额等信息。 2、拥塞控制： 3、二进制反码计算用于IP/ICMP/IGMP/TCP/UDP等协议的校验和算法。 4、 UDP的校验和是如何实现检查了UDP数据报，又对IP数据报的源IP地址和目的IP地址进行了检验？？？UDP校验码的接收方是如何对UDP数据报进行校验？？？UDP协议是运输层，伪首部里面的源IP，目的IP是IP层数据，这些数据是如何获取的？如何理解逻辑上区分层，但是不同逻辑上的分层的数据存储在同一个物理区域？？ UDP协议定义：实现原理： 1、UDP无连接，不存在建立连接的时延，而且与TCP相比不需要维护连接状态，也就不需要跟踪包括接收和发送缓存，拥塞控制参数，序号和确定号参数。空间和时间上，在两者能同时满足条件下，UDP更具有优势。UDP常用于一次性传输比较少量数据的网络应用，或者数据的可靠传输并不重要，不可容忍TCP的拥塞控制产生较大的延迟的情况。 2、DP首部8字节，由4个字段组成

重读TCP/IP（4）之IP协议及传输

阅读更多关于重读TCP/IP（4）之IP协议及传输

IP IP 是 TCP/IP 协议族中最为核心的协议，所有的 TCP,UDP,ICMP 及 IGMP 数据都以 IP 数据报格式传输， IP 协议是不可靠，无连接的，这是针对它的上层 TCP 来说的，不可靠指的是它不能保证 IP 数据能成功地到达目的地，它仅提供最好的传输服务，如果发生某种错误，如路由器缓存用完了， IP 会丢弃该数据报，发送 ICMP 消息给信源端说不可达，也就仅此而已。无连接指的是 IP 并不唯护任何关于后续数据报的状态信息，每个数据报的处理是相互独立的， IP 数据报可以不按顺序接收，每个数据报独立的选择路由路线，因此到达顺序不可知。数据在经过网络层时会对数据进行封装，也就是 IP 首部，在以太网帧中， IPv4 头紧跟着以太网帧头，同时以太网帧头中的协议类型为 0x0800. IP 首部 Version 版本：占 4bit ，用来表明 IP 协议实现的版本号，当前为 IPv4, 即 0100 Internet Header Length(IHL) 头部长度：占 4bit ，包头的长度是 n*32 ，由于 IPv4 的包头可能有可变数量的可选项，所以这个字段可以用来确定 ipv4 中数据部分偏移位置。 IP 包头的最小长度为 20 字节，因此一般 IHL 的最小值是 5 ，由于 IHL 占 4 位，最大也就 60 个字节，目前最多是 24 个字节

磁盘检查软件Checkpoint v1.1 macOS

阅读更多关于磁盘检查软件Checkpoint v1.1 macOS

你是否需要一款可以检查你的磁盘的工具呢？试试Checkpoint for Mac吧！Checkpoint Mac版是一款运行在MacOS系统上的磁盘检查软件。Checkpoint的运行界面简洁，功能单一。会定期检查你的堆栈备份是否损坏。支持通过网络复制镜像文件，同时使用另一台机器进行验证。地址： Checkpoint for Mac 验证而不复制。在开始编辑之前，Checkpoint会确保旅行磁盘健康且完整。定期检查您的堆栈备份是否损坏。通过网络复制镜头，同时使用另一台机器进行验证。 Checkpoint for Mac功能特点增强备份能力不确定壁橱中的驱动器堆栈中存储了什么？那只是一个昂贵的镇纸。使用Checkpoint索引所有媒体，创建校验和（如果尚不存在），然后解锁存档。 100％完全健康曾经收到旅行旅行证明不完整吗？不需要这样做：验证驱动器上应该存在的内容是否确实存在-并且状况良好。在编辑过程中，没有更多的惊喜或剪辑丢失。重新利用现有备份 Checkpoint可以使用最现代的校验和算法来验证现有文件，而无需复制它们。它是定期检查备份堆栈是否处于正常工作状态的理想工具。创建校验和安全性有数字，在这种情况下，还包括校验和。能够显示媒体的数字指纹越来越成为专业视频制作中的要求。解锁旧档案您的MAM一无所知的那叠DVD或其他旧驱动器

IP数据报

阅读更多关于 IP数据报

IP数据报格式 1）版本号：占用4位二进制数，表示该IP数据报使用的IP协议版本。目前Internet中使用的主要是TCP/IP协议族中版本号为4的IP协议。 2）头长度：占用4位二进制位，此域指出整个报头的长度（包括选项），该长度是以32位二进制数为一个计数单位的，接收端通过此域可以计算出报头在何处结束及从何处开始读数据。普通IP数据报（没有任何选项）该字段的值是5（即20个字节的长度）。 3）服务类型（TOS、type of service）：占用8位二进制位，用于规定本数据报的处理方式。服务类型字段的8位分成了5个子域： (1)—优先权（0-7）数越大，表示该数据报优先权越高。网络中路由器可以使用优先权进行拥塞控制，如当网络发生拥塞时可以根据数据报的优先权来决定数据报的取舍。 (2)—短延迟位D(Delay)：该位置1时，数据报请求以短延迟信道传输，0表示正常延时。 (3)—高吞吐量位T(Throughput)：该位置1时，数据报请求以高吞吐量信道传输，0表示普通。 (4)—高可靠位R(Reliability)：该位置1时，数据报请求以高可靠性信道传输，0表示普通。 (5)—保留位。目前在Internet中使用的TCP/IP协议大多数情况下网络并未对TOS进行处理，但在实际编程时，有专门的函数来设置该字段的各域。一些重要的网际应用协议中都设置了建议使用的TOS值：

【计算机网络】-传输层-Internet传输协议-UDP

阅读更多关于【计算机网络】-传输层-Internet传输协议-UDP

【计算机网络】-传输层-UDP 简介 Internet协议集支持一个无连接的传输协议，该协议称为用户数据报协议(UDP，UserDatagram Protocol) 。UDP为应用程序提供了一-种无需建立连接就可发送封装的IP数据报的方法。 UDP的头段:UDP传输的段( segment)由8字节的头和有效载荷字段构成。端口号:两个端口(port) 分别用来标识源机器和目标机器内部的端点。 UDP长度：(UDP Length)字段包含8字节的头和数据两部分的总长度。最小长度是8 个字节，刚好覆盖UDP头。最大长度是65515字节，恰好低于填满16比特的最大字节数,而这是由IP数据包限制的。校验和:一个可选的校验和(UDP Checksum)字段还提供了额外的可靠性。它校验头、数据和一个概念性的IP伪头。执行校验和计算时，校验和字段先被设置为零，如果数据字段的长度是奇数则用零填充成偶字节。校验和算法很简单，先按16位字的补码相加求和，然后再取总和的补码。因此，当接收端对整个段计算校验和时，要包括UDP校验和字段，正确的结果应该为0。如果发送端没有计算校验和，则将该字段值填为0,因为补码计算结果可能碰巧真的是0，则存储为全1.然而，关闭校验和计算不是明智之举，除非数据传输的质量并不重要(例如，数字化语音)。远程过程调用 RPC通过网络将应用程序与熟悉的过程调用抽象连接起来

TCP协议

阅读更多关于 TCP协议

简介传输控制协议（英语： T ransmission C ontrol P rotocol，缩写： TCP ）是一种面向连接的、可靠的、基于字节流的传输层通信协议，由 IETF 的 RFC 793 定义。在简化的计算机网络 OSI模型中，它完成第四层传输层所指定的功能。用户数据报协议（UDP）是同一层内另一个重要的传输协议。在因特网协议族（ Internet protocol suite）中，TCP层是位于 IP 层之上，应用层之下的中间层。不同主机的应用层之间经常需要可靠的、像管道一样的连接，但是IP层不提供这样的流机制，而是提供不可靠的包交换。应用层向TCP层发送用于网间传输的、用8位字节表示的数据流，然后TCP把数据流分割成适当长度的报文段（通常受该计算机连接的网络的数据链路层的最大传输单元（MTU）的限制）。之后TCP把结果包传给IP层，由它来透过网络将包传送给接收端实体的TCP层。TCP为了保证不发生丢包，就给每个包一个序号，同时序号也保证了传送到接收端实体的包的按序接收。然后接收端实体对已成功收到的包发回一个相应的确认信息（ACK）；如果发送端实体在合理的往返时延（RTT）内未收到确认，那么对应的数据包就被假设为已丢失并进行重传。TCP用一个校验和函数来检验数据是否有错误，在发送和接收时都要计算校验和。运作方式

UDP协议的详细解析

阅读更多关于 UDP协议的详细解析

UDP数据报一、UDP的概述（User Datagram Protocol，用户数据报协议） UDP是传输层的协议，功能即为在IP的数据报服务之上增加了最基本的服务：复用和分用以及差错检测。 UDP提供不可靠服务，具有TCP所没有的优势： UDP无连接，时间上不存在建立连接需要的时延。空间上，TCP需要在端系统中维护连接状态，需要一定的开销。此连接装入包括接收和发送缓存，拥塞控制参数和序号与确认号的参数。UCP不维护连接状态，也不跟踪这些参数，开销小。空间和时间上都具有优势。举个例子： DNS如果运行在TCP之上而不是UDP，那么DNS的速度将会慢很多。 HTTP使用TCP而不是UDP，是因为对于基于文本数据的Web网页来说，可靠性很重要。同一种专用应用服务器在支持UDP时，一定能支持更多的活动客户机。分组首部开销小**，TCP首部20字节，UDP首部8字节。 UDP没有拥塞控制，应用层能够更好的控制要发送的数据和发送时间，网络中的拥塞控制也不会影响主机的发送速率。某些实时应用要求以稳定的速度发送，能容忍一些数据的丢失，但是不能允许有较大的时延（比如实时视频，直播等） UDP提供尽最大努力的交付，不保证可靠交付。所有维护传输可靠性的工作需要用户在应用层来完成。没有TCP的确认机制、重传机制。如果因为网络原因没有传送到对端，UDP也不会给应用层返回错误信息

订阅校验和