python struct 官方文档

会有一股神秘感。 提交于 2020-01-27 08:42:29

from python3.6

7.1。struct-解释字节打包二进制数据

源代码: Lib / struct.py

此模块在Python值和表示为Python bytes对象的C结构之间执行转换。除其他来源外,它可用于处理存储在文件中或来自网络连接的二进制数据。它使用 格式字符串作为C结构布局的紧凑描述以及与Python值之间的预期转换

注意:默认情况下,打包给定C结构的结果包括填充字节,以维护所涉及C类型的正确对齐;同样,拆箱时也要考虑对齐方式。选择此行为是为了使打包结构的字节与对应的C结构的内存中的布局完全对应。要处理与平台无关的数据格式或忽略隐式填充字节,请使用standard大小和对齐方式,而不是 native大小和对齐方式:有关详细信息,请参见字节顺序,大小和对齐方式。

几个struct函数(和的方法Struct)采用一个缓冲区 参数。这是指实现缓冲区协议并提供可读或可写缓冲区的对象。用于此目的的最常见类型是bytes和bytearray,但是可以看作字节数组的许多其他类型实现了缓冲区协议,因此可以读取/填充它们,而无需从bytes对象进行其他复制。

7.1.1。功能和异常

该模块定义了以下异常和功能:

异常struct.error
在各种情况下都会出现例外;参数是描述错误的字符串。

struct.pack(fmt,v1,v2,… )
返回一个字节对象,其中包含根据格式字符串fmt打包的值v1,v2,… 。参数必须与格式所需的值完全匹配。

struct.pack_into(fmt,buffer,offset,v1,v2,… )
包值V1,V2,…按照格式字符串格式化并写入压缩字节到读写缓存缓冲区开始的位置偏移。请注意,offset是必需的参数。

struct.unpack(fmt,buffer )
根据格式字符串fmt从缓冲区缓冲区(可能由打包)解压缩。结果是一个元组,即使它只包含一个项目。缓冲区的大小(以字节为单位)必须与格式要求的大小匹配,如所反映。pack(fmt, …)calcsize()

struct.unpack_from(fmt,buffer,offset = 0 )
根据格式字符串fmt从位置偏移量开始从缓冲区解压缩。结果是一个元组,即使它只包含一个项目。缓冲区的大小(以字节为单位)减去偏移量,必须至少为格式要求的大小,如所反映。calcsize()

struct.iter_unpack(fmt,buffer )
根据格式字符串fmt迭代地从缓冲区缓冲区中解包。该函数返回一个迭代器,该迭代器将从缓冲区读取大小相等的块,直到其所有内容都被消耗为止。缓冲区的大小(以字节为单位)必须是格式要求的大小的倍数,如所反映。calcsize()

每次迭代都会产生一个由格式字符串指定的元组。

3.4版的新功能。

struct.calcsize(fmt )
返回对应于格式字符串fmt的结构(以及由此产生的bytes对象)的大小 。pack(fmt, …)

7.1.2。格式字符串

格式字符串是用于在打包和拆包数据时指定预期布局的机制。它们是由“ 格式字符”构建的,“ 格式字符”指定要打包/解压缩的数据的类型。此外,还有一些特殊字符可用于控制字节顺序,大小和对齐方式。

7.1.2.1。字节顺序,大小和对齐方式

默认情况下,C类型以机器的本机格式和字节顺序表示,并在必要时通过跳过填充字节来正确对齐(根据C编译器使用的规则)。

或者,根据下表,格式字符串的第一个字符可用于指示打包数据的字节顺序,大小和对齐方式:
在这里插入图片描述
如果第一个字符不是其中一个,’@'则假定为。

本地字节顺序为大端或小端,具体取决于主机系统。例如,Intel x86和AMD64(x86-64)是低位字节序;摩托罗拉68000和PowerPC G5是大端的。ARM和Intel Itanium具有可切换的字节序(bi-endian)。使用sys.byteorder来检查你的系统的字节序。

原始大小和对齐方式是使用C编译器的sizeof表达式确定的 。这始终与本机字节顺序结合在一起。

标准尺寸仅取决于格式字符;请参阅“ 格式字符”部分中的表。

需要注意的区别’@‘和’=’:都使用本地字节顺序,但后者的大小和排列是标准化的。

该表格’!'适用于那些声称自己不记得网络字节顺序是大端还是小端的可怜人。

无法指示非本机字节顺序(强制字节交换)。使用’<‘或的适当选择’>’。

笔记:

1、仅在连续的结构成员之间自动添加填充。在编码结构的开头或结尾不添加填充。

2、使用非本机大小和对齐方式(例如,使用’<’,’>’,’=‘和’!’)时,不添加填充。

3、要将结构的末尾与特定类型的对齐要求对齐,请使用该类型的代码结束该格式,并重复计数为零。参见示例。

7.1.2.2。格式化字符

格式字符具有以下含义;给定它们的类型,C和Python值之间的转换应该显而易见。“标准大小”列是指使用标准大小时打包值的大小,以字节为单位;也就是说,当格式字符串中的一个开始’<’,’>’,’!'或 ‘=’。使用本机大小时,打包值的大小取决于平台。
在这里插入图片描述
在版本3.3中进行了更改:添加了对’n’和’N’格式的支持。

在版本3.6中更改:添加了对该’e’格式的支持。

笔记:

  1. 的’?'转换码对应于_Bool由C99定义的类型。如果此类型不可用,则使用进行模拟char。在标准模式下,它始终由一个字节表示。

  2. 将’q’和’Q’只有在平台C编译器支持C转换代码在本地模式中可用,或者在Windows上, 。它们始终在标准模式下可用。long long__int64

  3. 尝试使用任何整数转换代码打包非整数时,如果非整数具有__index__()方法,则在打包之前将调用该方法以将参数转换为整数。
    在版本3.2中进行了更改:index()非整数方法的使用是3.2中的新增功能。

  4. ‘n’和’N’转换码只适用于本机的大小(选择为默认或与’@'字节顺序字符)。对于标准大小,可以使用适合您的应用程序的任何其他整数格式。

  5. 对于’f’,'d’和’e’转换码,填充表示使用IEEE 754 binary32,binary64或binary16格式( ‘f’,'d’或’e’分别地),而不管由所述平台中使用的浮点格式的。

  6. 该’P’格式字符仅适用于本地字节顺序(选择为默认或与’@‘字节顺序字符)。字节顺序字符’='选择基于主机系统使用小端或大端顺序。struct模块不会将其解释为本地顺序,因此’P’格式不可用。

  7. 在2008年修订的IEEE 754标准中引入了IEEE 754 binary16“半精度”类型。它具有符号位,5位指数和11位精度(显式存储了10位),并且可以表示介于大约6.1e-05和6.5e+04 全精度之间的数字。这种类型不受C编译器的广泛支持:在典型的计算机上,无符号的short可以用于存储,但不能用于数学运算。有关更多信息,请参见半精度浮点格式的Wikipedia页面。

格式字符前面可以有整数重复计数。例如,格式字符串的’4h’含义与完全相同’hhhh’。

格式之间的空白字符将被忽略;计数及其格式不能包含空格。

对于’s’格式字符,该计数被解释为字节的长度,而不是像其他格式字符一样的重复计数。例如, '10s’表示一个10字节的字符串,而’10c’表示10个字符。如果未提供计数,则默认为1。对于打包,将适当地将字符串截断或填充空字节以使其适合。对于解压缩,生成的bytes对象始终具有完全指定的字节数。作为特殊情况,'0s’表示单个空字符串(而 '0c’表示0个字符)。

当包装一个值x使用的整数格式之一(‘b’, ‘B’,‘h’,‘H’,‘i’,‘I’,‘l’,‘L’, ‘q’,‘Q’),如果x是外界该格式,则有效范围struct.error上升。

在3.1版中进行了更改:在3.0 版中,某些整数格式包装了超出范围的值并引发DeprecationWarning而不是struct.error。

的’p’格式字符编码“帕斯卡串”,意思是存储在一个很短的可变长度的字符串的固定数目的字节,由计数给出。存储的第一个字节是字符串的长度或255,以较小者为准。字符串的字节。如果传入的字符串 pack()太长(大于计数减1),则仅count-1存储该字符串的前导 字节。如果字符串短于count-1,则用空字节填充该字符串 ,以便使用所有字节中的精确计数字节。请注意,对于unpack(),'p’格式字符占用 count字节,但返回的字符串绝不能包含超过255个字节。

对于’?'格式字符,返回值为True或 False。打包时,将使用参数对象的真值。本机或标准布尔表示形式中的0或1都将被打包,并且True在拆包时将包含任何非零值。

7.1.2.3。例子

注意:所有示例均假定本机字节顺序,大小以及与big-endian机器的对齐方式。
打包/解包三个整数的基本示例:

from struct import *
# h占俩字节,l占4字节,\分割就是一个字节,两个16进制数表示一个字节
# print(pack('hhl', 1, 2, 3))
# b'\x01\x00\x02\x00\x03\x00\x00\x00'

# print(pack('hhl', 1, 2, 4))
# b'\x01\x00\x02\x00\x04\x00\x00\x00'

# print(pack('hhl', 7, 8, 9))
# b'\x07\x00\x08\x00\t\x00\x00\x00'

# print(pack('hhl', 0, 8, 9))
# b'\x00\x00\x08\x00\t\x00\x00\x00'

print(unpack('hhl', b'\x00\x01\x00\x02\x00\x00\x00\x03'))
# (256, 512, 50331648)

print(calcsize('hhl'))
# 8

print(unpack('l',b'\x00\x01\x00\x04'))
# (67109120,)

print(pack('l',67109120))
# b'\x00\x01\x00\x04'
# 小端在前

在这里插入图片描述
可以通过将未打包的字段分配给变量或将结果包装在一个命名的元组中来命名它们:

record = b'raymond   \x32\x12\x08\x01\x08'
name, serialnum, school, gradelevel = unpack('<10sHHb', record)

from collections import namedtuple
Student = namedtuple('Student', 'name serialnum school gradelevel')
Student._make(unpack('<10sHHb', record))

格式字符的顺序可能会影响大小,因为满足对齐要求所需的填充不同:

pack('ci', b'*', 0x12131415)
# b'*\x00\x00\x00\x12\x13\x14\x15'
pack('ic', 0x12131415, b'*')
# b'\x12\x13\x14\x15*'
calcsize('ci')
# 8
calcsize('ic')
# 5

下面的格式’llh0l’在末尾指定两个填充字节,假设长整数在4字节边界上对齐:

pack('llh0l', 1, 2, 3)
# b'\x00\x00\x00\x01\x00\x00\x00\x02\x00\x03\x00\x00'

这仅在原始大小和对齐方式有效时起作用;标准尺寸和对齐方式不会强制执行任何对齐方式。

也可以看看
模组 array
同类数据的打包二进制存储。

模组 xdrlib
XDR数据的打包和拆包。

7.1.3。类

该struct模块还定义了以下类型:

类struct.Struct(格式)
返回一个新的Struct对象,该对象根据格式字符串format写入和读取二进制数据。一次创建一个Struct对象并调用其方法比struct以相同格式调用函数更有效,因为格式字符串只需要编译一次。

编译的Struct对象支持以下方法和属性:

pack(v1,v2,… )
与pack()函数相同,使用编译格式。(len(result)等于)size。

pack_into(buffer,offset,v1,v2,… )
与pack_into()函数相同,使用编译格式。

unpack(缓冲区)
与unpack()函数相同,使用编译格式。缓冲区的大小(以字节为单位)必须等于size。

unpack_from(buffer,offset = 0 )
与unpack_from()函数相同,使用编译格式。以字节为单位的缓冲区大小(减去偏移量)必须至少为 size。

iter_unpack(缓冲区)
与iter_unpack()函数相同,使用编译格式。缓冲区的大小(以字节为单位)必须是的倍数size。

3.4版的新功能。

format
用于构造此Struct对象的格式字符串。

size
pack()对应于的结构体(以及由此方法产生的字节对象)的计算大小format。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!