1、字符集与编码
字符集:字符组成的集合,汉字,字母,符号被收录到标准的字符集合
编码:规定每个字符使用一个字节还是多个字节存储,那些字节来存储的规定
术语:字符编码(character encoding),字符映射(character map),字符集(character set)或者代码页(IBM称呼计算机的BIOS 所支持的字符集编码),在历史上往往是同种概念,即字符表(Repertoire) 中的字符如何编码为码元的流(stream of code units)-- 通常每个字符对应单个编码。
码元(Code Unit 也称“代码单元”)指的是一个已编码的文本中具有最短的比特组合单元。
对于UTF-8来说,码元是8比特长;
对于UTF-16来说,码元是16比特长;
对于UTF-32来说,码元是32比特长。
不同地方的编码标准:
西欧标准:ISO-8859-1,ISO-8859-5,ISO-8859-6等等
DOS字符集(又称IBM 代码页): CP437,CP737,CP850,CP852等等
Windows字符集:Windows-1250,Windows-1251用于西里尔字母表,Windows-1252等等
中国大陆港澳:GB 2312,EUC,GBK(规定文件为GB13000),GB 18030 等
2、常用的编码方式
常见的 ISO-8859-1,GBK,UTF-8 都属于什么方式来。
1、单字节字符编码 : ISO-8859-1
最简单的编码规则