UTF-8编码中BOM的检测与删除
所谓BOM,全称是 Byte Order Mark ,它是一个Unicode字符,通常出现在文本的开头,用来标识字节序(Big/Little Endian),除此以外还可以标识编码(UTF-8/16/32),如果出现在文本中间,则解释为 zero width no-break space 。 注:Unicode相关知识的详细介绍请参考 UTF-8, UTF-16, UTF-32 & BOM 。 对于UTF-8/16/32而言,它们名字中的8/16/32指的是编码单位是多少位的,也就是说,它们的编码单位分别是8/16/32位,换算成字节就 是1/2/4字节,如果是多字节,就要牵扯到字节序,UTF-8以单字节为编码单位,所以不存在字节序。 UTF-8主要的优点是可以兼容ASCII,但如果使用BOM的话,这个好处就荡然无存了,除此以外,BOM的存在还可能引发一些问题,比如下面错误便都 有可能是BOM导致的: Shell: No such file or directory PHP: Warning: Cannot modify header information – headers already sent 在详细讨论UTF-8编码中BOM的检测与删除问题前,不妨先通过一个例子热热身: shell> curl -s http://phone.10086.cn/ | head -1 |