区位码

字符集与编码(九)——GB2312,GBK,GB18030

試著忘記壹切 提交于 2020-01-07 18:44:44
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 前面的一些篇章更多谈论了Unicode的相关话题,虽然也有提到GBK等编码,但都没细说,这里打算系统说一下。GB系列包括GB2312,GBK,GB18030. 前面已经提过,GB=Guo Biao=国标=国家标准,至于所谓的2312就是一编号了,没有其它特别的意义,18030类似。GBK没有编号,所以它实际上并不是国家标准,只是一个事实标准,GBK中K指“扩展”的意思。 最早的是GB2312,我们从它开始说起。 GB2312 以下为一简介(官方文档见" 国家标准化管理委员会 "网站: http://gbread.sac.gov.cn/bzzyReadWebApp/standardresources.action?m=readFile&bzNum=GB%202312-1980&flag=1 ,用IE打开,它要安装一个ActiveX插件): GB 2312-1980,全称《信息交换用汉字编码字符集 基本集》,由国家标准总局于1980年3月9号发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。它是一个简化字的编码规范,也包括其他的符号、字母、日文假名等,共7445个图形字符,其中汉字占6763个。 上述官网地址无法下载,如果你想下载,可试下这个 ftp://ftp.oreilly.com

UNICODE,GBK,UTF-8区别

流过昼夜 提交于 2019-12-29 13:53:48
UNICODE,GBK,UTF-8区别 简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就OK了. 详细的就见下面转的这篇文章. 谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词 这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢? 我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicode big endian),EF、BB、BF(UTF-8)。但这些标记是基于什么标准呢? 问题二

HTML5 UTF-8 中文乱码

≡放荡痞女 提交于 2019-12-28 00:44:23
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>HTML5的标题</title> </head> <body> <p>HTML5的内容!Hello</p> </body> </html> 我是用记事本写的,保存后在网页上运行竟然出现了乱码。换成GB2312能正确显示中文。 <!DOCTYPE html> <html> <head> <meta charset="GB2312"> <title>HTML5的标题</title> </head> <body> <p>HTML5的内容!Hello</p> </body> </html> 但是毕竟标准不一样。还是要用Utf-8。最后发现代码没有一点问题, 问题就出记事本身上 。 <meta charste="utf-8"> 只是告诉浏览器要用utf-8来解释,而文档的编码,是在你保存时的选择决定的。如果保存ANSI 然后用utf-8解释,肯定是乱码。 记事本的话,默认保存的文件格式是ANSI。所以在保存的时候要修改为uif-8。记事本编写的同鞋一定要注意了。 搞定~ 科普: UTF-8 GBK UTF8 GB2312 之间的区别和关系 UTF-8 GBK UTF8 GB2312 之间的区别 UTF-8:Unicode TransformationFormat-8bit