gb2312

字符集和编码知识

試著忘記壹切 提交于 2020-03-11 17:42:10
字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集是多 个字符的集合,字符集种类较多,每个字符集包含的字符个数 不同 ,常见字符集名称:ASCII 字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等 。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种 文字。 编码(Encoding)和字符集不同。字符集只是字符的集合,不一定适 合作 网络传送、处理,有时 须经编码(Encode)后才能应用。如Unicode可依不同需要以UTF-8、UTF-16、UTF-32等 方法 编码 。 因此,对字符进行编码,是信息交流的技术基础。本文将按照字符集的时间顺序讨论几种典型 的字符集,选取几种代表性的字符集,研究历史由来、特点、技术特征。 ASCII 字符集 1.名称的由来 ASCII(American Standard Code for Information Interchange,美国信息互换 标准 代码) 是基于罗马字母表的一套电脑编码系统。 2.特点 它主要用于显示现代 英语 和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际 标准ISO 646。 3.包含内容 控制字符:回车键、退格、换行键等。 可显示字符:英文大小写字符、阿拉伯数字和西文符号 4

php 导出到Excel就是这么简单

|▌冷眼眸甩不掉的悲伤 提交于 2020-03-10 03:35:41
查询出数据库信息后,需要导出到Excel表,片段如下:    header("Content-type:application/octet-stream"); header("Accept-Ranges:bytes"); header("Content-type:application/vnd.ms-excel"); header("Content-Disposition:attachment;filename=www.lizu2010.com_".date("Y-m-d").".xls"); header("Pragma: no-cache"); header("Expires: 0"); //导出xls 开始 $tag1 = iconv("UTF-8", "GB2312",'No.'); $tag2 = iconv("UTF-8", "GB2312",'网址'); $tag3 = iconv("UTF-8", "GB2312",'统计结果'); $tag4 = iconv("UTF-8", "GB2312",'关键字'); echo "$tag1\t$tag2\t$tag3\t$tag4\n"; //$key_name = array_keys($arr); $i = 1; foreach($arr as $val){ $No = $i; $url = $val['url'];

深入理解Python字符编码

社会主义新天地 提交于 2020-03-07 12:45:24
不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError、UnicodeDecodeError 错误,每当遇到错误我们就拿着 encode、decode 函数翻来覆去的转换,有时试着试着问题就解决了,有时候怎么试都没辙,只有借用 Google 大神帮忙,但似乎很少去关心问题的本质是什么,下次遇到类似的问题重蹈覆辙,那么你有没有想过一次性彻底把 Python 字符编码给搞懂呢? 完全理解字符编码 与 Python 的渊源前,我们有必要把一些基础概念弄清楚,虽然有些概念我们每天都在接触甚至在使用它,但并不一定真正理解它。比如:字节、字符、字符集、字符码、字符编码。 字节 字节(Byte)是计算机中数据存储的基本单元,一字节等于一个8位的比特,计算机中的所有数据,不论是保存在磁盘文件上的还是网络上传输的数据(文字、图片、视频、音频文件)都是由字节组成的。 字符 你正在阅读的这篇文章就是由很多个字符(Character)构成的,字符一个信息单位,它是各种文字和符号的统称,比如一个英文字母是一个字符,一个汉字是一个字符,一个标点符号也是一个字符。 字符集 字符集(Character Set)就是某个范围内字符的集合,不同的字符集规定了字符的个数,比如 ASCII 字符集总共有128个字符,包含了英文字母、阿拉伯数字

Unicode、UTF8、GB2312、ANSI

爷,独闯天下 提交于 2020-03-06 13:23:41
来源:https://blog.csdn.net/osanwenyu/article/details/48439461 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/oSanWenYu/article/details/48439461 一、前言 汉字编码是让人比较头疼的一块,最近下定决定把他搞懂。网上翻了个遍,讲得详细透彻的让人头疼看不下去,讲得通俗的不够详细,只言片语。更有甚者开篇即讲Unicode是啥,多少个字符,GB2312巴拉巴拉,多少个汉字,全然不讲应用场景,不理知识接受的先后,遂结合翻看过的几篇写一写心得。 二、字符编码的发展 ASCII --> 拓展字符集 -->GB2312(中国大陆) -->GBK - -> unicode 1.ASCII 最早的时候计算机只在美国使用,人民解决英文与二进制的映射关系,发明了ASCII编码,将所有大小写英文字母以及常用的英文标定符号编进去。还有一些并不代表文字意义但又经常要表达的操作也加了进去,这就是控制字符,如换行、回车、制表符等等。这时发现所有的字符都编进去了,才占用了127个,每个字符占用一个字节,这是一套完美的编码方式。 2.拓展字符集 后来科技发展,计算机在世界各国普及开来,英语地区还好,直接能显示英文

.net 操作XML小结

这一生的挚爱 提交于 2020-03-04 07:48:58
一、简单介绍 using System.Xml; //初始化一个xml实例 XmlDocument xml=new XmlDocument(); //导入指定xml文件 xml.Load(path); xml.Load(HttpContext.Current.Server.MapPath("~/file/bookstore.xml")); //指定一个节点 XmlNode root=xml.SelectSingleNode("/root"); //获取节点下所有直接子节点 XmlNodeList childlist=root.ChildNodes; //判断该节点下是否有子节点 root.HasChildNodes; //获取同名同级节点集合 XmlNodeList nodelist=xml.SelectNodes("/Root/News"); //生成一个新节点 XmlElement node=xml.CreateElement("News"); //将节点加到指定节点下,作为其子节点 root.AppendChild(node); //将节点加到指定节点下某个子节点前 root.InsertBefore(node,root.ChildeNodes[i]); //为指定节点的新建属性并赋值 node.SetAttribute("id","11111"); //为指定节点添加子节点

js对中文进行gb2312/gbk编码解码

孤人 提交于 2020-03-03 18:04:16
JavaScript使用的是Unicode编码,使用内置的encodeURIComponent,encodeURI,escape都是编码为Unicode的url编码,如果传递这些编码到gb2312或者gbk编码的页面就会乱码。 下面是用js中实现GBK/gb2312编码。适合使用js进行页面参数传递时,给GBK/gb2312编码页面传递参数,解决乱码。 点击下载: js对中文进行gb2312/gbk编码类库 下载上面的压缩文件解压得到gbk.js文件,倒入gbk.js类库,调用$URL.encode将内容编码为gb2312字符串,调用decode解码gb2312 url编码为对应内容。 < script type = "text/javascript" src = "/demo/gbk.js" > < / script > < script > var s = '%D6%D0%B9%FA' ; //中国的gb312编码 alert ( s ) ; s = $ URL . decode ( s ) ; alert ( s ) ; s = $ URL . encode ( s ) ; alert ( s ) ; < / script > 来源: CSDN 作者: haohao7118 链接: https://blog.csdn.net/haohao7118/article

Android 解析gbk、gb2312编码的xml文件(转)

Deadly 提交于 2020-03-02 18:21:39
Android 支持三种解析xml文件的方式,dom,sax,pull,我用的比较多的是sax解析,但发现sax默认只解析utf-8编码的xml文件; 通过网上搜索,最终找到了解决办法: 1.就是先判断URL资源上的xml文件的编码方式 2.然后通过InputStreamReader 设定好编码,然后将InputStreamReader通过InputSource的构造方法传给InputSource 3.sax解析InputSource资源时,就会按照指定的编码方式解析 1.判断url资源上的xml文件编码方式,需要通过第三方的jar文件 //得到探测器代理对象 CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance(); //向代理对象添加探测器 detector.add(JChardetFacade.getInstance()); //得到编码字符集对象 Charset charset = detector.detectCodepage(url); //得到编码名称 String encodingName = charset.name(); 2.通过InputStreamReader对象设定解析时的编码 InputSource inputSource=null; InputStream stream =

UnicodeEncodeError: 'gbk' codec can't encode character '\\xa0' in position 46:illegal multibyte sequence

只谈情不闲聊 提交于 2020-03-01 19:19:22
一、 最近使用python写入文件时,出现了如下的错误: 但是content的内容是unicode编码,不知道怎么和gbk扯上了关系,对content使用encode()和decode(),用gbk,utf-8,gb2312各种编码解码都没有效果; 在网上查找资料,看到一篇文章关于这个的说法: http://blog.csdn.net/xiaoyi_zhang/article/details/51675099 结论是: 1.‘gbk’ codec can’t encode character :说明是将Unicode字符编码为GBK时候出现了问题,可能是本身Unicode类型的字符中,包含了一些无法转换为GBK编码的一些字符; 2. gbk无法转换'\xa0'字符,所以在转换前需要将“\xa0”替换掉;使用string.replace(u '\xa0', u ' '); 我在上述代码中使用: self.file.write(content.replace(u'\xa0', u'')) 结果有效,没有报错; 另外一种方法,在gbk解码时忽略掉不能解码的数据: self.file.write(content.encode("gbk", 'ignore').decode("gbk", "ignore")) 但是总觉得这种方法是在回避问题,后来突发灵感,这是在文件写入的时候报的错误

数据库连接字符编码问题

送分小仙女□ 提交于 2020-02-25 10:46:18
查看数据表字符编码命令 show create table table_name; show create table student; +---------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | Table | Create Table | +---------+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

常见中文字体的英文名

橙三吉。 提交于 2020-02-23 09:21:42
收集了一些常见中文字体的英文表示名称 黑体:SimHei 宋体:SimSun 新宋体:NSimSun 仿宋:FangSong 楷体:KaiTi 仿宋_GB2312:FangSong_GB2312 楷体_GB2312:KaiTi_GB2312 微软雅黑体:Microsoft YaHei 隶书:LiSu 幼圆:YouYuan 华文细黑:STXihei 华文楷体:STKaiti 华文宋体:STSong 华文中宋:STZhongsong 华文仿宋:STFangsong 方正舒体:FZShuTi 方正姚体:FZYaoti 华文彩云:STCaiyun 华文琥珀:STHupo 华文隶书:STLiti 华文行楷:STXingkai 华文新魏:STXinwei 来源: https://www.cnblogs.com/talentsnail/archive/2012/06/25/2561604.html