gb2312 | 易学教程

JSP中文乱码问题的解决

阅读更多关于 JSP中文乱码问题的解决

字符内码每个国家（或区域）都规定了计算机信息交换用的字符编码集，如美国的扩展ASCII码、中国的GB2312-80、日本的 JIS 等，作为该国家(区域)信息处理的基础，有着统一编码的重要作用。由于各本地字符集代码范围重叠，相互间信息交换困难，软件本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来，做一致性处理，将特殊的本地化处理内容降低到最少，这就是所谓的国际化（I18N）。各种语言信息被规范为本地信息，而底层字符集采用包含了所有字符的Unicode。字符内码(character code)指的是用来代表字符的内码。我们在输入和存储文档时都要使用内码，内码分为单字节内码和双字节内码。单字节内码的英文全称是Single- Byte Character Sets (SBCS)，可以支持256个字符编码；双字节内码的英文全称是Double-Byte Character Sets(DBCS)，可以支持65000个字符编码，主要用来对大字符集的东方文字进行编码。 CodePage 指的是一个经过挑选的以特定顺序排列的字符内码列表，对于早期的单字节内码的语种，CodePage中的内码顺序使得系统可以按照此列表来根据键盘的输入值给出一个对应的内码。对于双字节内码，给出的是MultiByte到Unicode的对应表

python字符串编码

阅读更多关于 python字符串编码

python 默认编码　　python 2.x 默认的字符编码是 ASCII ，默认的文件编码也是 ASCII 。　　python 3.x 默认的字符编码是 unicode ，默认的文件编码是 utf-8 。中文乱码问题　　无论以什么编码在内存里显示字符，存到硬盘上都是二进制，所以编码不对，程序就会出错。　　常见编码有 ascii 编码（美国）， GBK 编码（中国）， shift_JIS 编码（日本）， unicode （统一编码）等。　　需要注意的是，存到硬盘上时是以何种编码存的，再从硬盘上读出来时，就必须以何种编码读，要不然就会出现乱码问题。　　常见的编码错误的原因有如下，出现乱码时，按照编码之前的关系，挨个排错就能解决问题。　　　　 python 解释器的默认编码；　　　　Terminal 使用的编码；　　　　 python 源文件文件编码；　　　　操作系统的语言设置。　　Python 支持中文的编码： utf-8 、 gbk 和 gb2312 。 uft-8 为国际通用，常用有数据库、编写代码。 gbk 如 windows 的 cmd 使用。编码转换　　如果想要中国的软件可以正常的在美国人的电脑上实现，有下面两种方法：　　让美国人的电脑都装上 gbk 编码　　让你的软件编码以 utf-8 编码　　

JDBC结合JSP使用（1）

阅读更多关于 JDBC结合JSP使用（1）

1. 添加数据在jsp页面中添加数据，和在serv中添加数据相似。获得页面中提交的数据以后，把数据保存到数据库表中，JSP的代码如下： add.jsp <%@ page language="java" import="java.sql.*" pageEncoding="gb2312"%> <% request.setCharacterEncoding("gb2312"); String path = request.getContextPath(); String basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path+"/"; %> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <head> <base href="<%=basePath%>"> <title>My JSP 'add.jsp' starting page</title> <meta http-equiv="pragma" content="no-cache"> <meta http-equiv="cache-control" content="no-cache"> <meta http

真正解决HtmlAgilityPack抓取网页中文乱码问题

阅读更多关于真正解决HtmlAgilityPack抓取网页中文乱码问题

HTMLAgilityPack官方Dll处理汉字时出现乱码。解决方案： 1.打开官方提供的Source项目 2.找到HtmlAgilityPack项目 3.找到“ private HttpStatusCode Get 方法” 4.按如下修改代码 //原官方代码 //Encoding respenc = !string.IsNullOrEmpty(resp.ContentEncoding) // ? Encoding.GetEncoding(resp.ContentEncoding) // : null; //修改中文乱码问题 System.Text.Encoding respenc; if ((resp.ContentEncoding != null) && (resp.ContentEncoding.Length > 0)) { respenc = System.Text.Encoding.GetEncoding(resp.ContentEncoding); } else if ((resp.CharacterSet != null) && (resp.CharacterSet.Length > 0))//根据Content-Type中获取的charset编码 { if (string.Compare(resp.CharacterSet, "ISO-8859-1", true,

Python乱码、编码问题汇总

阅读更多关于 Python乱码、编码问题汇总

为什么Python使用过程中会出现各式各样的乱码问题，明明是中文字符却显示成“\xe4\xb8\xad\xe6\x96\x87”的形式？为什么会报错“U nicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”？本文就来研究一下这个问题。字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。 decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。 encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码代码中字符串的默认编码与代码文件本身的编码一致。如：s='中文' 如果是在utf8的文件中

【STM32H7教程】第52章 STM32H7的LTDC应用之点阵字体和字符编码（重要）

阅读更多关于【STM32H7教程】第52章 STM32H7的LTDC应用之点阵字体和字符编码（重要）

完整教程下载地址： http://www.armbbs.cn/forum.php?mod=viewthread&tid=86980 第52章 STM32H7的LTDC应用之点阵字体和字符编码（重要）本章节主要为大家讲解ASCII字符集，ASCII扩展字符集，GB2312字符集，GBK字符集和Unicode字符集。其中，字符编码这块涉及到的知识点非常多，特别是Unicode字符集的编码，涉及到的知识点极其多。大家如果有精力的话，最好可以花点时间把Unicode的发展史捋清楚了。本章节笔者能够做的是把相关的知识点告诉大家，让大家有一个全面的认识。 52.1 初学者重要提示 52.2 编码基础知识 52.3 汉字点阵原理 52.4 总结 52.1 初学者重要提示本章节讲解的GB2312和GBK比较容易理解，而Unicode是全球统一码，所以涉及到的知识点比较多，也复杂些。当前Windows系统字符管理已经全部采用Unicode字符集，编码形式是UTF-16 LE （LE表示小端格式）编码。比如我们通过记事本保存的时候选择编码类型Unicode，其实就是选择的UTF-16 LE。而我们平时所说的中文版Windows系统是指用户在选择不支持Unicode的程序中显示文本时所使用的语言。区分清楚什么是字符，字符集。字符(Character)是各种文字和符号的总称，包括各国家文字

java UTF-8转换GB2312

阅读更多关于 java UTF-8转换GB2312

Java则采用了平台无关的UNICODE,Java从一个byte流中读取一个字符串时，将把平台相关的byte转变为平台无关的Unicode字符串。在输出时Java将把Unicode字符串转变为平台相关的byte流，如果某个Unicode字符在某个平台上不存在，将会输出一个'?'。 GB2312编码中一个汉字是16位的，而UTF8中一个汉字却是24位的。如果发出页面采用了UTF-8的编码，怎样实现转换到gb2312？ private String utf8Togb2312(String str){ StringBuffer sb = new StringBuffer(); for(int i=0; i<str.length(); i++) { char c = str.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( str.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; }

Unicode字符编码规范

阅读更多关于 Unicode字符编码规范

http://www.aoxiang.org 2006-4-2 10:48:02 Unicode是一种字符编码规范。　　先从ASCII说起。ASCII是用来表示英文字符的一种编码规范，每个ASCII字符占用1个字节（8bits）　　因此，ASCII编码可以表示的最大字符数是256，其实英文字符并没有那么多，一般只用前128个（最高位为0），其中包括了控制字符、数字、大小写字母和其他一些符号。　　而最高位为1的另128个字符被成为“扩展ASCII”，一般用来存放英文的制表符、部分音标字符等等的一些其他符号，这种字符编码规范显然用来处理英文没有什么问题。（实际上也可以用来处理法文、德文等一些其他的西欧字符，但是不能和英文通用），但是面对中文、阿拉伯文之类复杂的文字，255个字符显然不够用　　于是，各个国家纷纷制定了自己的文字编码规范，其中中文的文字编码规范叫做“GB2312-80”，它是和ASCII兼容的一种编码规范，其实就是利用扩展ASCII没有真正标准化这一点，把一个中文字符用两个扩展ASCII字符来表示。　　但是这个方法有问题，最大的问题就是，中文文字没有真正属于自己的编码，因为扩展ASCII码虽然没有真正的标准化，但是PC里的ASCII码还是有一个事实标准的（存放着英文制表符），所以很多软件利用这些符号来画表格。这样的软件用到中文系统中

中文字符集编码unicode,gb2312,cp936,GBK,GB18030介绍

阅读更多关于中文字符集编码unicode,gb2312,cp936,GBK,GB18030介绍

概要： UTF-8的一个特别的好处是它与ISO- 8859-1完全兼容，可以表示世界上所有的字符，汉字通常用３个字节来表示。GB2312的code page是CP20936。GBK的code page是CP936 。GB18030支持的字符数更多。GB2312、GBK、GB18030均为双字节。整理这篇文章的动机是两个问题：问题一：使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？问题二：最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。作者写成一篇文章，送给有过类似疑问的朋友

转: gbk, gb2312,big5,unicode,utf-8,utf-16的区别

阅读更多关于转: gbk, gb2312,big5,unicode,utf-8,utf-16的区别

以前收藏的一篇标题谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词选择自 fmddlmyy 的 Blog 关键字谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：问题一：使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？问题二：最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节

订阅 gb2312