华宇

【一起学习输入法】华宇拼音输入法开源版本解析(6)

◇◆丶佛笑我妖孽 提交于 2020-01-22 08:31:05
【一起学习输入法】华宇拼音输入法开源版本解析(6) 原创:good02xaut(CSDN) 输入法运行原理 汉字编码体系 汉字的编码就是汉字对应的字符集,历史上共有5种: GB2312编码字符集:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。 BIG5编码字符集:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。 GBK编码字符集:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉字,包含国家标准GB13000-1中的全部中日韩汉字,和BIG5编码中的所有汉字。 GB18030编码字符集:2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。 Unicode编码字符集:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。 以汉字“啊”为例,对应如下5种编码的码值,兼容性问题一目了然。 同一个汉字在不同的应用场景下采用何种字符集需要在设计阶段明确,以确保在数据交换、处理

【一起学习输入法】华宇拼音输入法开源版本解析(7)

半腔热情 提交于 2020-01-21 09:40:28
【一起学习输入法】华宇拼音输入法开源版本解析(7) 原创:good02xaut(CSDN) 计算机码型转换 计算机内部汉字信息的存储运算的代码有四种:输入码、国标码、内码和字型码。 输入码:又称外码,包括拼音编码和字型编码。微软拼音ABC就是拼音编码,五笔字型输入法就是字型编码。 国标码:又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个字节的最高位均为0,因此可以表示的汉字数为2的14次幂,就是16384个。将汉字区位码的高位字节、低位字节各加十进制数32(即十六进制数的20),便得到国标码。例如“中”字的国标码为8680(十进制)或7468(十六进制)。 内码:汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上128(十进制)或80(十六进制)。例如,“中”字的内码以十六进制表示时应为F4E8(国标码D6D0)。这样做的目的是使汉字内码区别于西文的ASCII,因为每个西文字母的ASCII的高位均为0,而汉字内码的每个字节的高位均为1。 字型码(字符映射表):表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。通常用点阵、矢量函数等表示。用点阵表示时,字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16

【一起学习输入法】华宇拼音输入法开源版本解析(1)

戏子无情 提交于 2020-01-16 02:22:03
【一起学习输入法】华宇拼音输入法开源版本解析(1) 原创:good02xaut(CSDN) 基本信息简介 华宇拼音版本:6.9.0 源代码路径(gitHub): https://github.com/thunisoft/unispim 源代码规模:xxx kloc 开发语言:C++ 编译环境:VS2010 运行环境:Windows IME框架(WINXP) 操作系统版本:32位 版权信息:北京华宇软件股份有限公司 官网地址: http://www.unispim.com 公司地址:北京市海淀区中关村东路1号院 清华科技园 科技大厦C座25层 官方论坛: http://bbs.unispim.com/ 必备知识 领域 知识点 知识点 描述 软件 C++编程 精通 本文不涉及 VS 2010开发环境 掌握 本文不涉及 Windows消息编程 精通 本文不涉及 Windows DLL动态库编程 掌握 本文有讲解 IME输入法编程 掌握 本文有讲解 共享内存编程 掌握 本文不涉及 硬件 键盘 掌握 本文有讲解 鼠标 掌握 本文不涉及 算法 检索查找算法 精通 本文有讲解 汉字的字符集(字库) 精通 本文有讲解 汉字的字体库 掌握 本文有讲解 来源: CSDN 作者: good02xaut 链接: https://blog.csdn.net/good02xaut/article