unicode字符列表

Unicode13正式发布,更多的Emoji

廉价感情. 提交于 2020-04-06 13:32:11
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。 Unicode 13现在正式可用,它标准化了143,859个不同的字符。 Unicode 13.0带来了数十种新的表情符号,包括新的性别和肤色序列。 新的表情符号从诸如凉鞋,凉鞋,肺部到抽水马桶柱塞之类的不同物体开始。 除了新的表情符号外,还为Yezidi,Chorasmian和其他语言添加了新的字符和 脚本 。 可以通过 Unicode.org公告 找到Unicode 13.0更改的完整列表。 此处 概述了新的Unicode 13.0表情符号。 来源: oschina 链接: https://my.oschina.net/linuxmeng/blog/3217710

编码

我们两清 提交于 2019-12-04 05:27:58
编码 ASCll 美国 一个字节表示一个字符,不能表示汉字 大写字母 65--90 小写字母 97 --122 256个位置 8位表示一个字节 8bit = 1byte GBK 中国 只包含本国文字 英文:沿用 ascii 一个字节表示一个字符 中文: 两个字节表示一个汉字 列如: 中国 用的是4个字节, 32位 unicode 万国码 全世界通用 最早两个字节表示一个字节 2个字节表示一个汉数 生僻字用4个字节表示一个字符 缺点: 占用内存比较大 UTF-8 (unicode的升级版) 一个字节表示一个字符 (沿用asci规则) 欧洲: 两个字节表示一个字符 亚洲国家: 三个字节表示一个字符 python2 用的是ascii 编码 python3 默认使用UTF-8 编码 计算机只要是在内存里面的。用的一定是unicode 在传输和存储时用的是非unicode(UTF-8,GBK...) python3中 str 类型用的是编码方式是unicode str 字符 bytes 二进制 字节 (字符串的特殊形式) 内部编码是非Unicode,能够进行传输和存储 encode 编码 unicode----->非Unicode encode 编码 unicode ------> 非Unicode str -----bytes decode 解码 非 unicode-----

day2

拜拜、爱过 提交于 2019-11-29 19:18:04
阅读目录 上节拾遗 二进制 字符编码 基本数据类型 回到顶部 上节拾遗 变 量的创建与id 例1:name = 'oldboy' 首先,当我们定义了一个变量name = ‘oldboy’的时候,在内存中其实是做了这样一件事: 程序开辟了一块内存空间,将‘oldboy’存储进去,再让变量名name指向‘oldboy’所在的内存地址。如下图所示: 例 2:两个变量名一个值 提问:当我执行下面这段代码的时候,程序是怎么处理的呢? name1 = 'oldboy' name2 = 'oldboy' 我们猜想会有两种可能: 第一种情况:程序分别在内存中开辟了两块儿空间来存储‘oldboy’这个值,并且让name1和name2指向这两个值。如下左图 第二种情况:由于两个值内容一致,所以程序只开辟一块儿空间存储‘oldboy’,并让name1和name2只想着个值。如下右图 提问:大家来猜测一下会是哪种情况? 其实上面的两种猜想都是对的。正常情况下字符串在内存里就是如我们猜想的第一种情况一样,每一次创建一个变量都会在内存中申请一块儿空间。 但是,python认为一些“看起来像python标识符的字符”和小整数字在开发中是常用的,因此出于节省内存的角度思考,对于这部分字符串和数字做出了优化[-5,257)

第七天

瘦欲@ 提交于 2019-11-27 14:55:04
第七天 字符编码 前置知识点: 1、程序执行的三大核心硬件(***): cpu ​ 内存 ​ 硬盘 正常执行一个程序的要点: 1、将硬盘中的数据读到内存 ​ 2、由cpu读内存中的数据进行执行 ​ 3、在执行程序的时候,生成的数据,优先存入内存 2、python解释器执行一个py文件过程(***) 如果没有python解释器,py文件单纯就是一个文本文件 所以说,想执行py文件,必须先执行python解释器​ 1、将python解释器的代码有硬盘读到内存 2、将py文件以普通文本文件的格式由硬盘读到内存 3、python解释器去内存中读取py文件的数据 4、识别python语法,执行相应的操作​ ps:任何一个文本编辑器的执行,前两部都一样 字符编码: 字符:世界上一切语言、文字 ​ 有必要考虑,图片文件、音频文件、视频文件? 文件的输入和输出是两个过程​人类输入的内容都是人类自己可以识别的字符​计算机只能识别0101010二进制字符​将人类的字符,存入内存和硬盘,要经历一个过程:​人类的字符 >>>>>>> (字符编码表) >>>> 计算机二进制​0 a1 b01 a10 b00 c11 d​ASCII码表(美国) 用八位二进制来代表一个英文字符(所有的英文字符+符号一共大概128左右) 0000 0000 1111 1111 最多只能表示255位 八位二进制 = 8 bit 8