编码转换

001_Python2 的中文编码处理

余生颓废 提交于 2020-03-06 04:33:16
最近业务中需要用 Python 写一些脚本。尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息。 很快,我就遇到了异常: Python代码 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0- 3: ordinal not in range( 128) 为了解决问题,我花时间去研究了一下 Python 的字符编码处理。网上也有不少文章讲 Python 的字符编码,但是我看过一遍,觉得自己可以讲得更明白些。 下面先复述一下 Python 字符串的基础,熟悉此内容的可以跳过。 对应 C/C++ 的 char 和 wchar_t, Python 也有两种字符串类型,str 与 unicode: Python代码 # -*- coding: utf-8 -*- # file: example1.py import string # 这个是 str 的字符串 s = '关关雎鸠' # 这个是 unicode 的字符串 u = u '关关雎鸠' print isinstance(s, str) # True print isinstance(u, unicode) # True print s.__class__ # <type 'str'> print u._

也谈 Python 的中文编码处理

我只是一个虾纸丫 提交于 2020-03-06 04:32:59
最近业务中需要用 Python 写一些脚本。尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息。 很快,我就遇到了异常: Python代码 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0 - 3 : ordinal not in range( 128 ) 为了解决问题,我花时间去研究了一下 Python 的字符编码处理。网上也有不少文章讲 Python 的字符编码,但是我看过一遍,觉得自己可以讲得更明白些。 下面先复述一下 Python 字符串的基础,熟悉此内容的可以跳过。 http://in355hz.iteye.com/blog/1860787 对应 C/C++ 的 char 和 wchar_t, Python 也有两种字符串类型,str 与 unicode: Python代码 # -*- coding: utf-8 -*- # file: example1.py import string # 这个是 str 的字符串 s = '关关雎鸠' # 这个是 unicode 的字符串 u = u '关关雎鸠' print isinstance(s, str) # True print isinstance(u, unicode) # True

也谈 Python 的中文编码处理

穿精又带淫゛_ 提交于 2020-03-06 04:32:37
转载自: http://in355hz.iteye.com/blog/1860787 最近业务中需要用 Python 写一些脚本。尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息。 很快,我就遇到了异常: Python代码 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0- 3: ordinal not in range( 128) 为了解决问题,我花时间去研究了一下 Python 的字符编码处理。网上也有不少文章讲 Python 的字符编码,但是我看过一遍,觉得自己可以讲得更明白些。 下面先复述一下 Python 字符串的基础,熟悉此内容的可以跳过。 对应 C/C++ 的 char 和 wchar_t, Python 也有两种字符串类型,str 与 unicode: Python代码 # -*- coding: utf-8 -*- # file: example1.py import string # 这个是 str 的字符串 s = '关关雎鸠' # 这个是 unicode 的字符串 u = u '关关雎鸠' print isinstance(s, str) # True print isinstance(u, unicode) # True

深入理解计算机系统cp1:存储单位与编码

喜欢而已 提交于 2020-03-05 16:03:30
摘要: 理解计算机是如何存储数据的。 原文: 深入理解计算机系统cp1:存储单位与编码 作者: Chor Fundebug 经授权转载,版权归原作者所有。 1. 存储单位 位:即 bit,表示二进制位,要么是 0 ,要么是 1。它是计算机内部数据存储的最小单位。比如 11010100 共有8个二进制位,是一个8位二进制数。 字节:即 byte,它由8个二进制位构成,即 1byte=8bit,是计算机内部计量的基本单位。一个英文字符占1个字节(8位),一个汉字占2个字节(16位) 字:即word,它由若干个字节构成,是计算机内部进行数据处理和运算的基本单位。字的总的位数称为字长,不同档次的计算机字长是不一样的,比如32位机,它的1个字由4个字节构成,字长为32位,也就是说其CPU一次操作处理的实际位数是32位。同理,64位机可以处理64位。由此可见,计算机的字长越大,其性能越优越。 KB,MB:1024byte = 1KB,1024KB = 1MB。往上还有GB,TB。 PS:数据传输大多以 bit 为单位,比如我们常说的网速100M/s,M/s其实Mbit/s,也就是兆比特每秒,我们还可以写成100Mbps。 2. 编码 2.1 为什么需要编码? 计算机只能理解0和1,无法理解英文、字母、汉字和其他特殊字符,这些字符需要经过编码才能成为计算机可以理解的二进制数。

关于BCD码的编码和解码

自作多情 提交于 2020-03-04 23:37:57
(1)BCD码(二到十进制编码) 人们通常习惯使用十进制数,而计算机内部多采用二进制表示和处理数值数据, 因此在计算机输入和输出数据时,就要进行由十进制到二进制的转换处理。 把十进制数的每一位分别写成二进制形式的编码,称为二进制编码的十进制数, 即二到十进制编码或BCD(Binary Coded Decimal)编码。 BCD码编码方法很多,通常采用8421编码,这种编码方法最自然简单。 其方法使用四位二进制数表示一位十进制数,从左到右每一位对应的权分别是 23、22、21、20,即8、4、2、1。例如十进制数1975的8421码可以这样得出 1975(D)=0001 1001 0111 0101(BCD) 用四位二进制表示一位十进制会多出6种状态,这些多余状态码称为BCD码中的非法码。 BCD码与二进制之间的转换不是直接进行的, 当需要将BCD码转换成二进制码时,要先将BCD码转换成十进制码,然后再转换成二进制码; 当需要将二进制转换成BCD码时,要先将二进制转换成十进制码,然后再转换成BCD码。 编码过程,将数字69进行BCD编码(注:BCD编码低位在前,后面将不再注释)。 1. 将6,9分别转换成二进制表示:6(00000110)9(00001001),大家可以看到,最大的数字9也只要4个位,在传输过程中白白浪费了4个位; 2. 将69合并为一个字节,分别取6

C#高级编程:读写文本文件

时光怂恿深爱的人放手 提交于 2020-03-04 18:09:10
GPS平台、网站建设、软件开发、系统运维,找森大网络科技! http://cnsendnet.taobao.com 来自森大科技官方博客 http://www.cnsendblog.com/index.php/?p=459 C#高级编程:读写文本文件 理论上,可以使用FileStream类读取和显示文本文件。前面已经介绍了这个类。上面显示NewFile.txt文件的格式不太容易理解,但这并不是FileStream类的问题——而在于我们在文本框中显示结果所使用的方式。 如果知道某个文件包含文本,通常就可以使用StreamReader 和 StreamWriter类更方便地读写它们。这是因为这些类工作的级别比较高,特别适合于读写文本。它们执行的方法可以根据流的内容,自动检测出停止读取文本较方便的位置,特别是: ●这些类执行的方法可以一次读写一行文本(StreamReader.ReadLine() 和 StreamWriter.WriteLine())。在读取文件时,流会自动确定下一个回车符的位置,并在该处停止读取。在写入文件时,流会自动把回车符和换行符添加到文本的末尾。 ●使用StreamReader 和 StreamWriter类,就不需要担心文件中使用的编码方式(文本格式)了。可能的编码方式是ASCII(一个字节表示一个字符)或者基于Unicode的格式,UNICODE、UTF7和

信息抽取——实体关系联合抽取

杀马特。学长 韩版系。学妹 提交于 2020-03-04 05:24:23
目录 简介 实体关系联合抽取 Model 1: End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures Model 2: Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme Model 3: Joint entity recognition and relation extraction as a multi-head selection problem Model 4: 基于DGCNN和概率图的轻量级信息抽取模型 Model 5: Entity-Relation Extraction as Multi-turn Question Answering Model 6: A Novel Hierarchical Binary Tagging Framework for Joint Extraction of Entities and Relations 小结 简介 通常,早期的信息抽取将实体抽取和关系抽取看作串联的任务,这样的串联模型在建模上相对更简单,但这样将实体识别和关系抽取当作两个独立的任务明显会存在一系列的问题: 两个任务的解决过程中没有考虑到两个子任务之间的相关性

JavaScript及C# URI编码详解

时光总嘲笑我的痴心妄想 提交于 2020-03-03 23:36:04
转载自: http://www.cnblogs.com/artwl/archive/2012/03/07/2382848.html 应用Uri编码,可以把一个或多个Uri作为另一个Uri的参数(如果不用Uri编码方法,我们可以自定义一套Uri特殊字符的转换规则,同样可以实现Uri参数化的目的) 混乱的URI编码   JavaScript中编码有三种方法:escape、encodeURI、encodeURIComponent   C#中编码主要方法:HttpUtility.UrlEncode、Server.UrlEncode、Uri.EscapeUriString、Uri.EscapeDataString   JavaScript中的还好,只提供了三个,C#中主要用的就有这么多,还没有列出其他编码(HTML),一多就弄不明白,弄不明白就心生恐惧,心生恐惧就变得苦逼,本文就向大家详细解释在JavaScript及C#中如何对URI进行编码的方法(注:本文不涉及到其他编码)。 escape:不推荐使用   原因:eacape是BOM中的方法,只能对ASCII符号正确编码,而encodeURI、encodeURIComponent可以对所有的Unicode符号编码。ECMAScript v3 反对使用该方法,应用使用 decodeURI() 和 decodeURIComponent()

SpirngBoot配置参考指南(全)

我是研究僧i 提交于 2020-03-03 09:49:28
#================================================= ================== #COMMON SPRING BOOT PROPERTIES #============================================== ===================== #---------------------------------------- #核心属性 #----- ----------------------------------- debug = false #启用调试日志。 trace = false #启用跟踪日志。 #LOGGING logging.config = #日志配置文件的位置。例如,Logback的`classpath:logback.xml`。 logging.exception-conversion-word =%wEx #记录异常时使用的转换字。 logging.file = #日志文件名(例如`myapp.log`)。名称可以是确切的位置或相对于当前目录。 logging.file.max-history = 0 #要保留的归档日志文件的最大数量。仅支持默认的登录设置。 logging.file.max-size = 10MB #最大日志文件大小。仅支持默认的登录设置。

文字编码转换器 V1.0 免费绿色版

一世执手 提交于 2020-03-03 05:31:19
软件名称: 文字编码转换器 软件语言: 简体中文 授权方式: 免费软件 运行环境: Win7 / Vista / WinXP 软件大小: 920KB 图片预览: 软件简介: 文字编码转换器,能把普通文字转换为Ansi、Unicode、UniBigEnd、UTF-8、UTF-7编码 输入文字后,就会立刻显示出转换的结果,然后点击“开始转换文字编码”,可以生成文件并保存在系统桌面上 软件下载页面: http://www.bkill.com/download/23016.html 软件下载地址: 电信下载 联通下载 来源: https://www.cnblogs.com/dickmoore/p/5744669.html