gbk

python 编码 UnicodeDecodeError

元气小坏坏 提交于 2020-01-11 03:51:42
将一个py脚本从Centos转到win运行,出错如下: UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence 虽然明白是编码的问题,网络上decode()什么的,貌似不适用python3。后来发现使用字节方式打开可以。出错函数如下:gridfs.GridFS.put()函数。其中调用了读写操作 If you want raw bytes then you need to open it in binary mode. pipe = open('/dev/input/js0','rb') 附上一篇关于python编码的帖子 1. pyhton的所有内置库、方法接受的是unicode编码的字符串。 2. str.decode 函数就是转成unicode编码,所以能decode的字符串传进python的内置库、函数都能正确运行。 3.问题在于这个decode函数解码时到底要传哪个参数:utf-8,gbk,gb2312......等N种编码。参数不当,就会抛类似异常: UnicodeDecodeError: 'gbk' codec can't decode bytes in position 2-3: illegal multibyte

python基础二

给你一囗甜甜゛ 提交于 2020-01-10 11:05:27
一. 格式化输出 现有一练习需求,问用户的姓名、年龄、工作、爱好 ,然后打印成以下格式 ------------ info of 太白金星 ----------- Name : 太白金星 Age : 22 job : Teacher Hobbie : girl ------------- end ---------------- 你怎么实现呢?你会发现,用字符拼接的方式还难实现这种格式的输出,所以一起来学一下新姿势 只需要把要打印的格式先准备好, 由于里面的 一些信息是需要用户输入的,你没办法预设知道,因此可以先放置个占位符,再把字符串里的占位符与外部的变量做个映射关系就好啦 name = input ( "Name:" ) age = input ( "Age:" ) job = input ( "Job:" ) hobbie = input ( "Hobbie:" ) info = ''' ------------ info of %s ----------- #这里的每个%s就是一个占位符,本行的代表 后面拓号里的 name Name : %s #代表 name Age : %s #代表 age job : %s #代表 job Hobbie: %s #代表 hobbie ------------- end ----------------- ''' %( name ,

Ubuntu上用网易云音乐乱码(亲测可用)

大憨熊 提交于 2020-01-10 06:47:06
使用Ubuntu听音乐的时候,播放列表总显示为乱码,这点非常不爽。于是上网搜索了下,终于找到了解决的办法。 简单的方法就是将MP3标签转换为Unicode编码,要使用到python-mutagen,在新立得软件管理中可以直接找到,也可以用以下的命令进行安装: sudo apt-get install python-mutagen 使用方法: 在终端中进入音乐文件所在的目录,执行: mid3iconv -e gbk *.mp3 如果有子目录的话,执行: find . -iname “*.mp3″ -execdir mid3iconv -e gbk {} ; 或“mid3iconv -e GBK / .mp3” 注:1.-e gbk参数是代表把 GBK 编码的标签转换为 Unicode 编码,本身是 Unicode 编码的就不转换。如果需要转换其他编码的文件可以自行修改,如改为 Big5。 2.绝大多数能找到的 mp3 标签都是以 GBK/GB18030 编码,使用 -e gbk 来处理就够了,当然你也可以使用 -e gb18030 来处理。 3.它会同时用 Unicode 编码填满 D3v1, ID3v2, APEv2 标签,但是 ID3v1 又不支持中文的 Unicode 编码,所以转换后的 ID3v1 标签全是问号。所以最好加上 –remove-v1 参数,转换后删除 ID3v1

TOMCAT中文信息乱码改为GBK

浪子不回头ぞ 提交于 2020-01-08 12:35:16
# Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information regarding copyright ownership. # The ASF licenses this file to You under the Apache License, Version 2.0 # (the "License"); you may not use this file except in compliance with # the License. You may obtain a copy of the License at # # http://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, #

字符集与编码(九)——GB2312,GBK,GB18030

試著忘記壹切 提交于 2020-01-07 18:44:44
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 前面的一些篇章更多谈论了Unicode的相关话题,虽然也有提到GBK等编码,但都没细说,这里打算系统说一下。GB系列包括GB2312,GBK,GB18030. 前面已经提过,GB=Guo Biao=国标=国家标准,至于所谓的2312就是一编号了,没有其它特别的意义,18030类似。GBK没有编号,所以它实际上并不是国家标准,只是一个事实标准,GBK中K指“扩展”的意思。 最早的是GB2312,我们从它开始说起。 GB2312 以下为一简介(官方文档见" 国家标准化管理委员会 "网站: http://gbread.sac.gov.cn/bzzyReadWebApp/standardresources.action?m=readFile&bzNum=GB%202312-1980&flag=1 ,用IE打开,它要安装一个ActiveX插件): GB 2312-1980,全称《信息交换用汉字编码字符集 基本集》,由国家标准总局于1980年3月9号发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。它是一个简化字的编码规范,也包括其他的符号、字母、日文假名等,共7445个图形字符,其中汉字占6763个。 上述官网地址无法下载,如果你想下载,可试下这个 ftp://ftp.oreilly.com

输入法项目->用delphi生成GBK 中文编码 表(4~5) GBK/4~5: 0xAA40~0xFEA0(部分) 扩充汉字 包括繁体 0xA840~0xA995(部分) 扩充非汉字

心已入冬 提交于 2020-01-07 17:50:50
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 摘要: GBK 中文编码: (* GBK是GB2312的扩展,是向上兼容的,因此GB2312中的汉字的编码与GBK中汉字的相同。 GBK中每个汉字仍然包含两个字节, 第一个字节的范围是0x81-0xFE(即129-254),第二个字节的范围是0x40-0xFE(即64-254)。GBK中有码位23940个, 包含汉字21003个。------------------------------------ 阅读全文 作者资料: jfyes 我的主页 个人资料 我的闪存 与我联系 ---------------------------------------------------------------------------------------- 推荐链接: 博客园个人主页上线测试 新闻频道: Google回应微软:Chrome Frame让IE更安全 网站导航: 博客园首页 个人主页 新闻 社区 博问 闪存 找找看 来源: oschina 链接: https://my.oschina.net/u/34216/blog/1473

Python 02.运算符和编码

故事扮演 提交于 2020-01-07 03:45:27
⼀. 格式化输出 现在有以下需求,让⽤户输入name, age, job,hobby 然后输出如下所⽰: 你怎么实现呢?你会发现,⽤字符拼接的⽅式还难实现这种格式的输出,所以⼀起来学⼀下新姿势 只需要把要打印的格式先准备好, 由于⾥⾯的 ⼀些信息是需要⽤户输⼊的,你没办法预设知道,因此可以先放置个占位 符,再把字符串⾥的占位符与外部的变量做个映射关系就好啦 name = input("Name:") age = input("Age:") job = input("Job:") hobby = input("Hobbie:") info = ''' ------------ info of %s ----------- #这⾥的每个%s就是⼀个占位符,本⾏的代表 后⾯拓号⾥的 name Name : %s #代表 name Age : %s #代表 age job : %s #代表 job Hobbie: %s #代表 hobbie ------------- end ----------------- ''' % (name,name,age,job,hobbie) # 这⾏的 % 号就是 把前⾯的字符串 与拓号 后⾯的 变量 关联起来 print(info) %s就是代表字符串占位符,除此之外,还有%d, 是数字占位符, 如果把上⾯的age后⾯的换成%d,就代表你必须只 能输

Python中编码encode()与解码decode()

六眼飞鱼酱① 提交于 2020-01-06 18:36:49
1 print('这是编码'.encode('utf-8')) # 结果 b'\xe8\xbf\x99\xe6\x98\xaf\xe7\xbc\x96\xe7\xa0\x81' 2 print('这是编码'.encode('gbk')) # 结果 b'\xd5\xe2\xca\xc7\xb1\xe0\xc2\xeb' 3 4 print(b'\xe8\xbf\x99\xe6\x98\xaf\xe7\xbc\x96\xe7\xa0\x81'.decode('utf-8')) # 结果'这是编码' 5 print(b'\xd5\xe2\xca\xc7\xb1\xe0\xc2\xeb'.decode('gbk')) # 结果'这是解码' 来源: https://www.cnblogs.com/Through-Target/p/12147972.html

Ubuntu13.04下Eclipse中文乱码解决

最后都变了- 提交于 2020-01-06 02:29:04
参考:http://www.linuxidc.com/Linux/2011-12/50056.htm baoyu@baoyu:~$ gedit /var/lib/locales/supported.d/local 添加: zh_CN.GBK GBK zh_CN.GB2312 GB2312 baoyu@baoyu:~$ sudo dpkg-reconfigure --force locales Generating locales... en_AG.UTF-8... done en_AU.UTF-8... done en_BW.UTF-8... done en_CA.UTF-8... done en_DK.UTF-8... done en_GB.UTF-8... done en_HK.UTF-8... done en_IE.UTF-8... done en_IN.UTF-8... done en_NG.UTF-8... done en_NZ.UTF-8... done en_PH.UTF-8... done en_SG.UTF-8... done en_US.UTF-8... up-to-date en_ZA.UTF-8... done en_ZM.UTF-8... done en_ZW.UTF-8... done zh_CN.GB2312... done zh_CN.GBK...

Python爬虫_unable to decode value

佐手、 提交于 2020-01-03 17:42:43
一、问题描述 Form Data表单里面出现参数值为:unable to decode value ,导致python爬虫时返回页面源代码丢失内容 网站源码编码为GBK 二、解决方法 提交的form表单参数值编码转换 :“orgName”: “北京”.encode(“GBK”), 'page_flag' : 'true' , 'pagesize_key' : 'baXyBasicInfoXxgsList' , 'page_size' : '10' , "page_order" : "" , "goto_page" : "" , "current_page" : "1" , "total_count" : "14913" , "legalName" : "" , "xingYongDaiMa" : "" , "corporateType" : "" , "registrationNo" : "" , "orgName" : "北京" . encode ( "GBK" ) , "ps" : "10" , "to_page" : "1" , 来源: CSDN 作者: Shrimay1 链接: https://blog.csdn.net/weixin_43411585/article/details/103821273