gbk编码

真正解决方案:前端 请求 unable to decode value

我只是一个虾纸丫 提交于 2020-01-22 13:22:08
一次爬取小说网站的过程中,遇到了爬虫提交form表单中含有(unable to decode value)的问题,keyword为搜索关键字,然而search参数不知道是什么,我需要还原 点击 VIew URL encoded 然而当我习惯性的打开百度,搜到的确实这样的 然而打印 出来的却不是 %CB%D1+%CB%F7 a = '萝莉' print ( a . encode ( 'gbk' ) ) 结果:b’\xc2\xdc\xc0\xf2’ 还有这个,介绍了js的方法,然而我用不了 最后看到 但是还是不行 之后看到网页的编码为‘ charset=gbk’,应该加上encoding a = '%CB%D1+%CB%F7' print ( urllib . parse . unquote ( a , encoding = 'gbk' ) ) 结果正是 搜索 这两个字(坑人) 之后date这样组就好了 date = {'keyword' : '少女'.encode('gbk'),'search':'搜索'.encode('gbk')} 来源: CSDN 作者: holore 链接: https://blog.csdn.net/holore/article/details/104066280

GB2312、GBK与UTF-8的区别

杀马特。学长 韩版系。学妹 提交于 2020-01-19 09:21:05
标题简单的说一下,为什么要用编码? 在计算机内,储存文本信息用ASC II码,每一个字符对应着唯一的ASCII码。最初计算机是由美国发明的,他们也用的是键盘和上面的字母,所以他们的字符ASCII好解决。但是我们中国 的就不同了, 每个汉字要对应唯一的ASCII码。这样,就出来了国家制定的字符编码标准:GB2312、GBK等 。其他国家,其他语言也有他们对应的编码标准。 GB 就是国标的意思, GB2312和GBK主要用于汉字的编码,而UTF-8是全世界通用的 。意思就是说,如果你的网页主要面对使用汉语的中国人的话,使用 GB2312和GBK非常好,文字储存体积要小,有一些优点。如果你的网页要面向世界的话,你再用GB2312和GBK作为网页编码的话,有些电脑上的浏 览器没有这种编码,你的网页汉字内容就会变成无法识别的乱码。 它们通常用在网页的meta标签内,例如:,表示这个页面使用的是GB2312编码。这个信息是给浏览器看的,浏览器会优先考虑使用从网页头部提取出来的编码信息对网页进行解码。当然, 我们也可以强制浏览器使用某种编码解释网页,这样我们就看到了传说中的乱码。 GB2312、GBK和UTF-8都是一种字符编码,除此之外,还有好多字符编码。只是对于我们中国人的网站来说,用这三种编码 比较多。 标题GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换:

Python 编码:unicode、uft-8、gbk

流过昼夜 提交于 2020-01-18 06:05:34
Python 编码 三种编码之间可以通过unicode进行转化,内部默认存储为unicode格式 unicode为中介 一般使用uft-8 gbk一般显示为乱码 unicode可以显示在hive表中 参考文献: https://blog.csdn.net/chixujohnny/article/details/51782826 来源: CSDN 作者: sunflower_sara 链接: https://blog.csdn.net/sunflower_sara/article/details/104010030

解决Tomcat控制台乱码问题

此生再无相见时 提交于 2020-01-17 05:14:06
解决Tomcat控制台乱码问题 问题原因:编码不一致,Tomcat启动后默认编码UTF-8,而Windows的默认编码是GBK。所以只需配置启动tomcat后为GBK编码即可。 做法:找到路径 \apache-tomcat-xxx\conf\ 下的logging.properties文件,添加(或修改)语句为:java.util.logging.ConsoleHandler.encoding = GBK 然后重启tomcat就ok了。 来源: CSDN 作者: XiaoAYing 链接: https://blog.csdn.net/XiaoAYing/article/details/103818148

写入文件中遇到 UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法

倖福魔咒の 提交于 2020-01-17 04:38:05
之前也遇到了,在此做一个笔记,引用博主http://blog.csdn.net/vito21/article/details/53490435 在写入TXT文件时,某些页面总是报 UnicodeEncodeError: ‘gbk’ codec can’t encode character错误,网上找了半天也没找到解决办法。 后来终于找到了解决办法,十分简单:在 f = open('英语练习.txt','a+',encoding='utf-8') 里加上encoding='utf-8'这个参数就行了。 出错的原因是网页及python的编码都是utf-8,在写进txt时Windows默认转码成gbk,遇到某些gbk不支持的字符就会报错。在打开文件时就声明编码方式为utf-8就能避免这个错误。 来源: https://www.cnblogs.com/wangcongsuibi/p/7941294.html

S3的中文编码问题及修复方案

六月ゝ 毕业季﹏ 提交于 2020-01-13 13:18:20
S3的中文编码问题及修复方案 原创 小包子大 网易游戏运维平台 2019-08-10 小包子大 06 年加入网易游戏,先后负责过多个端游/手游产品的运维工作;多年运维生涯,历经数次运维技术变革;本人关注广泛,Web/CDN,自动化,分布式等,欢迎来侃;作为十多年运维老兵, 平日写些别人看着晦涩的东西,擅长手术刀式的运维杂症分析。 二个月前,游戏的流媒体站点从物理机迁移到了 S3,迁移过程中发生了一些小插曲,今天分享下其中的 S3 中文文件名的编码问题及解决方法。 这里指的中文,是指文件名带中文,而不是文件内容。 中文主要有 2 种编码,UTF-8 与 GBK,服务器环境大都是 UTF-8 编码,而 Windows 系统则采用 GBK。 PS. 本文档不区分字符集与字符编码,二者在这里可以混用。 一、中文文件名与S3上传的编码问题 当上传到 S3 的文件名带有中文时,上传时的编码环境很重要。 文件名采用什么编码,就需要在相应的编码环境上传,否则无法上传 比如,一个文件名采用 GBK 编码的文件,在 GBK 编码环境下,正常上传 而同一个文件,切换到 UTF-8 环境下,上传报错 上面这个编码要求还算说得过去,但当以目录为单位上传到 S3 时,异常编码的文件,会被 “静默地“ 忽略掉! 即当你想同步整个目录到 S3 时,实际只是同步了名字编码没有问题的文件,请注意这个坑。 二、S3

Python:将utf-8格式的文件转换成gbk格式的文件

拥有回忆 提交于 2020-01-11 09:14:34
需求:将utf-8格式的文件转换成gbk格式的文件 实现代码如下: def ReadFile(filePath,encoding="utf-8"): with codecs.open(filePath,"r",encoding) as f: return f.read() def WriteFile(filePath,u,encoding="gbk"): with codecs.open(filePath,"w",encoding) as f: f.write(u) def UTF8_2_GBK(src,dst): content = ReadFile(src,encoding="utf-8") WriteFile(dst,content,encoding="gbk") 代码讲解: 函数ReadFile的第二个参数指定以utf-8格式的编码方式读取文件,返回的结果content为Unicode 然后,在将Unicode以gbk格式写入文件中。 这样就能实现需求。 但是,如果要转换格式的文件中包含有一些字符并不包含在gbk字符集中的话,就会报错,类似如下: UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 4813: illegal multibyte sequence

python基础二

给你一囗甜甜゛ 提交于 2020-01-10 11:05:27
一. 格式化输出 现有一练习需求,问用户的姓名、年龄、工作、爱好 ,然后打印成以下格式 ------------ info of 太白金星 ----------- Name : 太白金星 Age : 22 job : Teacher Hobbie : girl ------------- end ---------------- 你怎么实现呢?你会发现,用字符拼接的方式还难实现这种格式的输出,所以一起来学一下新姿势 只需要把要打印的格式先准备好, 由于里面的 一些信息是需要用户输入的,你没办法预设知道,因此可以先放置个占位符,再把字符串里的占位符与外部的变量做个映射关系就好啦 name = input ( "Name:" ) age = input ( "Age:" ) job = input ( "Job:" ) hobbie = input ( "Hobbie:" ) info = ''' ------------ info of %s ----------- #这里的每个%s就是一个占位符,本行的代表 后面拓号里的 name Name : %s #代表 name Age : %s #代表 age job : %s #代表 job Hobbie: %s #代表 hobbie ------------- end ----------------- ''' %( name ,

Ubuntu上用网易云音乐乱码(亲测可用)

大憨熊 提交于 2020-01-10 06:47:06
使用Ubuntu听音乐的时候,播放列表总显示为乱码,这点非常不爽。于是上网搜索了下,终于找到了解决的办法。 简单的方法就是将MP3标签转换为Unicode编码,要使用到python-mutagen,在新立得软件管理中可以直接找到,也可以用以下的命令进行安装: sudo apt-get install python-mutagen 使用方法: 在终端中进入音乐文件所在的目录,执行: mid3iconv -e gbk *.mp3 如果有子目录的话,执行: find . -iname “*.mp3″ -execdir mid3iconv -e gbk {} ; 或“mid3iconv -e GBK / .mp3” 注:1.-e gbk参数是代表把 GBK 编码的标签转换为 Unicode 编码,本身是 Unicode 编码的就不转换。如果需要转换其他编码的文件可以自行修改,如改为 Big5。 2.绝大多数能找到的 mp3 标签都是以 GBK/GB18030 编码,使用 -e gbk 来处理就够了,当然你也可以使用 -e gb18030 来处理。 3.它会同时用 Unicode 编码填满 D3v1, ID3v2, APEv2 标签,但是 ID3v1 又不支持中文的 Unicode 编码,所以转换后的 ID3v1 标签全是问号。所以最好加上 –remove-v1 参数,转换后删除 ID3v1

输入法项目->用delphi生成GBK 中文编码 表(4~5) GBK/4~5: 0xAA40~0xFEA0(部分) 扩充汉字 包括繁体 0xA840~0xA995(部分) 扩充非汉字

心已入冬 提交于 2020-01-07 17:50:50
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 摘要: GBK 中文编码: (* GBK是GB2312的扩展,是向上兼容的,因此GB2312中的汉字的编码与GBK中汉字的相同。 GBK中每个汉字仍然包含两个字节, 第一个字节的范围是0x81-0xFE(即129-254),第二个字节的范围是0x40-0xFE(即64-254)。GBK中有码位23940个, 包含汉字21003个。------------------------------------ 阅读全文 作者资料: jfyes 我的主页 个人资料 我的闪存 与我联系 ---------------------------------------------------------------------------------------- 推荐链接: 博客园个人主页上线测试 新闻频道: Google回应微软:Chrome Frame让IE更安全 网站导航: 博客园首页 个人主页 新闻 社区 博问 闪存 找找看 来源: oschina 链接: https://my.oschina.net/u/34216/blog/1473