iconv

Cleaning SQL “Incorrect string value” Error from PHP

一曲冷凌霜 提交于 2021-02-08 10:20:54
问题 I've seem this question a million times, but everyone seems to want to solve the problem in the database. I do not. I'm getting this error when parsing a large text file, picking out what I need and inserting it into my database. Out of 24 thousand rows or so, 30 or so have invalid characters in them. Here is an example of the error, followed by the query that caused it: [Query Error: Incorrect string value: '\xEF\xBC\x89' for column 'company' at row 1] [INSERT INTO mac_address_db_new (hex

Unable to change encoding of text files in Windows

旧巷老猫 提交于 2021-02-08 08:19:10
问题 I have some text files with different encodings. Some of them are UTF-8 and some others are windows-1251 encoded. I tried to execute following recursive script to encode it all to UTF-8 . Get-ChildItem *.nfo -Recurse | ForEach-Object { $content = $_ | Get-Content Set-Content -PassThru $_.Fullname $content -Encoding UTF8 -Force} After that I am unable to use files in my Java program, because UTF-8 encoded has also wrong encoding, I couldn't get back original text. In case of windows-1251

Convert non-ASCII to character representations beginning with backslash u (\u) in R?

こ雲淡風輕ζ 提交于 2021-01-28 19:05:55
问题 Running R CMD check --as-cran gives Portable packages must use only ASCII characters in their R code, except perhaps in comments. Use \uxxxx escapes for other characters. What are \uxxxx , and more importantly, how can I convert non ASCII characters into them? What I know so far ?iconv is very informative, and looks powerful, but I see nothing of the form \u this python documentation indicates \uxxxx are Character with 16-bit hex value xxxx (Unicode only) Question How can I convert non-ASCII

php5.6关键词过滤扩展php-ext-trie-filter添加

徘徊边缘 提交于 2020-04-24 14:06:20
php extension for spam word filter based on Double-Array Trie tree, it can detect if a spam word exists in a text message. 关键词过滤扩展 ,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。 1、安装libiconv,这个是libdatrie的依赖项 wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.14.tar.gz tar zxvf libiconv-1.14.tar.gz cd libiconv-1.14 ./configure make && make install && ldconfig 2、安装libdatrie (http://linux.thai.net/~thep/datrie/datrie.html) wget ftp://linux.thai.net/pub/ThaiLinux/software/libthai/libdatrie-0.2.4.tar.gz tar zxf libdatrie-0.2.4.tar.gz cd libdatrie-0.2.4 make clean ./configure LDFLAGS=-L/usr/local/lib

ld.so.conf 和 ldconfig

♀尐吖头ヾ 提交于 2020-04-02 07:22:39
今天重新编译以前的一个程序,里面用到iconv库:gcc test.cc -liconv 运行时:a.out:error while loading shared libraries: libiconv.so.2: cannot open shared object file: No such file or directory 以前编译运行是可以的,可能是不久前升级了iconv库影响。在/usr/local/lib下可以找到libiconv.so.2,把/usr/local/lib加到路径中也不行。 google了一下,解决了:在/etc/ld.so.conf中加一行/usr/local/lib,运行ldconfig。再运行a.out,行了。 ld.so.conf和ldconfig是维护系统动态链接库的。真不明白为什么iconv库安装时不把这一步也做了。 来源: https://www.cnblogs.com/amonw/archive/2006/02/06/326205.html

解决 Mac 的 txt 文件乱码问题

浪子不回头ぞ 提交于 2020-03-30 12:32:01
经常遇到 txt 文件在 Mac 上显示乱码, 如图所示. 解决 1. 单个乱码文件的转换 使用 Shell 的 iconv 命令来转换文件编码, 其语法是: iconv -f encoding -t encoding sourcefile > destinationfile 例如, 想把 GB18030 编码的 A 文件( txt 格式), 转换为 UTF-8 编码,并存入文件 B: iconv -f GB18030 -t UTF8 A.txt > B.txt 注意: 如果文件名带"空格", 在命令行操作时, 需要在"空格"前面加上"转义字符 \ ", 比如 "my file.txt" 文件在命令行中需要用 my\ file.txt 来指代. 如果你不理解"转义字符", 那么建议你先把文件名中的"空格"去掉, 或者直接使用"下划线"替代"空格". 比如, 把 "my file.txt" 文件改名为 "my_file.txt" PS. 如何得知源文件的编码格式? 可以尝试使用 file --mime-encoding 命令来查看源文件的编码格式. 同时, 根据自己的尝试和网上的资料, 大部分乱码的 txt 文件编码为 GB18030 . 2. 乱码文件的批量转换 将需要转码的 txt 文件放在一个文件夹中, 在命令行下, 进入文件夹后执行: find *.txt -exec sh

Linux 文件编码大挪移

和自甴很熟 提交于 2020-03-23 11:15:52
3 月,跳不动了?>>> 你可能已经知道,计算机除了二进制数据,是不会理解和存储字符、数字或者任何人类能够理解的东西的。一个二进制位只有两种可能的值,也就是0或1,真或假,是或否。其它的任何事物,比如字符、数据和图片,必须要以二进制的形式来表现,以供计算机处理。 简单来说,字符编码是一种可以指示电脑来将原始的 0 和 1 解释成实际字符的方式,在这些字符编码中,字符都以一串数字来表示。 字符编码方案有很多种,比如 ASCII、ANCI、Unicode 等等。下面是 ASCII 编码的一个例子。 字符 二进制 A 01000001 B 01000010 在 Linux 中,命令行工具iconv用来将使用一种编码的文本转化为另一种编码。 你可以使用 file 命令,并添加-i或--mime参数来查看一个文件的字符编码,这个参数可以让程序像下面的例子一样输出字符串的 mime (Multipurpose Internet Mail Extensions) 数据: $ file -i Car.java $ file -i CarDriver.java 在 Linux 中查看文件的编码 iconv 工具的使用方法如下: $ iconv option $ iconv options -f from-encoding -t to-encoding inputfile(s) -o

Linux 文件编码大挪移

梦想的初衷 提交于 2020-03-23 11:13:32
3 月,跳不动了?>>> 在这篇教程中,我们将解释字符编码的含义,然后给出一些使用 命令 行工具将使用某种字符编码的文件转化为另一种编码的例子。最后,我们将一起看一看如何在 Linux 下将使用各种字符编码的文件转化为 UTF-8 编码。 你可能已经知道,计算机除了二进制数据,是不会理解和存储字符、数字或者任何人类能够理解的东西的。一个二进制位只有两种可能的值,也就是 0 或 1 , 真 或 假 , 是 或 否 。其它的任何事物,比如字符、数据和图片,必须要以二进制的形式来表现,以供计算机处理。 简单来说,字符编码是一种可以指示电脑来将原始的 0 和 1 解释成实际字符的方式,在这些字符编码中,字符都以一串数字来表示。 字符编码方案有很多种,比如 ASCII、ANCI、Unicode 等等。下面是 ASCII 编码的一个例子。 字符 二进制 A 01000001 B 01000010 在 Linux 中, 命令 行工具 iconv 用来将使用一种编码的文本转化为另一种编码。 你可以使用 file 命令,并添加 -i 或 --mime 参数来查看一个文件的字符编码,这个参数可以让程序像下面的例子一样输出字符串的 mime (Multipurpose Internet Mail Extensions) 数据: $ file -i Car.java $ file -i CarDriver

C语言的注释

社会主义新天地 提交于 2020-03-01 14:20:32
在C/C++语言中, 在对源文件做预处理的时候,有两条基本原则: 1、凡是以//开头的为单行注释 2、凡是以\结尾的代表此行尚未结束 于是预处理器在处理的时候会先按第二条规则,看每行的末尾的那个 字符 是不是”\”,是的话,就下一行接到本行。然后把所有 以//开头的注释 和 /* */的块注释 去掉。 但是存在一个问题,入下: 对于big5中的汉字而言,其第一个字节的编码范围是0xA1 - 0xFE,第二个字节是0x40 - 0xFE。而’\'的ASCII码是0x5c,这就意味着:凡是以big5编码的文件,如果gcc没有正确的认为它的 源文件 的编码是big5,那么就可能出现因为 单行注释 末尾是汉字,而把下行的代码吃掉的情况。这样是很危险的,但是gcc会给出一个警告:”warning: multi-line comment In file”。这样的问题在gbk中同样存在。 将下面的代码 // 你好\ int main(int argc, char* argv[]) { return 0; } 以gbk的方式保存 ,并采用gcc 3.4编译。 无论是solaris 8还是freebsd 6.2,无论shell的locale的设置是 zh_CN.GBK 还是 zh_CN.UTF-8 ,所得到的错误都是相同的。 $ gcc -c testgbk.cpp testgbk.cpp:5: