外部排序,杀鸡焉用牛刀?
上篇: http://www.cnblogs.com/foreach-break/p/external_sort.html 字符集和编码 字节序 I/O方式 内存 磁盘 线程/同步/异步 数据特点 字符集和编码 为什么要考虑文件的编码? 当你将文件从阿拉伯传到中国,告诉你的中国朋友要进行一个外部排序,你的中国朋友也许会傻: 上面是什么? 乱码 . 你也可以这样体验乱码: echo "数" > t.txt iconv -f UTF-8 -t UNICODE t.txt ��pe 好了,你知道了如果不知道文件的编码,你可能会解析到乱码. 字符集是什么? charset - > char-set,字符的集合.比如 UNICODE、ASCII 编码是什么? encoding,字符的表示.比如 UTF-8、ASCII 字符集和编码的关系 你晕了,我也晕了,ASCII码怎么既是字符集又是编码? 历史上,字符集和编码是同义词,实际却又不尽相同,没有一个规范地定义,那怎么理解呢? 字符集,往往强调其所“支持”的字符范围,集外的字符它不支持.集合就有一个边界,边界内的我给个表示,边界外的我不知道怎么表示。 编码,往往强调针对某个字符集的字符,我这么去转换表达为机器可理解的方式-二进制,如果对某个字符集的字符,我的转换方式和其一致,那么我既是编码也是字符集,否则我就只是一种字符集的转换格式。 那么