利用Notepad++处理文本,其中涉及文本的合并,去除空行,插件安装,查找与替换等。
首先,批量处理文本,也就是把所有的语料放到一个txt文档中。很好办,cmd命令下输入如下操作符就可以了。(表示把E盘目录下Camera文件下的所有东西都写入到Camera.txt文档中,Camera.txt自动创建的。)
如果操作成功,则显示如下:
然后到E盘Camera.txt中查看就行了。(Notepad++ 打开)
然后就是文本的处理的,发现文本中含有如图红线所示的东西,那么就去掉吧!
选择“搜索”---“替换”,先从简单的开始。
下面替换部分敲“空格”就OK了。这样就依次把<DOC> </DOC><TEXT>等去掉了。
剩下的就是比较复杂点的<DOCID>*****</DOCID>,因为****部分是变化了,所以使用正则表达式处理。如图:
这样就把所有不相干的东西处理掉了!如图:干净了很多了。
最后就是处理文档,按照“。”、”!“,”?“等标示句子结束的符号进行分句。好办,不用写程序,还是用NotePad++ 啦!
点击“搜索”———“替换”(跟刚才一样)
查找目标部分写入“。”“?”等等,一次处理一个吧!替换部分输入“\r”表示换行。
切记:下面一定要勾选“扩展”,然后“全部替换”。就OK了!其他符号也是这么处理滴。看看效果:
已经分好行了,但是还有很多空白行,十分不美观。下面就是处理空白行了。这个得安装一个叫textfx的插件。
把压缩包中的文件放到Notepad++安装目录下的plugins目录下,然后重启NotePad++,就出现了。
首先,选择如图(表示去除多余的空格):
然后,CTRL+A,全选,
选择,TextFX----TextFX Edit---Delete Blank Lines 就行了。
最后效果如下:
来源:https://www.cnblogs.com/shanlanjie/archive/2012/03/26/2418274.html