巧用NotePad++ 做文本处理
利用Notepad++处理文本,其中涉及文本的合并,去除空行,插件安装,查找与替换等。 首先,批量处理文本,也就是把所有的语料放到一个txt 文档中。很好办,cmd 命令下输入如下操作符就可以了。(表示把E 盘目录下Camera 文件下的所有东西都写入到Camera.txt 文档中,Camera.txt 自动创建的。 ) 如果操作成功,则显示如下: 然后到E 盘Camera.txt 中查看就行了。(Notepad++ 打开) 然后就是文本的处理的,发现文本中含有如图红线所示的东西,那么就去掉吧! 选择“搜索”--- “替换”,先从简单的开始。 下面替换部分敲“空格”就OK 了。这样就依次把<DOC> </DOC><TEXT> 等去掉了。 剩下的就是比较复杂点的<DOCID>*****</DOCID> ,因为**** 部分是变化了,所以使用正则表达式处理。如图: 这样就把所有不相干的东西处理掉了!如图:干净了很多了。 最后就是处理文档,按照“。”、”!“,”?“等标示句子结束的符号进行分句。好办,不用写程序,还是用NotePad++ 啦! 点击“搜索”———“替换”(跟刚才一样) 查找目标部分写入“。”“?”等等,一次处理一个吧!替换部分输入“\r ”表示换行。 切记 :下面一定要勾选“扩展”,然后“全部替换”。就OK 了!其他符号也是这么处理滴。看看效果: 已经分好行了