欢迎各位童鞋交流和指教!
-----------------------------------------------------------------------------------
最近因为要做中文语义关系分类,所以需要获取一些中文文本数据,wikipedia中文无疑是一个很好的选择。
因为wiki自己平时隔一段时间就在dump的网页上更新文本数据,这个非常方便我们使用和下载wiki的数据,比爬虫要容易多,而且已经有意大利的大牛BenStobaugh写好了WikipediaExtractor的代码,已经将文本格式、各种神奇的符号去掉,做了初步的处理,不过这个代码存在一些问题,就是可能对有些符号过于敏感,去掉了对我们理解语义可能有用的符号,但目前这个地方对于我来说不太重要,所以我就先用大牛的代码啦。
废话少说,操作步骤如下:
1)先到wiki的dump的网页上下载dump.xml.bz2的文件。https://dumps.wikimedia.org/zhwiki/上点击20170501,下载zhwiki-20170501-pages-articles.xml.bz2
2)使用wikipediaextractor抽取正文文本。网址http://wiki.apertium.org/wiki/Wikipedia_Extractor下载代码,重名名为WikiExtractor.py,当前路径下
python3WikiExtractor.py --infn dump.xml.bz2,
后面是下载的dump文件名,抽取后的文本名为wiki.txt保存在当前路径下,一共566w8k条。
3)使用opencc进行繁简转化,如果不想太麻烦直接上手用下opencc试试的话,
sudoapt-get install opencc。因为apt-get安装的版本0.43太低,于是决定手工编译安装。
4)官网上https://launchpad.net/ubuntu/+source/opencc下载1.0.4-5版本,
tar-zxvf 包名字,
解压gz压缩包,因为编译opencc需要cmake和doxygen所以先安装:
sudoapt-get install cmake,
sudoapt-get install doxygen,然后
make,
sudomake install安装opencc。
测试一下,输入
echo'飞奔的石头简体转繁体'| opencc -c s2tw
5)最后开始对抽取的wiki文本进行繁简体转化:
opencc-i wiki.txt -o wiki_s.txt -c tw2sp#繁体转简体(台湾繁体转大陆简体常用字)
注意后面字体转化的配置文件,一定要到官网上看一下,有许多种转化方式,可以选择到你需要的。
稍等片刻,你的命令行绝对没有卡住。。。
其他语言版本的类似操作,不过不用繁简体转化
来源:CSDN
作者:胖胖的飞象
链接:https://blog.csdn.net/weixin_36711901/article/details/79145214