Wikipedia中文文本数据获取

淺唱寂寞╮ 提交于 2019-12-07 17:55:06

欢迎各位童鞋交流和指教!

-----------------------------------------------------------------------------------

 

最近因为要做中文语义关系分类,所以需要获取一些中文文本数据,wikipedia中文无疑是一个很好的选择。

因为wiki自己平时隔一段时间就在dump的网页上更新文本数据,这个非常方便我们使用和下载wiki的数据,比爬虫要容易多,而且已经有意大利的大牛BenStobaugh写好了WikipediaExtractor的代码,已经将文本格式、各种神奇的符号去掉,做了初步的处理,不过这个代码存在一些问题,就是可能对有些符号过于敏感,去掉了对我们理解语义可能有用的符号,但目前这个地方对于我来说不太重要,所以我就先用大牛的代码啦。

        废话少说,操作步骤如下:

        1)先到wiki的dump的网页上下载dump.xml.bz2的文件。https://dumps.wikimedia.org/zhwiki/上点击20170501,下载zhwiki-20170501-pages-articles.xml.bz2

        2)使用wikipediaextractor抽取正文文本。网址http://wiki.apertium.org/wiki/Wikipedia_Extractor下载代码,重名名为WikiExtractor.py,当前路径下

python3WikiExtractor.py --infn dump.xml.bz2,

后面是下载的dump文件名,抽取后的文本名为wiki.txt保存在当前路径下,一共566w8k条。

        3)使用opencc进行繁简转化,如果不想太麻烦直接上手用下opencc试试的话,

sudoapt-get install opencc。因为apt-get安装的版本0.43太低,于是决定手工编译安装。

        4)官网上https://launchpad.net/ubuntu/+source/opencc下载1.0.4-5版本,

tar-zxvf 包名字,

解压gz压缩包,因为编译opencc需要cmake和doxygen所以先安装:

sudoapt-get install cmake,

sudoapt-get install doxygen,然后

make,

sudomake install安装opencc。

测试一下,输入

echo'飞奔的石头简体转繁体'| opencc -c s2tw

        5)最后开始对抽取的wiki文本进行繁简体转化:

opencc-i wiki.txt -o wiki_s.txt -c tw2sp#繁体转简体(台湾繁体转大陆简体常用字)

注意后面字体转化的配置文件,一定要到官网上看一下,有许多种转化方式,可以选择到你需要的。

 

稍等片刻,你的命令行绝对没有卡住。。。

其他语言版本的类似操作,不过不用繁简体转化

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!