Wikipedia中文文本数据获取

欢迎各位童鞋交流和指教！

-----------------------------------------------------------------------------------

最近因为要做中文语义关系分类，所以需要获取一些中文文本数据，wikipedia中文无疑是一个很好的选择。

因为wiki自己平时隔一段时间就在dump的网页上更新文本数据，这个非常方便我们使用和下载wiki的数据，比爬虫要容易多，而且已经有意大利的大牛BenStobaugh写好了WikipediaExtractor的代码，已经将文本格式、各种神奇的符号去掉，做了初步的处理，不过这个代码存在一些问题，就是可能对有些符号过于敏感，去掉了对我们理解语义可能有用的符号，但目前这个地方对于我来说不太重要，所以我就先用大牛的代码啦。

废话少说，操作步骤如下：

1)先到wiki的dump的网页上下载dump.xml.bz2的文件。https://dumps.wikimedia.org/zhwiki/上点击20170501，下载zhwiki-20170501-pages-articles.xml.bz2

2)使用wikipediaextractor抽取正文文本。网址http://wiki.apertium.org/wiki/Wikipedia_Extractor下载代码，重名名为WikiExtractor.py，当前路径下

python3WikiExtractor.py --infn dump.xml.bz2，

后面是下载的dump文件名，抽取后的文本名为wiki.txt保存在当前路径下，一共566w8k条。

3)使用opencc进行繁简转化，如果不想太麻烦直接上手用下opencc试试的话，

sudoapt-get install opencc。因为apt-get安装的版本0.43太低，于是决定手工编译安装。

4)官网上https://launchpad.net/ubuntu/+source/opencc下载1.0.4-5版本，

tar-zxvf 包名字，

解压gz压缩包，因为编译opencc需要cmake和doxygen所以先安装：

sudoapt-get install cmake，

sudoapt-get install doxygen，然后

make，

sudomake install安装opencc。

测试一下，输入

echo'飞奔的石头简体转繁体'| opencc -c s2tw

5)最后开始对抽取的wiki文本进行繁简体转化：

opencc-i wiki.txt -o wiki_s.txt -c tw2sp#繁体转简体（台湾繁体转大陆简体常用字）

注意后面字体转化的配置文件，一定要到官网上看一下，有许多种转化方式，可以选择到你需要的。

稍等片刻，你的命令行绝对没有卡住。。。

其他语言版本的类似操作，不过不用繁简体转化

来源：CSDN

作者：胖胖的飞象

链接：https://blog.csdn.net/weixin_36711901/article/details/79145214

标签

文本分类

维基百科

自然语言处理

install