zhwiki语料预处理

ε祈祈猫儿з 提交于 2020-02-08 04:18:33

一、zhwiki语料的下载:

      https://dumps.wikimedia.org/zhwiki/

      https://dumps.wikimedia.org/zhwiki/20200201/

下载的是红色圈中的文件:zhwiki-20200201-pages-articles.xml.bz2

二、gensim.corporaz 中的 WikiCorpus 类

WikiCorpus 类可以处理,但是抽取出来的数据都去除了标点符号,估计也可以设置参数保留这些标点符号,但是在BERT的Git主页上推荐了wikiextractor 工具,所以索性试试这个工具,展示放一放gensim。

三、Wikiextractor:

主页:https://github.com/attardi/wikiextractor

使用参考:主页有详细的使用指导

中文使用参考http://www.52nlp.cn/tag/wikiextractor

1、下载:直接从上面主页下载下来后,无需任何安装,直接可以用。

2、目前使用的抽取命令:

python3 WikiExtractor.py 
-o ./zhwiki-20200201 
-b 10M 
--json 
--processes 4 
../zhwiki-20200201-pages-articles.xml.bz2
-o ./zhwiki-20200201


表示将抽取出的数据输出到目录zhwiki-20200201中,其下会创建多个子目录,然后将抽取的文章数据导出到子目录中的文件中,每个文件大小有限制,由参数 -b 指定。

-b 10M 

每个文件的最大大小
 

--json 

文件中的一行数据用json的格式存放,格式如下:

{"id": "", "revid": "", "url":"", "title": "", "text": "..."}
--processes 4 

4个处理器(估计是多线程)
 

../zhwiki-20200201-pages-articles.xml.bz2

待抽取的原始zhwiki文件

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!