zhwiki语料预处理
一、zhwiki语料的下载: https://dumps.wikimedia.org/zhwiki/ https://dumps.wikimedia.org/zhwiki/20200201/ 下载的是红色圈中的文件:zhwiki-20200201-pages-articles.xml.bz2 二、gensim.corporaz 中的 WikiCorpus 类 WikiCorpus 类可以处理,但是抽取出来的数据都去除了标点符号,估计也可以设置参数保留这些标点符号,但是在BERT的Git主页上推荐了wikiextractor 工具,所以索性试试这个工具,展示放一放gensim。 三、Wikiextractor: 主页: https://github.com/attardi/wikiextractor 使用参考:主页有详细的使用指导 中文使用参考 http://www.52nlp.cn/tag/wikiextractor 1、下载:直接从上面主页下载下来后,无需任何安装,直接可以用。 2、目前使用的抽取命令: python3 WikiExtractor.py -o ./zhwiki-20200201 -b 10M --json --processes 4 ../zhwiki-20200201-pages-articles.xml.bz2 -o ./zhwiki-20200201