傻瓜式文章爬虫-newspaper库简介
今天比较闲,我就浏览了会github上有关python爬虫的项目。看到一个newspaper库,关注数挺高的。作者受lxml的强大和requests的简洁,开发了newspaper库。 requests库的作者都盛赞newspaper库的牛B。 "Newspaper is an amazing python library for extracting & curating articles." -- tweeted by Kenneth Reitz, Author of requests 一、newspaper特性 多进程文章下载框架 新闻链接识别 可从html文件中提取文本、图片 可文章关键词提取 可生成文章概要 提取文章作者名 谷歌趋势词提取 支持十数种语言(含中文) 其实之前我写过一个类似的库的介绍-goose(仅支持python2),跟newspaper有类似功能。 文章名《不会写爬虫的快来goose一下》 二、安装 pip3 install newspaper3k 注意:在python3中安装,必须是newspaper3k。 newspaper是python2上的库。 三、开始代码 3.1newspaper支持的语言 import newspaper print(newspaper.languages()) Your available languages are: