python爬虫批量爬取知网文献摘要
- 爬虫需要的库
requests(给服务器发送请求接收目标内容)
bs4中的BeautifulSoup(解析内容,缩小目标数据查找范围)
re(准确获取目标数据) - 分析网页
爬取的目标内容:文献分类目录下的文献摘要
需要通过请求获取的内容:每一页的表格,其中的单个文本链接
打开web开发者工具在网络一栏找到显示目标数据的文件,获取url
对表格进行翻页,获取相应页面url(点击翻页数字查看属性)
对url进行拼接结果如下:
https://kns.cnki.net/kns/brief/brief.aspx?curpage=key&RecordsPerPage=50&QueryID=id&ID=&turnpage=key&tpagemode=L&dbPrefix=CFLQ&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&
改变key值对页面翻页,改变id值获得不同标题下的文件信息
单个页面的链接的爬取(方法详见BeautifulSoup的使用)
单个文件url的拼接:
https://kns.cnki.net/KCMS/+(爬取到的a标签的href属性)
单个页面中内容的爬取(详见BeautifulSoup的使用) - 爬虫工具的使用
文件名
QueryID和ctl
如上图例子中QueryID:7 ctl:8a9652c1-a5a7-4323-b855-026a22066677
图片中标签的查找方法:对页面下方的页码进行元素查看
cookie
进入相应的url页面(url值详见上文页面分析),在开发者工具中打开网络,找到第一个文件cookie复制填入(填入结果如图)
如有需要,爬虫工具另取
来源:CSDN
作者:qq_43717997
链接:https://blog.csdn.net/qq_43717997/article/details/103933111