python3-爬虫爬取知网文献

python爬虫批量爬取知网文献摘要

爬虫需要的库
requests（给服务器发送请求接收目标内容）
bs4中的BeautifulSoup（解析内容，缩小目标数据查找范围）
re（准确获取目标数据）
分析网页
爬取的目标内容：文献分类目录下的文献摘要

需要通过请求获取的内容：每一页的表格，其中的单个文本链接

打开web开发者工具在网络一栏找到显示目标数据的文件，获取url

对表格进行翻页，获取相应页面url（点击翻页数字查看属性）

对url进行拼接结果如下：
https://kns.cnki.net/kns/brief/brief.aspx?curpage=key&RecordsPerPage=50&QueryID=id&ID=&turnpage=key&tpagemode=L&dbPrefix=CFLQ&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&
改变key值对页面翻页，改变id值获得不同标题下的文件信息
单个页面的链接的爬取（方法详见BeautifulSoup的使用）

单个文件url的拼接：
https://kns.cnki.net/KCMS/+（爬取到的a标签的href属性）
单个页面中内容的爬取（详见BeautifulSoup的使用）
爬虫工具的使用
文件名

QueryID和ctl

如上图例子中QueryID：7 ctl：8a9652c1-a5a7-4323-b855-026a22066677
图片中标签的查找方法：对页面下方的页码进行元素查看
cookie
进入相应的url页面（url值详见上文页面分析），在开发者工具中打开网络，找到第一个文件cookie复制填入（填入结果如图）
如有需要，爬虫工具另取

来源：CSDN

作者：qq_43717997

链接：https://blog.csdn.net/qq_43717997/article/details/103933111

标签