python3-爬虫爬取知网文献

青春壹個敷衍的年華 提交于 2020-01-20 04:45:17

python爬虫批量爬取知网文献摘要

  1. 爬虫需要的库
    requests(给服务器发送请求接收目标内容)
    bs4中的BeautifulSoup(解析内容,缩小目标数据查找范围)
    re(准确获取目标数据)
  2. 分析网页
    爬取的目标内容:文献分类目录下的文献摘要
    在这里插入图片描述
    需要通过请求获取的内容:每一页的表格,其中的单个文本链接
    在这里插入图片描述
    打开web开发者工具在网络一栏找到显示目标数据的文件,获取url
    在这里插入图片描述
    在这里插入图片描述
    对表格进行翻页,获取相应页面url(点击翻页数字查看属性)
    在这里插入图片描述
    对url进行拼接结果如下:
    https://kns.cnki.net/kns/brief/brief.aspx?curpage=key&RecordsPerPage=50&QueryID=id&ID=&turnpage=key&tpagemode=L&dbPrefix=CFLQ&Fields=&DisplayMode=listmode&PageName=ASP.brief_result_aspx&isinEn=1&
    改变key值对页面翻页,改变id值获得不同标题下的文件信息
    单个页面的链接的爬取(方法详见BeautifulSoup的使用)
    在这里插入图片描述
    单个文件url的拼接:
    https://kns.cnki.net/KCMS/+(爬取到的a标签的href属性)
    单个页面中内容的爬取(详见BeautifulSoup的使用)
  3. 爬虫工具的使用
    文件名
    在这里插入图片描述
    QueryID和ctl
    在这里插入图片描述
    如上图例子中QueryID:7 ctl:8a9652c1-a5a7-4323-b855-026a22066677
    图片中标签的查找方法:对页面下方的页码进行元素查看
    cookie
    进入相应的url页面(url值详见上文页面分析),在开发者工具中打开网络,找到第一个文件cookie复制填入(填入结果如图)
    在这里插入图片描述如有需要,爬虫工具另取
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!