下载一个页面的所有 pdf 文件

怎甘沉沦 提交于 2020-03-24 07:52:14

3 月,跳不动了?>>>

要下载裘宗燕老师的 数据结构与算法(Python 语言) 讲义,

  1. 使用正则表达式
#!/usr/bin/env python

import re
import urllib.request as request

baseurl = 'http://www.math.pku.edu.cn/teachers/qiuzy/ds_python/courseware/'
with request.urlopen(baseurl) as response:
    html = response.read().decode('gb2312')

pdfurls = re.findall(r'[^\"]*.pdf', html, re.I)
for name in pdfurls:
    request.urlretrieve(baseurl+name, name)
    print('下载{}成功'.format(name))
  1. 使用 Beautiful Soup
#!/usr/bin/env python

import urllib.request as request
import bs4

baseurl = 'http://www.math.pku.edu.cn/teachers/qiuzy/ds_python/courseware/'
with request.urlopen(baseurl) as response:
    html = response.read()

soup = bs4.BeautifulSoup(html, 'lxml')
for link in soup.find_all('a'):
    name  = link.get('href')
    if 'pdf' in name:
        request.urlretrieve(baseurl+name, name)
        print('download {} success'.format(name))
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!