Python爬虫学习
原博地址:http://blog.sciencenet.cn/blog-377709-1102168.html 超级好的博主,很详细,适合零基础学习。 Anaconda 下anaconda prompt:pip install pipenv 运行完后运行: pipenv install 安装软件包requests_html:pip install requests_html 读入网页加以解析抓取,需要用到的软件包是 requests_html 。 from requests_html import HTMLSession session = HTMLSession() #建立一个会话,让python作为一个客户端,和远端服务器交谈 url = 'https://www.jianshu.com/p/85f4624485b9' #输入爬取网址 r = session.get(url) #利用 session 的 get 功能,把这个链接对应的网页整个儿取回来 print(r.html.text)#我们告诉Python,请把服务器传回来的内容当作HTML文件类型处理。我不想要看HTML里面那些乱七八糟的格式描述符,只看文字部分。 获取网页中的所有链接 把返回的内容作为HTML文件类型,我们查看 links 属性: r.html.links 注释:看似不完整的链接,是相对链接,它是某个链接