urllib

安装依赖以及页面解析

99封情书 提交于 2020-02-01 01:12:09
Date: 2019-06-19 Author: Sun 本节要学习的库有: 网络库:requests 页面解析库:Beautiful Soup 1 Requests库 ​ 虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 ​ Requests 是用 Python 语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3 哦! ​ Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用:) ​ Requests 继承了urllib的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码 ​ requests 的底层实现其实就是 urllib3 ​ Requests的文档非常完备,中文文档也相当不错

Python——爬虫

送分小仙女□ 提交于 2020-02-01 00:14:58
参考资料 网络爬虫 (又被称为 网页蜘蛛,网络机器人 ,在FOAF社区中间,更经常的称为 网页追逐者 ),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据 爬虫的本质 :模拟浏览器打开网页,获取网页中我们想要的那部分数据 浏览器打开网页的过程: 当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果 用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源(文本,图片,视频.....) 爬虫就是请求网站并提取数据的自动化程序。其中 请求 , 提取 , 自动化 是爬虫的关键! 爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,也就是发送一个 Request ,请求可以包含额外的 header 等信息,等待服务器响应 Response 获取响应内容 如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型

Parsing web page in python using Beautiful Soup

孤街醉人 提交于 2020-01-31 09:30:13
问题 I have some troubles with getting the data from the website. The website source is here: view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO there's sth like this: INFORMACJE O FILMIE Tytuł............................................: La mer à boireOcena.............................................: IMDB - 6.3/10 (24)Produkcja.........................................: FrancjaGatunek...........................................: DramatCzas trwania..

Seemingly “garbage” result with requests

不打扰是莪最后的温柔 提交于 2020-01-30 13:25:08
问题 I have this webpage. When I try to get its html using requests module like this : import requests link = "https://www.worldmarktheclub.com/resorts/7m/" f = requests.get(link) print(f.text) I get a result like this: <!DOCTYPE html> <html><head> <meta http-equiv="Pragma" content="no-cache"/> <meta http-equiv="Expires" content="-1"/> <meta http-equiv="CacheControl" content="no-cache"/> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <link rel="shortcut icon" href="data:

urllib库与爬虫的简单示例程序

筅森魡賤 提交于 2020-01-30 03:13:47
示例:urlopen的使用 import urllib . request url = 'http://www.baidu.com' with urllib . request . urlopen ( url ) as res : html = res . read ( ) print ( type ( html ) ) print ( html ) 执行代码,可以看到这段程序把整个百度首页的html代码全部下载下来了,没有经过任何解析。 Request类对象 import urllib . request url = 'https://www.baidu.com' request = urllib . request . Request ( url ) res = urllib . request . urlopen ( request ) html = res . read ( ) print ( type ( html ) ) print ( html ) 利用url构造了一个Request类对象,并用这个类对象作为urlopen的参数获得响应,这段程序的结果与上例相同。 构造User-Agent import urllib . request # 构造request url = 'https://www.baidu.com' ua = { 'User-agent' :

python爬虫笔记

a 夏天 提交于 2020-01-30 00:54:14
爬虫 http://httpbin.org/ 验证请求 1.urllib库(python3) python内置的HTTP请求库 urllib.request 请求模块 ( https://yiyibooks.cn/xx/python_352/library/urllib.request.html#module-urllib.request ) urllib.error 异常处理模块( https://yiyibooks.cn/xx/python_352/library/urllib.error.html#module-urllib.error ) urllib.parse url解析模块( https://yiyibooks.cn/xx/python_352/library/urllib.parse.html#module-urllib.parse ) urllib.robotparser robots.txt解析模块( https://yiyibooks.cn/xx/python_352/library/urllib.robotparser.html#module-urllib.robotparser ) 请求: import urllib.request urllib.request.urlopen(url, data=None, [timeout, ]*, cafile

Import urllib or urllib 2 in Python 2.7 failing with ImportError: cannot import name iskeyword

与世无争的帅哥 提交于 2020-01-29 23:17:26
问题 I can't import urllib or urllib2 on my Python 2.6 or Python 2.7 installs. Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) [GCC 4.5.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import urllib Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/python2.7/urllib.py", line 30, in <module> from urlparse import urljoin as basejoin File "/usr/lib/python2.7/urlparse.py", line 110, in <module> from collections import

Import urllib or urllib 2 in Python 2.7 failing with ImportError: cannot import name iskeyword

陌路散爱 提交于 2020-01-29 23:14:51
问题 I can't import urllib or urllib2 on my Python 2.6 or Python 2.7 installs. Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) [GCC 4.5.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import urllib Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/python2.7/urllib.py", line 30, in <module> from urlparse import urljoin as basejoin File "/usr/lib/python2.7/urlparse.py", line 110, in <module> from collections import

爬虫---模块介绍

梦想与她 提交于 2020-01-27 06:36:38
urllib 模块 urllib是URL和library的缩写 urllib模块是python 3 自带的 实例(下载一个猫的图片) import urllib . request response = urllib . request . urlopen ( "http://placekitten.com/200/300" ) #下载图片的网址 cat_img = response . read ( ) with open ( 'cat_200_300.jpg' , 'wb' ) as f : f . write ( cat_img ) 👇效果如下 Requests 模块 相比 urllib 模块,Requests 模块更强大也更好用,只不过要自主下载 👇下载方法 在 cmd 中(或 powershell)输入: pip install requests BeautifulSoup4 模块(BS4) 这是一个网页解析利器,也是要自主下载 👇下载方法 在 cmd 中(或 powershell)输入: pip install bs4 来源: CSDN 作者: CourserLi 链接: https://blog.csdn.net/CourserLi/article/details/103893329

json parsing with python

。_饼干妹妹 提交于 2020-01-25 00:45:31
问题 I try to parse this little json, i want to take the number : {"nombre":18747} I try : import urllib.request request = urllib.request.Request("http://myurl.com") response = urllib.request.urlopen(request) print (response.read().decode('utf-8')) //print -> {"nombre":18747} import json json = (response.read().decode('utf-8')) json.loads(json) But I have: Traceback (most recent call last): File "<pyshell#38>", line 1, in <module> json.loads('json') AttributeError: 'str' object has no attribute