lacie

Python之Beautiful Soup的用法

你。 提交于 2020-03-04 09:36:32
1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。 废话不多说,我们来试一下吧~ 2. Beautiful Soup 安装 Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4),另外据说 BS4 对 Python3 的支持不够好,不过我用的是 Python2.7.7

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容

随声附和 提交于 2019-12-21 01:39:04
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。 Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentation http://www.crummy.com/software/BeautifulSoup/bs4/doc/ [学习]用python的BeautifulSoup分析html - 三夜灯 - 博客园 http://www.cnblogs.com/twinsclover/archive/2012/04/26/2471704.html Beautiful3 Soup documentation 中文文档只有bs3的,最新的只有英文版的 http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#Quick%20Start 热血狂徒 / zyspider - 代码托管 - 开源中国社区 http://git.oschina.net/coos

BeautifulSoup---学习

两盒软妹~` 提交于 2019-12-17 03:27:06
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间。 官方中文文档的: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 以下进行一些总结。 可用的解析器   以下是主要的几种解析器: 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库执行速度适中文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本 中文档容错能力差 lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快文档容错能力强 需要安装C语言库 lxml XML 解析器 BeautifulSoup(markup, ["lxml", "xml"])``BeautifulSoup(markup, "xml") 速度快唯一支持XML的解析器 需要安装C语言库 html5lib BeautifulSoup(markup, "html5lib") 最好的容错性以浏览器的方式解析文档生成HTML5格式的文档 速度慢不依赖外部扩展 有的时候,lxml 需要单独安装: pip install

soup.select的用法

不羁岁月 提交于 2019-12-11 23:23:12
1、通过标签选择 # 选择所有title标签 soup.select("title") # 选择所有p标签中的第三个标签 soup.select("p:nth-of-type(3)") 相当于soup.select(p)[2] # 选择body标签下的所有a标签 soup.select("body a") # 选择body标签下的直接a子标签 soup.select("body > a") # 选择id=link1后的所有兄弟节点标签 soup.select("#link1 ~ .mysis") # 选择id=link1后的下一个兄弟节点标签 soup.select("#link1 + .mysis")   2、通过类名查找 # 选择a标签,其类属性为mysis的标签 soup.select("a.mysis")      3、通过id查找 # 选择a标签,其id属性为link1的标签 soup.select("a#link1")      4、通过【属性】查找,当然也适用于class # 选择a标签,其属性中存在myname的所有标签 soup.select("a[myname]") # 选择a标签,其属性href=http://example.com/lacie的所有标签 soup.select("a[href='http://example.com/lacie']") #

Python爬虫之BeautifulSoap的用法

杀马特。学长 韩版系。学妹 提交于 2019-12-04 04:52:15
1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。 废话不多说,我们来试一下吧~ 2. Beautiful Soup 安装 Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4),另外据说 BS4 对 Python3 的支持不够好,不过我用的是 Python2.7.7