python爬虫7--BeautifulSoup解析库
1. BeautifulSoup介绍 HTML或XML的解析库。支持的解析器有: python标准库:BeautifulSoup(markup."html.parser');执行速度适中,容错能力强;python2.7.3及python3.2.2之前版本容错能力差; lxml HTML解析器:BeautifulSoup(markup."lxml');速度快容错能力强;推荐使用; lxml XML解析库:BeautifulSoup(markup."xml');速度快,只支持XML; html5lib:BeautifulSoup(markup."html5lib');最好的容错器,以浏览器的方式解析,生成html5文档,但速度慢。 2. 初始化解析 2.1 解析HTML文本: from bs4 import BeautifulSoup soup = BeautifulSoup(res.text,'lxml') print(soup.prettify()) #prettify()方法将要解析的字符串以标准的缩进格式输出 2.2 解析本地文件: from bs4 import BeautifulSoup soup = BeautifulSoup(open('./test.html',encoding='utf-8','lxml') print(soup