“The website is the API”
beautiful soup库的安装
升级pip的命令:
python -m pip install --upgrade pip
以管理员身份打开命令行
安装beautiful soup库的命令:
pip install beautiful soup4
安装小测
https://python123.io/ws/demo.html
如何熬成一锅汤?只需三行代码
1、from bs4(库的简写) import BeautifulSoup(一个类)
2、soup=BeautifulSoup(r.text,“html.parser”)(HTMLParser是Python内置的专门用来解析HTML的模块)
3、print(soup.prettify())
BeautifulSoup库的基本元素
BeautifulSoup库是解析、便历、维护“标签树”的功能库。
navigablestring可以跨越多个标签层次
无论是否标签当中存在属性都会返回一个字典类型
判断返回的string是否为注释部分,可根据string的类型来判断
基于bs4库的html内容便历方法
contents()方法返回字典列表
儿子节点不仅包含标签节点还包含字符串节点
html标签的父亲是自己,soup的父亲为空
import requests
from bs4 import BeautifulSoup
r = requests.get("https://python123.io/ws/demo.html")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for parent in soup.a.parents:
if parent is None:
print(parent)
else:
print(parent.name)
平行遍历的标签可能是NavigableString类型
基于bs4库的HTML格式化和编码
来源:CSDN
作者:一只小白来了
链接:https://blog.csdn.net/weixin_44866139/article/details/104299498