python爬虫笔记(五)网络爬虫之提取—信息组织与提取方法(3)基于bs4库的HTML内容查找方法

女生的网名这么多〃 提交于 2020-01-29 22:26:33

1. 基于bs4库的HTML内容查找方法

1.1 <>.find_all() 和 re (正则表达式库)

 

(1)参数为单一字符串

 

(2)参数为 列表

 

(3)参数为True,则返回所有标签内容

 

(4)显示 以 开头的标签,如 b,body。(使用 re:正则表达式库)

import requests
from bs4 import BeautifulSoup
import re

r = requests.get("http://python123.io/ws/demo.html")

demo = r.text

soup = BeautifulSoup(demo, "html.parser")
for tag in soup.find_all(re.compile('b')):
    print(tag.name)

(5)find_all中的 attrs:返回带有 attr属性值的 name标签

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!