爬虫核心基础第二讲(正则表达式)
正则表达式 正则表达式简介 正则表达式就是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定的字符以及这些特定字符的组合,组成一个有规则的字符串。这个字符串用来表达对字符串一种过滤的逻辑。 import re pattern = 'python' str = 'python and java' # 第一个参数pattern 正则表达式 模板 # 第二个参数str 表示要匹配的字符串 # 第三个参数 标志位 匹配方式 result = re . match ( pattern , str ) if result : print ( result . group ( ) ) print ( result . start ( ) ) print ( result . end ( ) ) print ( result . span ( ) ) print ( result . string ) else : print ( '没有匹配' ) 匹配单个字符 匹配单个字符 1 .匹配任意除了换行的任意1个字符 2 [] 匹配[]中列举的字符 3 \d 匹配数字 0-9 4 \D 匹配非数字 5 \s 匹配空白 空格 tab键 6 \S 匹配非空白 7 \w 匹配单词字符 a-z A-Z 0-9 _ 8 \W 匹配非单词字符、 # 匹配单个字符 # 1.匹配任意除了换行的任意1个字符 # 2