一.常用方法
-
re.compile(pattern,flags=0) 编译正则表达式,返回regexobject对象,然后可以通过regexobject对象调用match()和search()方法. 可以实现正则代码的重用.
-
re.serch(pattern,string,flags=0) 在正则表达式中查找,是否匹配正则表达式.返回_sre.SRE_Match对象,如果不能匹配返回None.
-
re.match(pattern,string,flags=0) 字符串的开头是否能匹配正则表达式.返回_sre.SRE_Match对象,如果不能匹配返回None.
-
re.split(pattern,string,maxsplit=0) 通过正则表达式将字符串分离.如果用括号将正则表达式阔起来,那么匹配的字符串也会被列入list中返回.maxsplit是分离的次数,maxsplit=1分离一次,默认为0,不限制.
如果字符串的开始或结尾就能匹配,返回list将会以空串开始或结尾.
如果字符串不能匹配,将会返回整个字符串的list.
-
re.finditer(pattern,string,flags=0) 找到 RE 匹配的所有子串,并把它们作为一个迭代器返回. 这个匹配是从左到右有序地返回. 如果无匹配,返回空列表.
-
re.sub(pattern,real,string,count=0,flags=0) 找到 RE 匹配的所有子串, 并将其用一个不同的字符串替换. 可选参数 count 是模式匹配後替换的最大次数; count 必须是非负整数. 缺省值是 0 表示替换所有的匹配. 如果无匹配,字符串将会无改变地返回.
-
re.subn(pattern,real,string,count=0,flags=0) 与re.sub方法作用一样,但返回的是包含新字符串和替换执行次数的两元组。
-
re.escape(string) 对字符串中的非字母数字进行转义
-
re.purge() 清空缓存中的正则表达式
备注:. match和search的区别 1.match 是从字符串的起点开始做匹配,只有且仅当被匹配的字符串开头就能匹配或从poss参数的位置开始就能匹配时才会成功. 2. search 是从字符串做任意匹配(perl默认).
二. 正则表达式对象
-
re.RegexObject re.compile()返回RegexObject对象
-
re.MatchObject group()返回被 RE 匹配的字符串 start()返回匹配开始的位置 end()返回匹配结束的位置 span()返回一个元组包含匹配 (开始,结束) 的位置
三. 编译标志 编译标志让你可以修改正则表达式的一些运行方式。在 re 模块中标志可以使用两个名字,一个是全名如 IGNORECASE,一个是缩写,一字母形式如 I。(如果你熟悉 Perl 的模式修改,一字母形式使用同样的字母;例如 re.VERBOSE的缩写形式是 re.X。)多个标志可以通过按位 OR-ing 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:
I IGNORECASE
使匹配对大小写不敏感;字符类和字符串匹配字母时忽略大小写。举个例子,[A-Z]也可以匹配小写字母,Spam 可以匹配 "Spam", "spam", 或 "spAM"。这个小写字母并不考虑当前位置。
L LOCALE
影响 "w, "W, "b, 和 "B,这取决于当前的本地化设置。
locales 是 C 语言库中的一项功能,是用来为需要考虑不同语言的编程提供帮助的。举个例子,如果你正在处理法文文本,你想用 "w+ 来匹配文字,但 "w 只匹配字符类 [A-Za-z];它并不能匹配 "é" 或 "?"。如果你的系统配置适当且本地化设置为法语,那么内部的 C 函数将告诉程序 "é" 也应该被认为是一个字母。当在编译正则表达式时使用 LOCALE 标志会得到用这些 C 函数来处理 "w 後的编译对象;这会更慢,但也会象你希望的那样可以用 "w+ 来匹配法文文本。
M MULTILINE
(此时 ^ 和 $ 不会被解释; 它们将在 4.1 节被介绍.)
使用 "^" 只匹配字符串的开始,而 $ 则只匹配字符串的结尾和直接在换行前(如果有的话)的字符串结尾。当本标志指定後, "^" 匹配字符串的开始和字符串中每行的开始。同样的, $ 元字符匹配字符串结尾和字符串中每行的结尾(直接在每个换行之前)。
S DOTALL
使 "." 特殊字符完全匹配任何字符,包括换行;没有这个标志, "." 匹配除了换行外的任何字符。
X VERBOSE
该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。当该标志被指定时,在 RE 字符串中的空白符被忽略,除非该空白符在字符类中或在反斜杠之後;这可以让你更清晰地组织和缩进 RE。它也可以允许你将注释写入 RE,这些注释会被引擎忽略;注释用 "#"号 来标识,不过该符号不能在字符串或反斜杠之後。
来源:oschina
链接:https://my.oschina.net/u/2882233/blog/758771