Python正则表达式

十一月 01, 2020 2987

Re简介

正则表达式(Regular Expression，RE，以下简称Re)通常用来检索、替换那些符合某个模式(规则)的文本，也就是说，RE是用来记录文本规则的代码。

总的来说，正则表达式是：

编程语言使用正则表达式时需要编译，将符合正则表达式语法的字符串转换成正则表达式特征，也就是说，编译是将一个符合正则表达式语法的字符串编译为正则表达式。

我们用字符串的形式表示正则表达式，如字符串[a-z]是表示匹配a到z中的任意一个字母的Re的表示方法

Re的语法是核心部分，RE语法是由字符和操作符组成。

常用操作符：

操作符	描述	具体用例
`.`	表示除换行符\n以外的任何单个字符，如果要匹配’.’，则使用`\.`，其余字符同理	无
`[]`	字符集，对单个字符给出取值范围	例：`[abc]`表示a或b或c，`[a-z]`表示从a到z的任意单个字符
`[^]`	非字符集，对单个字符给出排除范围	例：`[^abc]`表示非a或b或c的单个字符
`*`	前一个字符0次或无限次扩展	例：`abc*`表示ab、abc、abcc、abccc等
`+`	前一个字符1次或无限次扩展	例：`abc+`表示abc、abcc、abccc等
`?`	前一个字符0次或1次扩展	例：`abc?`表示ab、abc
\|	左右表达式任意一个	例：abc\|def表示abc或def
`\`	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。	例： `n` 匹配字符 n。`\n` 匹配换行符,而 `\\` 匹配 `\`， `\(`匹配 “(“。
`{m}`	扩展前一个字符m次	例：`ab{2}c`表示abbc
`{m,n}`	扩展前一个字符m到n(包括n)次	例：`ab{1,2}c`表示abc、abbc
`^`	匹配字符串开头	例：`^abc`表示abc且在一个字符串的开头
$	匹配字符串结尾	例：abc$表示abc且在一个字符串的结尾
`()`	分组标记，内部只能用\|操作符	例：`(abc)`表示abc，(abc\|def)表示abc或def
`\d`	表示数字，等价于`[0-9]`	无
`\w`	表示单词字符，等价于`[A-Za-z0-9_]`(包括下划线)	无

如果想要匹配ip地址，需要考虑如何表示取值范围在0-255，将其分为四部分，即0-99,100-199,200-249,250-255：

(([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

上述正则表达式，每两个|之间的正则表达式表示一个范围内的数，比如[1-9]?\d表示0-99

python中的re库使用raw string(原生字符串类型)表示正则表达式，如原生字符串text写作r'text'

例如，r'[1-9]\d{5}'是用来匹配邮政编码的Re字符串形式

raw string 是指不包含转义符的字符串，即\不被认为是转义符
也可以使用string类型，但是更繁琐，不建议使用

函数的具体参数使用，详见官方文档，以re.search()函数举例：

1
2
3

re.search(pattern, string, flags=0)
# 其中pattern是Re的字符串，string是待匹配的字符串
# flags是Re使用时的控制标记，用于控制Re的匹配方式，如是否区分大小写等

函数式用法，一次性操作：

1	`rst = re.search(r'[1-9]\d{5}', 'BIT 100081')`

match对象是re函数的一种返回值对象，其有很多属性。

属性：

方法：

re库默认采用贪婪匹配，即输出匹配最长的子串

若想得到最小匹配，则需要对以下操作符扩展，即在引起贪婪匹配的操作符后加?:

查看评论