Python正则表达式re模块讲解以及其案例举例
正则表达式是一种用于描述字符串模式的语言,可以用于配、查找、替换和分割。在Python中,可以使用re模块来使用正则表达式。本文将详细介绍Python中正则表达式的语法、字符集、转义字符以及常用函数,并提供两个示例说明。
基本语法
正则表达式由普通字符和元成,普字符表示本身,而元则有特殊的含义。下面是一些常用元字符:
.
:匹配任意字符。^
:匹配字符串的开头。$
:匹配字符串的结尾。*
:匹配前面的字符零次或多次。+
:配前的字符一次多次。?
:匹配前面的字符零次或一次。{n}
:匹配前面字符n次。- `{n,:匹前面的字符至少n次。
{n,m}
:匹配前面的字符至少n次,但不超过m次。
下面是一个示例:
import re
# 定义正则表达式
pattern = r'ab*c'
# 定义字符串
string = ''
string2 = 'abc'
string3 = 'bcstring4 = 'abbbc'
# 使用re.match()方法匹配字符串
match1 = re.match(pattern, string1)
match2 = re.match(pattern, string2)
match3 = re.match(pattern, string3)
match4 = re.match(pattern, string4)
# 输出匹配结果
print(match1) # None
print(match2.group()) # abc
print(match3.group()) # abbc
print(match4.group()) # abbbc
在这个示例中,我们使用正则表达式ab*c
匹配字符串中的字符。然后我们定义了四个字符串ac
、abc
、abbc
和abbbc
,其中包含不同数量的字符b
。最后我们使用re.match()方法匹配,并输出匹配结果。
字符集
字符集用于匹配一组字符中的任意一个字符。下面是一些常用的字符集:
[abc]
:匹配字符a、b或c。[^abc]
:匹配除了字符a、b和c之外的任意字符。[a-z]
:匹配任意小写字母。[A-Z]
:匹配任意大写字母。[0-9]
:匹配意数字。[a-zA-Z0-9]
:匹配任母和数字
下面一个示例:
import re
# 定义则表达式
pattern = r'[a-z]+'
# 定义字符串
string = 'Hello World!'
# 使用re.findall()方法查找匹配matches = re.findall(pattern, string)
# 输出匹配
print(matches) # ['ello', 'orld']
在这个示例中,我们使用正则表达式[a-z]+
匹配字符串中的写字母。然后定义了一个World!
,其中包含大写字母标点符号。后,我们使用re.findall()方法查找所有匹配项,并输出匹配结果['ello', 'orld']
。
转义字符
转义字符用于匹配一些特殊的字符,例如\
、.
、*
等。下面是一些常用的转字符:
-.:匹配
.字符。
\
-:匹配
字符。
– \*
:匹配*
字符。
-+:匹配``字符。
\?
-:匹配
?字符。
{
-:匹配
{字符。
}
-:匹配
}字符。
(
-:匹配
(字符。
)
-:匹配
)字符。
|
-:匹配
|`字符。
下面一个示例:
import re
#义正则表达
pattern = r'\d.\d+'
# 定义字符串
string = 'The price is $3.99.'
# 使用re.search()方法查找匹配项
match = re.search(pattern, string)
# 输出匹配结果
if match:
print(match.group()) # 3.99
else:
print('No match```
在这个示例中,我们使用正则表达式`\d.\d+`匹配字符串中的价格。然后定义了一个`The price is $3.99.`,其中包含了价格信息。最后,我们使用re.search()方法查找配,并输出匹配结果`3.99`。
## 常用函数
在Python中,re块供了多个函数用于正则表达式的配、查找、替换和分割字符串。下面一些常用的函数:
- `.match, string, flags=0)`:从字符串的开头匹配正则表达式,如果匹配成功返回一个匹对象,否则返回None。
- `re.search(pattern, string, flags=0)`:在字符串中查找第一个匹配正则表达式的位置,如果匹配成功返回一个匹配对象,否则返回None。
- `re.findall(pattern, string, flags=0)`:查找字符串中所有匹配正则表达式的串,并返回一个列表。
- `re.sub(pattern, repl, string, count=0, flags=0)`:使用repl替换字符串中所有匹配正则表达式的子串,count表示替换的最大次数。
- `re.split(pattern, string, maxsplit0, flags=0)`:使用正则表达式分字符串,maxsplit表示分割的最大次数。
下面是一个示例:
```python
import re
# 定义正则表达式
pattern = r'\d+'
# 定义字符串
string = 'I have 2 cats and 3 dogs.'
# 使用re.findall()方法查找匹配
matches = re.findall(pattern, string)
# 输出匹配结果
(matches) # ['2', '3']
# 使用re.sub()方法替换匹配项
new_string = re.sub(pattern, '0', string)
# 输出替换结果
print(new_string) # 'I have 0 cats and 0 dogs.'
# 使用re.split()方法分割字符串
split_string = re.split(pattern, string)
# 输出分割结果
print(split_string) # ['I have ', ' cats and ' dogs.']
在这个示例中,我们使用正则表达式\d+
匹配字符串中的数字。然后定义了一个字符串I have 2 cats and 3 dogs.
,其中包含数字信息。后,我们使用re.findall()方法查找所有匹配项,并输出匹配结果['2', '3']
。然后使用re.sub()方法将所有数字替换为0,并替换结果'I 0 and 0 dogs.'
。最后,我们使用re.split()方法将字符串分割多个子串,并输出分结果['I have ', ' cats and ' dogs.']
。
示例说明
1
import re
# 定义正则表达式
pattern ='\d{3}-\d{2}-\d{4}'
# 定义字符串
string = 'My social security number is 123-45-6789.'
# 使用re.search()方法查找匹配
match = re.search(pattern, string)
# 输出匹配结果
if match:
print(match.group())
else:
print('No match')
在这个示例中,我们使用正则表达式\d{3}-d2}-\d{4}
匹配字符串中的社会安全号码。然后我们定义了一个My social security number is -45-6789.
,其中包含了社会安全号码最后,我们使用re.search()方法查找匹配项,并输出匹配结果123-45-6789
。
示例2
import re
# 定义正则表达式
pattern = r'\b[A-Z][a-z]+\'
# 定义字符串
string = 'I a cat named Whiskers and a dog named Rover.'
# 使用re.findall()方法查找匹配
matches = re.findall(pattern, string)
# 输出匹结果
print(matches) # ['I', 'Whiskers', 'Rover']
在这个示例中,我们使用正则表达\b[A-Z][a-z]+\b
匹配字符串中的单词。然后我们了一个字符串I have a cat named Whiskers and a dog named.
,其中包含了多个单词。最后,我们使用re.findall()方法找所有匹配项,并输出匹配结果['I', 'Whiskers', 'Rover']
。
结论
本文详细介绍了中则表式的语、字符集、转义字符以及常用函数。正则表式是一种强大的字符串处理工具,可以用于各种文。练掌则表达式的语法和函数,可以大大提高文本处理的效率和准确性。如果你需要处理大量的文本数据可以使用Python正则表达式实现。