详解Python正则表达式re模块
正则表达式是一种用于匹配字符串的强大工具,可以在Python用于解析HTML、XML等本数据。Python中的re模块提供了正表达式的支持,本攻略将细讲解re模块基本用法、常用函数和示例应用。
re模块基本用法
在使用re模块之前,需要先导入该模:
import re
re模块提供了一些常用的函数,用于处理正则表达式:
re.search(pattern, string, flags=0)
:在字符串中搜索正则表达式的第一个匹配项。re.match(pattern, string, flags=0)
:在字符串的开头匹配正则表达-re.findall(pattern, string, flags=0)
:在字符串中搜索正则表达式的所有匹配项。re.sub(pattern, repl, string, count=0, flags=0)
:在字符串中搜索正则达式的所有匹配项,并将其换为指定的字符串。
其中,pattern参数表示正表达式,
string参数表示匹配的字符串,
flags`参数表示正则表达式的匹配模式。
正则表达式语法
正则表达式是由普通字符和特殊字符组成的字符串,用于描述一类字符串的模式。下是一些的正则表达式特字符:
.
:匹配任意字符,除换行符。*
:匹配前的字符零次或次。+
:匹配前面字符一次或多次。?
:匹配前面的字符零次或一次。^
:匹配字符串的开头。$
:匹配字符串的尾。[]
匹配括号中的任意一个字符。()
将括号中的字符作一个整体进行匹配。|
:匹配两多个正则表达式中的任意一个。
示例1:匹配字符串中的数字
下面是一个例子,演示如何使用正则表达式匹配字符串中的数字:
import re
text = ' price is $1099.'
pattern = r'\d+'
result = re.findall(pattern, text)
if result:
print('Matches found:', result)
else:
print('Matches not found')
在上面的代码中,我们使用正则表达式\d+
匹配字符串中的数字。\d
表示匹一个数字字符,+
表示匹配一个多数字字符。findall()
函数可以返回所有匹配的结果。运行代码后,输出结果为Matches found: ['10', '99']
。
示例2:匹配HTML标签中的文本内容
下面是另一个例子,演示如何使用正则表达式匹配HTML标签中文:
import re
text = '<h1>Welcome to my website</h1>'
pattern = r'<.*?>(.*?)</.*?>'
result = re.search(pattern, text)
if result:
print('Match found:', result.group(1))
else:
print('Match not found')
在上面的代码中,我们使用正则表达式<.*?>(.*?)<!--.*?-->
匹配HTML标签中的文本内容。<?>
表示匹配一个或多任意字符,.*?
表示非贪婪匹配,()
表示将.*?
匹配到的字符串作为捕获组。search()
用于在字符串中搜索正则表达式的第一个匹配项。运行代码后,输出结果为Match found: Welcome to my website
。
总结
本攻略详细讲解了Python中re模块基用法、常用函数和正则表达语法。正则表达式是一用于匹配字符串的强大工具,可以Python中用解析HTML、XML等文数据。演示了如何使用正则表达式匹配字符串中的数字、匹配HTML标签中的文本。希望读者可以通过这些示例好理解正则表达式的应用。