常用正则表达式整理篇攻略
正则表达式是一种用于匹配文本的模式。在实际应用中,我们经常需要使用正则表达式来解析HTML、XML等文本数据。本攻略将详细讲解常用正则表达式的整理,包括正则表达式的基本语法、常用的正则表达式模式、以及如何在Python中使用正则表达式。
正则表达式基本语法
正则表达式是一种用于匹配文本的模式。在Python中,我们可以使用re模块来使用正则表达式。下面是一些常用的正则表达式基本语法:
.
:匹配任意字符,除了换行符。*
:匹配前面的字符零次或多次。+
:匹配前面的字符一次或多次-?
:匹配前面的字符零次或一次。^
:匹配字符串的开头。$
:匹配字符串的结尾。[]
:匹配括号中的任意一个字符。|
:匹配左右两边任意一个表达式。()
:分组,可以用于提取匹配的子字符串。
常用正则表达式模式
在Python中,我们经常需要正则表达式来解析HTML、XML等文本数据。下面是一些常用的正则表达式模式:
- 匹配HTML标签:
<[^>]+>
- 匹配HTML标签中的属性:
[a-zA-Z]+=\"[^\"]*\"
- 匹配HTML标签中的文本:
>([^<]+)<
- 匹配URL:
http[s]?:(?:[a-zA-Z0-9]|[$@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+
- 匹配邮箱地址:
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
- 匹配手机号码:
1[3-9]\d{9}
- 匹配身份证号码:
\d{17}[\d|x]|\d{15}
- 匹配IP地址:
\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}
在Python中使用正则表达式
在Python中,我们可以使用re模块来使用正则表达式。下面是一个例子,演示如何使用正则表达式:
import re
text = 'Hello, world!'
pattern = r'world'
result = re.search(pattern, text)
if result:
print('Match found:', result.group())
else:
print('Match not found')
在上面的代码中,我们使用正则表达式world
进行匹配。然后,我们使用search()函数进行匹配。search()函数返回第一个匹配的结果。如果匹配成功,我们使用group()函数获取匹配到的文本。运行代码后,结果为Match found: world
。
下面是另一个例子,演示如何使用正则表达式提取URL:
import re
text = 'Visit my website at http://www.example.com'
pattern = r'http[s]?://(?:[a-zA-Z0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
result = re.search(pattern, text)
if result:
print('Match found:', result.group())
else:
print('Match not found')
在上面的代码中,我们使用正则表达式http[s]?://(?:[a-zA-Z0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+
进行匹配。然后,我们使用search()函数进行匹配。search()函数返回第一个匹配的结果。如果匹配成功,我们使用group()函数获取匹配到的文本。运行代码后,结果为Match found: http://www.example.com
。
示例说明
示例1:从字符串中提取整数
下面是一个例子,演示如何从字符串提取整数:
import re
text = 'The price is $10.99'
pattern = r'\d+'
result = re.findall(pattern, text)
print(result)
在上面的代码中,我们使用正则表达式\d+
进行匹配,然后使用findall()函数进行提取。findall()函数返回所有匹配的结果。运行代码后,结果为['10', '99']
。
示例2:从字符串中提取浮点数
下面是一个例子,演示如何从字符串中提取浮点数:
import re
text = 'The temperature is -3.14 degrees Celsius'
pattern = r'-?\d+\.\d+'
result = re.findall(pattern, text)
print(result)
在上面的代码中,我们使用正则表达式-?\d+\.\d+
进行匹配,然后使用findall()函数进行提取。findall()函数返回所有匹配的结果。运行代码后,结果为['-3.14']
。
以上是常用正则表达式整理篇攻略的完整内容。在实际应用中,我们可以根据具体情况选择合适的正则表达式模式,以便快速、准确地解析HTML、XML等文本数据。