详解Python re.finditer.groups函数：返回所有匹配的子串

Python中的正则表达式模块re的finditer()函数可以按照匹配规则在字符串中查找所有满足条件的子串，并返回一个由匹配对象组成的迭代器，通过这个迭代器可以逐个访问匹配结果，每个匹配结果都是一个match对象。

groups()方法是由match对象提供的一个非常有用的方法，它用于返回该匹配结果的所有子组，即正则表达式中用圆括号指定的部分。当然，如果正则表达式中没有使用圆括号指定子组，则groups()方法返回一个空元组。

下面给出该方法的具体用法及两个实例说明：

使用方法

groups()方法没有参数，仅需要在匹配结果的match对象上调用即可，语法如下：

match_obj.groups()

该方法返回一个元组，其中每个元素代表匹配结果中的一个子组。

实例说明

实例1：匹配网页中的图片链接

import re

# 定义正则表达式，其中圆括号指定了一个子组，用于匹配图片链接
pattern = r'<img src="(.+?\.jpg)">'

# 假设以下HTML片段是一个网页源码
html = '''
<html>
    <body>
        <img src="images/hello.jpg">
        <img src="images/world.jpg">
        <img src="images/python.jpg">
    </body>
</html>
'''

# 使用re.finditer()函数查找所有图片链接，并返回一个匹配结果的迭代器
matches = re.finditer(pattern, html)

# 遍历匹配结果，并输出每个匹配结果的图片链接子组
for match in matches:
    print(match.groups()[0])

输出结果为：

images/hello.jpg
images/world.jpg
images/python.jpg

在这个示例中，我们使用正则表达式来匹配一段HTML中的图片链接。正则表达式中使用了一个子组来匹配图片链接，具体来说，我们使用了圆括号将一个匹配任意字符（除了换行符）并以.jpg结尾的字符串表示为一个子组。然后，我们使用re.finditer()函数查找所有图片链接，并返回一个匹配结果的迭代器。最后，我们遍历这个迭代器，并通过调用groups()方法来输出每个匹配结果的图片链接子组。

实例2：匹配日志中的时间戳和地址信息

import re

# 定义正则表达式，其中使用两个子组分别匹配时间戳和地址信息
pattern = r'\[(\d{2}/\w+/\d{4}:\d{2}:\d{2}:\d{2} \+\d{4})\]\s+"(GET|POST) (/.+?\.html)"'

# 假设以下文本是一份服务器日志
log = '''
127.0.0.1 - - [10/Jan/2022:14:46:10 +0800] "GET /index.html HTTP/1.1" 200 152
127.0.0.1 - - [10/Jan/2022:14:47:24 +0800] "GET /about.html HTTP/1.1" 200 155
127.0.0.1 - - [10/Jan/2022:14:48:38 +0800] "POST /submit.html HTTP/1.1" 200 56
'''

# 使用re.finditer()函数查找所有日志条目，并返回一个匹配结果的迭代器
matches = re.finditer(pattern, log)

# 遍历匹配结果，并输出每个匹配结果的时间戳子组和地址信息子组
for match in matches:
    print('时间戳：', match.groups()[0])
    print('地址信息：', match.groups()[2])

输出结果为：

时间戳： 10/Jan/2022:14:46:10 +0800
地址信息： /index.html
时间戳： 10/Jan/2022:14:47:24 +0800
地址信息： /about.html
时间戳： 10/Jan/2022:14:48:38 +0800
地址信息： /submit.html

在这个示例中，我们使用正则表达式来匹配一份服务器日志中的时间戳和地址信息。正则表达式中使用了两个子组，分别匹配时间戳和地址信息，具体来说，时间戳子组使用了\d{2}/\w+/\d{4}:\d{2}:\d{2}:\d{2} \+\d{4}模式匹配时间戳信息，地址信息子组使用了/.+?\.html模式匹配网页地址。然后，我们使用re.finditer()函数查找所有日志条目，并返回一个匹配结果的迭代器。最后，我们遍历这个迭代器，并通过调用groups()方法来输出每个匹配结果的时间戳子组和地址信息子组。

使用方法

实例说明

实例1：匹配网页中的图片链接

实例2：匹配日志中的时间戳和地址信息

你可能也喜欢

详解Python re.escape.DEBUG函数：启用调试模式

详解Python re.fullmatch.LOCALE函数：启用区域设置模式

详解Python re.fullmatch.groups函数：返回所有匹配的子串