Python爬虫正则表达式常用符号和方法
正则表达式是一种强大的工具,可以用于匹配、查找和替换文本中的模式。在Python爬虫中,正则表达式常用于解析HTML、XML等文本数据。本攻略将详细讲解Python爬虫正则表达式常用符号和方法,包括基本用法、常用符号和示例应用。
基本用法
在Python中使用re模块提供的函数来操作正则表达式。re模块提供了以下常用函数:
re.search(pattern, string, flags=0)
:在字符串中搜索正则表达式的第一个匹配项。re.match(pattern, string, flags=0)
:在字符串的开头匹配正则表达式。re.findall(pattern, string, flags=0)
:在字符串中搜索正则表达式的所有匹配项。re.sub(pattern, repl, string, count=0, flags=0)
:在字符串中搜索正则表达式的所有匹配项,并将其换指定字符串。
其中,pattern参数表示正则表达式,string表示匹配的字符串,flags参数表示正则表达式的匹配模式。
常用符号
下面是一些常用的正则表达式符号:
.
:匹配任意字符,除换行符。*
:匹配前面的字符零次或多次。+
:匹配前面的字符一次或多次。?
:匹配前面的字符零次或一次。^
:匹配字符串的开头。$
:匹配字符串的结尾。[]
:匹配括号中的任意一个字符。()
:将括号中的字符作为一个整体进行匹配。|
:匹配两个或多个正则表达式中的任意一个。
示例1:匹配字符串中的数字
下面是一个例子,演示如何使用正则表达匹配字符串中的数字:
import re
text = 'The price is $1099.'
pattern = r'\d+'
result = re.findall(pattern, text)
if result:
print('Matches found:', result)
else:
print('Matches not found')
在上面的代码中,我们使用正则表达式\d+
匹配字符串中的数字。\d
表示匹配一个数字字符,+
表示匹配一个或多个数字字符。findall()
函数可以返回所有匹配的结果。运行代码后,输出结果为Matches found: ['1099']
。
示例2:匹配HTML标签中的文本内容
下面是另一个例子,演示如何使用正则表达式匹配HTML标签中的文本内容:
import re
text '<h1>Welcome to my website</h1>'
pattern = r'<.*?>(.*?)</.*?>'
result = re.search(pattern, text)
if result:
print('Match found:', result.group(1))
else:
print('Match not found')
在上面的代码中,我们使用正则表达式<.?>(.?)匹配HTML标签中的文本内容。
<.?>表示匹配一个或多个任意字符,
.?表示非贪婪匹配,
()表示将
.*?匹配到的字符串作为捕获组。
search()用于在字符串中搜索正则表达式的第一个匹配项。运行代码后,输出结果为
Match found: Welcome to my website`。
总结
本攻略详细讲解了Python爬虫正则表达式常用符号和方法,包括基本用法、常用符号和示例应用。正则表达式是一种强大的工具,可以用于解析HTML、XML等文本数据。演示了如何使用正则表达式匹配字符串中的数字、匹配HTML标签中文本内容。希望读者可以通过这些示例更好地理解正则表达式的应用。