python爬虫 正则表达式解析

  • Post category:Python

Python爬虫正则表达式解析

在Python爬虫中,正则表达式是一种非常重要的工具,可以用于解析HTML、XML等文本数据。本攻略将详细讲解Python爬虫中正则表达式的使用方法,包括正则表达式的基本语法、常用的正则表达式模式、以及如何使用正则表达式解析HTML、XML等文本数据。

正则表达式基本语法

正则表达式是一种用于匹配文本的模式。在Python中,我们可以使用re模块来使用正则表达式。下面是一些常用的正则表达式基本语法:

  • .:匹配任意字符,除了换行符。
  • *:匹配前面的字符零次或多次。
  • +:匹配前面的字符一次或多次。
  • `?:匹配前面的字符零次或一次。
  • ^:匹配字符串的开头。
  • $:匹配字符串的结尾。
    -[]`:匹配括号中的任意一个字符。
  • |:匹配左右两边任意一个表达式。
  • ():分组,可以用于提取匹配的子字符串。

常用的正则表达式模式

在Python爬虫中,我们经常需要使用正则表达式来解析HTML、XML等文本数据。下面是一些常用的正则表达式模式:

  • 匹配HTML标签:<[^>]+>
  • 匹配HTML标签中的属性:[a-zA-Z]+=\"[^\"]*\"
  • 匹配HTML标签中的文本:>([^<]+)<
  • 匹配URL:http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+

示例说明

示例1:使用正则表达式解析HTML

下面是一个例子,演示如何使用正则表达式解析HTML:

import re

html = '<html><body><h1>Hello, world!</h1></body></html>'
pattern = r'<h1>(.*?)</h1>'
result = re.search(pattern, html)
if result:
    print('Match found:', result.group(1))
else:
    print('Match not found')

在上面的代码中,我们使用正则表达式<h1>(.*?)</h1>进行匹配。这个正则表达式使用了非贪婪特性,会尽可能少地匹配字符。然后,我们使用search()函数匹配。search()函数返回第一个匹配的结果。运行代码后,结果为Match found: Hello, world!

示例2:使用正则表达式解析URL

下面是一个例子,演示如何使用正则表达式解析URL:

import re

url = 'https://www.example.com/path/to/page.html'
pattern = r'https?://([\w.-]+)/([\w./-]+)'
result = re.search(pattern, url)
if result:
    print('Match found:')
    print('Domain:', result.group(1))
    print('Path:', result.group(2))
else:
    print('Match not found')

在上面的代码中,我们使用正则表达式https?://([\w.-]+)/([\w./-]+)进行匹配。这个正则表达式匹配了URL中的域名和路径。然后,我们使用search()函数进行匹配。search()函数返回第一个匹配的结果。运行代码后,结果为:

Match found:
Domain: www.example.com
Path: path/to/page.html

以上是Python爬虫正则表达式解析的完整攻略。在实际应用中,我们可以根据具体情况选择合适的正则表达式模式,以便快速、准确地解析HTML、XML等文本数据。