python爬虫万能代码-最精简的爬虫

  • Post category:other

以下是“python爬虫万能代码-最精简的爬虫”的完整攻略:

1. 导入必要的库

首先,我们需要导入必要的库。在这个例子中,我们需要使用requests库和BeautifulSoup库。可以使用以下代码导入这些库:

import requests
from bs4 import BeautifulSoup

2. 发送请求并解析HTML

接下来,我们需要发送请求并解析HTML。可以使用以下代码:

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

其中,’https://example.com’是我们要爬取的网站的URL。我们使用requests库发送GET请求,并将响应文本传递给BeautifulSoup库进行解析。

3. 提取数据

最后,我们需要从HTML中提取数据。可以使用以下代码:

data = []
for item in soup.find_all('div', {'class': 'item'}):
    title = item.find('h2', {'class': 'title'}).text.strip()
    description = item.find('p', {'class': 'description'}).text.strip()
    data.append({'title': title, 'description': description})

在这个例子中,我们从HTML中提取了所有class为“item”的div元素,并从中提取了标题和描述。我们将这些数据存储在一个列表中,每个元素都是一个字典,包含标题和描述。

示例说明

以下是两个关于“python爬万能代码-最精简的爬虫”的示例说明:

示例1:爬取网页标题

假设我们要爬取网页的标题。以下是详细步骤:

  1. 导入必要的库:
import requests
from bs4 import BeautifulSoup
  1. 发送请求并解析HTML:
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
  1. 提取数据:
title = soup.find('title').text.strip()
print(title)

这将输出网页的标题。

示例2:爬取商品信息

假设我们要爬取一个电商网站的商品信息。以下是详细步骤:

  1. 导入必要的库:
import requests
from bs4 import BeautifulSoup
  1. 发送请求并解析HTML:
url = 'https://example.com/products'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
  1. 提取数据:
data = []
for item in soup.find_all('div', {'class': 'product'}):
    title = item.find('h2', {'class': 'title'}).text.strip()
    price = item.find('span', {'class': 'price'}).text.strip()
    description = item.find('p', {'class': 'description'}).text.strip()
    data.append({'title': title, 'price': price, 'description': description})
print(data)

这将输出所有商品的标题、价格和描述,存储在一个列表中。

总结

使用上述步骤,我们可以编写一个简单但功能强大的Python爬虫。我们可以使用它来爬取网页的标题、商品信息等。请注意,爬取网站时需要遵守网站的规则和法律。