python制作爬虫并将抓取结果保存到excel中

  • Post category:Python

下面是关于”Python制作爬虫并将抓取结果保存到Excel中”的完整实例教程:

简介

爬虫是指利用计算机程序自动化抓取互联网信息的技术。Python是一门功能强大、易于学习的编程语言,非常适合用于制作爬虫。

本教程将介绍如何使用Python构建一个简单的爬虫,并将抓取到的数据保存到Excel表格中。

准备工作

安装Python

首先要确保已经安装了Python。可以从Python官网下载并安装最新版本的Python。如果已经安装但不知道版本号,可以在命令行输入python -V来查看。

安装Python依赖库

在制作爬虫过程中,需要用到许多Python依赖库。可以通过pip来安装它们。在命令行中输入以下命令:

pip install requests
pip install beautifulsoup4
pip install openpyxl

准备工作完成之后

准备工作完成之后,可以开始编写爬虫代码了。

编写爬虫代码

假设我们要从百度搜索”Python”,并将搜索结果保存到Excel中。首先需要打开一个文本编辑器,在其中输入如下代码:

import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook

# 获取搜索结果页面
def get_search_page():
    url = 'https://www.baidu.com/s'
    params = {
        'wd': 'Python'
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }
    response = requests.get(url, params=params, headers=headers)
    return response.text

# 解析搜索结果页面
def parse_search_page(page):
    soup = BeautifulSoup(page, 'html.parser')
    results = []
    for result in soup.find_all('div', class_='result'):
        title = result.find('a').text.strip()
        url = result.find('a')['href']
        summary = result.find('div', class_='c-abstract').text.strip()
        results.append((title, url, summary))
    return results

# 将搜索结果保存到Excel
def save_to_excel(results):
    wb = Workbook()
    ws = wb.active
    ws.append(['标题', '链接', '摘要'])
    for result in results:
        ws.append(result)
    wb.save('results.xlsx')

if __name__ == '__main__':
    page = get_search_page()
    results = parse_search_page(page)
    save_to_excel(results)

代码解释:

  1. 首先我们导入需要用到的依赖库:requests、BeautifulSoup和openpyxl。
  2. 然后我们定义了三个函数:
  3. get_search_page():用于获取搜索结果页面。
  4. parse_search_page(page):用于解析搜索结果页面,返回结果列表。
  5. save_to_excel(results):用于将结果列表保存到Excel文件中。
  6. 最后我们在if __name__ == '__main__':语句中调用这三个函数完成整个爬虫的流程。

示例

我们可以打开命令提示符窗口,执行python crawl_baidu.py运行爬虫程序。

C:\Users\User\Documents\python-crawler>python crawl_baidu.py

执行成功后,可以在当前目录下生成一个名为results.xlsx的Excel文件,其中包含搜索结果的标题、链接和摘要信息。

总结

至此,我们完成了一个简单的Python爬虫,可以抓取百度搜索结果并将数据保存到Excel文件中。当然,在实际应用中,爬虫可能遇到各种各样的问题,例如反爬虫机制、IP封禁等等。需要根据具体情况进行调整和优化。