Python将HTML表格转换成excel

  • Post category:Python

将HTML表格转换成excel需要用到Python中的pandas包和BeautifulSoup包。pandas包是用于数据分析和处理的强大工具,而BeautifulSoup可解析HTML和XML文档。下面是具体步骤:

  1. 首先,需要安装pandas和beautifulsoup4包。可以使用pip命令进行安装:
pip install pandas beautifulsoup4
  1. 接着,需要使用BeautifulSoup加载HTML文档。可以使用requests包来执行GET请求,也可以将HTML代码作为字符串传递给BeautifulSoup对象:
import requests
from bs4 import BeautifulSoup

# 发送GET请求
url = 'https://example.com/table.html'
response = requests.get(url)

# 将HTML代码传递给BeautifulSoup对象
soup = BeautifulSoup(response.text, 'html.parser')
  1. 使用BeautifulSoup对象选择表格数据,并将其保存到一个二维列表中:
# 在HTML代码中选择表格元素
table = soup.find('table')

# 遍历表格行和列,并将数据保存到列表中
data = []
for row in table.find_all('tr'):
    row_data = []
    for cell in row.find_all('td'):
        row_data.append(cell.text.strip())
    data.append(row_data)
  1. 使用pandas将数据保存到excel文件中:
import pandas as pd

# 创建pandas DataFrame对象
df = pd.DataFrame(data)

# 将DataFrame对象保存到excel文件中
filename = 'table.xlsx'
df.to_excel(filename, index=False)

需要注意的是,以上代码只是示例代码,需要根据自己的实际需求进行适当的修改。