Python实现提取Excel指定关键词的行数据

  • Post category:Python

下面是“Python实现提取Excel指定关键词的行数据”的完整实例教程。

简介

在实际的工作中,我们经常需要从Excel表格中提取出符合某些关键词的行数据。这个过程可以通过Python的pandas库来实现,本文将给出完整的实现方法和示例。

环境准备

首先要安装pandas库。可以通过pip安装:

pip install pandas

实现步骤

在这里,我们将提供两个示例,每个示例均描述了提取Excel指定关键词的行数据的完整步骤。

示例一

假设我们有一个Excel文件,其中包含了两个Sheet。我们要从第一个Sheet中提取出“关键词1”出现的所有行,并将结果输出到一个新的Excel文件中。具体实现步骤如下:

  1. 导入pandas库:
import pandas as pd
  1. 读取Excel文件,并选中要操作的Sheet:
input_file = 'test.xlsx'
df = pd.read_excel(input_file, sheet_name=0)

其中,input_file是要读取的Excel文件名,sheet_name为sheet的索引或名字,这里选取第一个Sheet。

  1. 提取关键词为“关键词1”的所有行:
new_df = df.loc[df['列名'] == '关键词1']

其中,loc方法用来根据行或列的标签来选择数据。df[‘列名’]表示选择名字为“列名”的列,== ‘关键词1’设置筛选条件,返回的结果存储在new_df中。

  1. 将结果保存到一个新的Excel文件中:
output_file = 'output.xlsx'
new_df.to_excel(output_file, index=False)

其中,output_file为新生成的Excel文件名,index=False表示不在输出文件中包含行索引。

示例二

假设我们有一个Excel文件,其中包含了一个Sheet。我们要从该Sheet中提取出符合两个关键词“关键词1”和“关键词2”的行,并将结果输出到一个新的Excel文件中。与示例一类似,具体实现步骤如下:

  1. 导入pandas库:
import pandas as pd
  1. 读取Excel文件,并选中要操作的Sheet:
input_file = 'test.xlsx'
df = pd.read_excel(input_file)

在这里我们没有指定sheet_name,默认读取第一个Sheet。

  1. 获取符合条件的行:
new_df = df.loc[df['列1'] == '关键词1']
new_df = new_df.loc[new_df['列2'] == '关键词2']

其中,new_df第一次筛选后得到的是符合“列1为‘关键词1’”条件的所有行,第二次逐步筛选得到的是符合“列1为‘关键词1’且列2为‘关键词2’”条件的行。

  1. 将结果保存到一个新的Excel文件中:
output_file = 'output.xlsx'
new_df.to_excel(output_file, index=False)

其中,output_file为新生成的Excel文件名,index=False表示不在输出文件中包含行索引。

结语

通过上述示例,我们可以清楚地看到,使用pandas库实现提取Excel指定关键词的行数据实现起来是非常简单的。希望这份教程可以帮助到大家。