Python+pandas编写命令行脚本操作excel的tips详情

  • Post category:Python

下面是一份详细的Python+pandas编写命令行脚本操作Excel的tips详情。

1. 准备工作

在开始之前,我们需要准备以下工具和环境:

  • Python安装包,可以从官网下载并安装:https://www.python.org/downloads/
  • pandas库,可以通过pip命令安装:pip install pandas
  • 一个待处理的Excel文件,可以是任何版本的Excel文件,不过在本教程中我们以xlsx文件为例。

2. 打开Excel文件

在Python中,我们可以使用pandas库中的read_excel函数来打开Excel文件,示例代码如下:

import pandas as pd

df = pd.read_excel('example.xlsx')
print(df)

其中,pd.read_excel会返回一个DataFrame对象,通过print输出,会得到该Excel文件的全部内容。

3. 查看文件信息

打开Excel文件后,我们可以使用pandas库中的一系列函数来查看、处理Excel文件,比如获取行、列的信息、数据类型等。示例代码如下:

# 查看文件列信息
print(df.columns)

# 查看文件前10条数据
print(df.head(10))

# 查看文件数据类型
print(df.dtypes)

4. 数据处理

在查看完文件信息后,我们可以进行一些简单的数据处理,比如过滤特定的行、筛选特定的列、排序等。示例代码如下:

# 过滤特定的行
df_filtered = df[df['age'] > 18]

# 筛选特定的列
df_selected = df[['name', 'age']]

# 按照age列进行排序
df_sorted = df.sort_values('age')

在以上示例代码中,df_filtered会得到age大于18的数据,df_selected会得到name和age列,df_sorted会将Excel表格按照age列进行排序。

5. 保存Excel文件

处理完数据后,我们可以使用pandas库中的to_excel函数将处理结果保存为Excel文件。示例代码如下:

df.to_excel('output.xlsx', index=False)

其中,index=False的作用是不要保存Excel文件中的索引数据。

6. 完整示例代码

以上是Python+pandas编写命令行脚本操作Excel的基本流程和示例代码,一份完整的示例代码如下:

import pandas as pd

# 打开Excel文件
df = pd.read_excel('example.xlsx')

# 查看文件信息
print(df.columns)
print(df.head(10))
print(df.dtypes)

# 过滤特定的行
df_filtered = df[df['age'] > 18]

# 筛选特定的列
df_selected = df[['name', 'age']]

# 按照age列进行排序
df_sorted = df.sort_values('age')

# 保存Excel文件
df_filtered.to_excel('output_filtered.xlsx', index=False)
df_selected.to_excel('output_selected.xlsx', index=False)
df_sorted.to_excel('output_sorted.xlsx', index=False)

以上示例代码中,我们通过打开Excel文件、查看文件信息、过滤特定的行、筛选特定的列、排序等一系列操作来操作Excel文件,并将处理结果保存为不同的Excel文件。