python pandas处理excel表格数据的常用方法总结

  • Post category:Python

下面我将为你提供详细的“python pandas处理Excel表格数据的常用方法总结”的完整实例教程。

一、Pandas简介

Pandas是一种广泛使用的Python数据处理库,它提供了一种灵活且易于使用的数据结构,使我们能够轻松地处理和分析大量数据。在此之前,我们需要先了解Pandas中最常用的两种数据结构:

  1. Series:一维数组,由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成。
  2. DataFrame:二维表格,由多个Series构成,每个Series拥有自己的行索引和列索引。

二、常用方法

以下是Pandas处理Excel表格数据的一些常用方法。

1. 读取Excel文件

从Excel文件中读取数据是Pandas处理Excel表格数据的首要任务。我们可以使用Pandas中的read_excel函数来完成这项操作。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('example.xlsx')
print(df)

上面的代码将会打开“example.xlsx”文件,并将其存储到名为df的DataFrame中。

2. 数据筛选

接下来就是利用Pandas中的查询语句来筛选数据了。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('example.xlsx')

# 选择“Age”列的数据
age_series = df['Age']
print(age_series)

# 选择“Name”和“Age”列的数据
name_age_df = df[['Name', 'Age']]
print(name_age_df)

# 选择“Age”等于30的数据
age_30_df = df[df['Age'] == 30]
print(age_30_df)

上面的代码分别演示了如何选择一列数据、多列数据以及筛选符合条件的数据。

3. 数据排序

数据排序是将数据按照某个字段(列)的特征进行排序,Pandas中也提供了相应的方法。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('example.xlsx')

# 按“Age”列进行升序排序
sort_by_age_ascending = df.sort_values('Age')
print(sort_by_age_ascending)

# 按“Age”列进行降序排序
sort_by_age_descending = df.sort_values('Age', ascending=False)
print(sort_by_age_descending)

代码演示了如何按升序和降序两种方式进行排序。

4. 数据统计

import pandas as pd

# 读取Excel文件
df = pd.read_excel('example.xlsx')

# 计算“Age”列的平均值
age_mean = df['Age'].mean()
print("平均年龄为:", age_mean)

# 计算“Age”列的标准差
age_std = df['Age'].std()
print("年龄标准差为:", age_std)

统计数据也是经常需要的一个操作,上面的代码演示了如何计算平均值和标准差两个统计量。

三、示例说明

下面我们来看两个具体的用例。

示例一:根据邮箱域名分类

假设我们想根据邮箱域名分类,例如将所有Gmail邮箱的人员信息提取出来。可以通过以下代码实现:

import pandas as pd

# 读取Excel文件
df = pd.read_excel('example.xlsx')

# 根据邮箱域名分类
df['Domain'] = df['Email'].str.split('@').str[1]
gmail_df = df[df['Domain'] == 'gmail.com']
print(gmail_df)

上面的代码将会根据每个人的邮箱地址,将其对应的邮箱域名提取出来,然后筛选出所有Gmail邮箱的人员信息。

示例二:将满足特定条件的人员信息写到新Excel文件中

假设我们想将“Age”列大于等于30的所有人员信息写到新的Excel文件当中,我们可以像下面这样实现:

import pandas as pd

# 读取Excel文件
df = pd.read_excel('example.xlsx')

# 筛选符合条件的数据
age_30_df = df[df['Age'] >= 30]

# 将符合条件的数据写入新Excel文件
age_30_df.to_excel('age_30.xlsx', index=False)

上面的代码将会首先筛选出所有满足条件的人员信息,然后将其写入名为“age_30.xlsx”的新Excel文件当中。

通过上面这些详细的讲解和两个示例,相信大家对于“python pandas处理Excel表格数据的常用方法总结”已经有了一个全面的了解。