下面我将为你提供详细的“python pandas处理Excel表格数据的常用方法总结”的完整实例教程。
一、Pandas简介
Pandas是一种广泛使用的Python数据处理库,它提供了一种灵活且易于使用的数据结构,使我们能够轻松地处理和分析大量数据。在此之前,我们需要先了解Pandas中最常用的两种数据结构:
- Series:一维数组,由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成。
- DataFrame:二维表格,由多个Series构成,每个Series拥有自己的行索引和列索引。
二、常用方法
以下是Pandas处理Excel表格数据的一些常用方法。
1. 读取Excel文件
从Excel文件中读取数据是Pandas处理Excel表格数据的首要任务。我们可以使用Pandas中的read_excel函数来完成这项操作。
import pandas as pd
# 读取Excel文件
df = pd.read_excel('example.xlsx')
print(df)
上面的代码将会打开“example.xlsx”文件,并将其存储到名为df的DataFrame中。
2. 数据筛选
接下来就是利用Pandas中的查询语句来筛选数据了。
import pandas as pd
# 读取Excel文件
df = pd.read_excel('example.xlsx')
# 选择“Age”列的数据
age_series = df['Age']
print(age_series)
# 选择“Name”和“Age”列的数据
name_age_df = df[['Name', 'Age']]
print(name_age_df)
# 选择“Age”等于30的数据
age_30_df = df[df['Age'] == 30]
print(age_30_df)
上面的代码分别演示了如何选择一列数据、多列数据以及筛选符合条件的数据。
3. 数据排序
数据排序是将数据按照某个字段(列)的特征进行排序,Pandas中也提供了相应的方法。
import pandas as pd
# 读取Excel文件
df = pd.read_excel('example.xlsx')
# 按“Age”列进行升序排序
sort_by_age_ascending = df.sort_values('Age')
print(sort_by_age_ascending)
# 按“Age”列进行降序排序
sort_by_age_descending = df.sort_values('Age', ascending=False)
print(sort_by_age_descending)
代码演示了如何按升序和降序两种方式进行排序。
4. 数据统计
import pandas as pd
# 读取Excel文件
df = pd.read_excel('example.xlsx')
# 计算“Age”列的平均值
age_mean = df['Age'].mean()
print("平均年龄为:", age_mean)
# 计算“Age”列的标准差
age_std = df['Age'].std()
print("年龄标准差为:", age_std)
统计数据也是经常需要的一个操作,上面的代码演示了如何计算平均值和标准差两个统计量。
三、示例说明
下面我们来看两个具体的用例。
示例一:根据邮箱域名分类
假设我们想根据邮箱域名分类,例如将所有Gmail邮箱的人员信息提取出来。可以通过以下代码实现:
import pandas as pd
# 读取Excel文件
df = pd.read_excel('example.xlsx')
# 根据邮箱域名分类
df['Domain'] = df['Email'].str.split('@').str[1]
gmail_df = df[df['Domain'] == 'gmail.com']
print(gmail_df)
上面的代码将会根据每个人的邮箱地址,将其对应的邮箱域名提取出来,然后筛选出所有Gmail邮箱的人员信息。
示例二:将满足特定条件的人员信息写到新Excel文件中
假设我们想将“Age”列大于等于30的所有人员信息写到新的Excel文件当中,我们可以像下面这样实现:
import pandas as pd
# 读取Excel文件
df = pd.read_excel('example.xlsx')
# 筛选符合条件的数据
age_30_df = df[df['Age'] >= 30]
# 将符合条件的数据写入新Excel文件
age_30_df.to_excel('age_30.xlsx', index=False)
上面的代码将会首先筛选出所有满足条件的人员信息,然后将其写入名为“age_30.xlsx”的新Excel文件当中。
通过上面这些详细的讲解和两个示例,相信大家对于“python pandas处理Excel表格数据的常用方法总结”已经有了一个全面的了解。