“十分钟搞定pandas(入门教程)”是一篇介绍pandas库基础使用的入门教程文章,主要包含以下内容:
1. 安装pandas库
在Python环境下安装pandas库可以使用pip命令:
pip install pandas
2. 导入pandas库
安装完毕后,我们就可以在Python环境中导入pandas库:
import pandas as pd
3. 创建Series和DataFrame
pandas库中最常用的数据对象是Series和DataFrame。
Series是一维数组对象,可以存储多种类型的数据;
DataFrame则是二维表格,可以存储多种类型的数据,每个列可以有不同的数据类型。
可以通过以下代码创建Series和DataFrame:
import pandas as pd
import numpy as np
# 创建Series
s = pd.Series([1,3,5,np.nan,6,8])
# 创建DataFrame
dates = pd.date_range('20200101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
4. 查看数据
有了数据对象之后,我们可以查看数据的相关信息。比如,对于DataFrame,可以使用以下方法:
# 查看前几行数据
df.head()
# 查看后几行数据
df.tail()
# 查看索引、列名、数据类型、内存等信息
df.info()
# 查看数据的描述性统计
df.describe()
5. 数据选择和操作
pandas库提供了多种方式来选择和操作数据,例如:
# 使用列名选择列
df['A']
# 使用标签选择行
df.loc['20200102':'20200104', ['A','B']]
# 进行赋值操作
df.loc['20200102', 'B'] = 0
# 使用布尔索引进行过滤
df[df['A']>0]
# 使用isnull()和notnull()函数进行缺失值处理
df.isnull()
df.notnull()
# 使用apply()函数进行操作
df.apply(np.cumsum)
6. 数据统计
通过pandas库提供的统计函数,可以对数据进行统计分析,例如:
# 计算每一列的平均值
df.mean()
# 计算每一行的和
df.sum(axis=1)
# 计算每一列的累积和
df.cumsum()
# 计算每一列的最大值和最小值
df.min()
df.max()
示例说明
下面两个示例通过pandas库操作数据:
示例一
某公司在1月份的销售数据如下,请使用pandas库完成以下任务:
销售人员 | 销售量 | 价格 |
---|---|---|
A | 100 | 4.5 |
B | 200 | 5.0 |
C | 300 | 4.2 |
D | 150 | 4.8 |
- 创建DataFrame对象;
- 计算总销售量;
- 计算平均价格;
- 计算销售量最大的销售人员。
代码如下:
import pandas as pd
# 创建DataFrame
data = {'销售人员':['A','B','C','D'],
'销售量':[100,200,300,150],
'价格':[4.5,5.0,4.2,4.8]}
df = pd.DataFrame(data)
# 计算总销售量
total_sales = df['销售量'].sum()
print('总销售量:', total_sales)
# 计算平均价格
avg_price = df['价格'].mean()
print('平均价格:', avg_price)
# 计算销售量最大的销售人员
max_sales_person = df.loc[df['销售量'].idxmax(), '销售人员']
print('销售量最大的销售人员:', max_sales_person)
示例二
某地区在2019和2020年的降雨量如下,请使用pandas库完成以下任务:
年份 | 早季降雨量(mm) | 晚季降雨量(mm) |
---|---|---|
2019 | 450 | 800 |
2020 | 600 | 600 |
- 创建DataFrame对象;
- 计算每年的总降雨量;
- 计算每个季节的平均降雨量。
代码如下:
import pandas as pd
# 创建DataFrame
data = {'年份':[2019,2020],
'早季降雨量':[450,600],
'晚季降雨量':[800,600]}
df = pd.DataFrame(data)
# 计算每年的总降雨量
df['总降雨量'] = df['早季降雨量'] + df['晚季降雨量']
print('每年的总降雨量:')
print(df[['年份','总降雨量']])
# 计算每个季节的平均降雨量
df['早季平均降雨量'] = df['早季降雨量'].mean()
df['晚季平均降雨量'] = df['晚季降雨量'].mean()
print('每个季节的平均降雨量:')
print(df[['年份','早季平均降雨量','晚季平均降雨量']])
以上就是“十分钟搞定pandas(入门教程)”的完整攻略,希望对你有所帮助。