Pandas库之DataFrame使用的学习笔记
什么是DataFrame
DataFrame是Pandas库中用来表示数据的二维表格数据结构,它类似于电子表格或SQL中的表格。DataFrame有以下特点:
- 每列可以是不同类型(整数,浮点数,字符串等)
- 在每列中可以取一个列名称
- 可以对行和列标记标记进行索引和切片操作
- 可以对整个表格进行聚合、排序、过滤和填充操作
如何创建DataFrame
在创建DataFrame前需要先导入Pandas库:
import pandas as pd
从列表、字典或Numpy数组创建DataFrame
以下是使用列表、字典或Numpy数组创建DataFrame的示例:
import numpy as np
# 从列表创建
data = [['Alice', 25], ['Bob', 30], ['Charlie', 35]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
# 从字典创建
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
print(df)
# 从Numpy数组创建
data = np.array([['Alice', 25], ['Bob', 30], ['Charlie', 35]])
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
从文件创建DataFrame
DataFrame还可以从文件中读取数据创建。例如,从CSV文件中读取数据:
df = pd.read_csv('data.csv')
print(df)
如何对DataFrame进行操作
查看表格
使用head()
、tail()
、shape
、describe()
等命令可以方便地查看DataFrame的基本信息和统计信息。
# 查看前5行
df.head()
# 查看后5行
df.tail()
# 查看表格形状
df.shape
# 查看统计信息
df.describe()
数据选择
可以使用loc[]
、iloc[]
和[]
等方式选择数据。其中loc[]
通过行标签和列标签进行选择,iloc[]
通过行索引和列索引进行选择,[]
则可以通过列标签选择一列数据。
# 选择第0行到第2行,第0列到第1列的数据
df.loc[0:2, 'Name':'Age']
# 选择第0行到第2行,第0列到第1列的数据,使用整数索引
df.iloc[0:2, 0:2]
# 选择Name列数据
df['Name']
数据过滤
可以使用条件表达式或query()
方法进行数据过滤。
# 选择Age大于等于30的数据
df[df['Age'] >= 30]
# 使用query方法选择Age等于30的数据
df.query('Age == 30')
数据排序
可以使用sort_values()
方法按照指定列进行排序。
# 按照Age列降序排序
df.sort_values('Age', ascending=False)
示例1:选出数据集中全年龄段(Age列)中的最大和最小值
# 选取Age列数据
ages = df['Age']
# 输出最大和最小值
print('最大值:', max(ages))
print('最小值:', min(ages))
示例2:计算全年龄段(Age列)的平均数
# 选取Age列数据
ages = df['Age']
# 输出平均数
mean_age = sum(ages) / len(ages)
print('平均数:', mean_age)
以上是DataFrame的基础操作,还有很多其他操作可以进行,需要根据具体的数据分析问题进行选择。