Pandas库之DataFrame使用的学习笔记

  • Post category:Python

Pandas库之DataFrame使用的学习笔记

什么是DataFrame

DataFrame是Pandas库中用来表示数据的二维表格数据结构,它类似于电子表格或SQL中的表格。DataFrame有以下特点:

  • 每列可以是不同类型(整数,浮点数,字符串等)
  • 在每列中可以取一个列名称
  • 可以对行和列标记标记进行索引和切片操作
  • 可以对整个表格进行聚合、排序、过滤和填充操作

如何创建DataFrame

在创建DataFrame前需要先导入Pandas库:

import pandas as pd

从列表、字典或Numpy数组创建DataFrame

以下是使用列表、字典或Numpy数组创建DataFrame的示例:

import numpy as np

# 从列表创建
data = [['Alice', 25], ['Bob', 30], ['Charlie', 35]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)

# 从字典创建
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
print(df)

# 从Numpy数组创建
data = np.array([['Alice', 25], ['Bob', 30], ['Charlie', 35]])
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)

从文件创建DataFrame

DataFrame还可以从文件中读取数据创建。例如,从CSV文件中读取数据:

df = pd.read_csv('data.csv')
print(df)

如何对DataFrame进行操作

查看表格

使用head()tail()shapedescribe()等命令可以方便地查看DataFrame的基本信息和统计信息。

# 查看前5行
df.head()

# 查看后5行
df.tail()

# 查看表格形状
df.shape

# 查看统计信息
df.describe()

数据选择

可以使用loc[]iloc[][]等方式选择数据。其中loc[]通过行标签和列标签进行选择,iloc[]通过行索引和列索引进行选择,[]则可以通过列标签选择一列数据。

# 选择第0行到第2行,第0列到第1列的数据
df.loc[0:2, 'Name':'Age']

# 选择第0行到第2行,第0列到第1列的数据,使用整数索引
df.iloc[0:2, 0:2]

# 选择Name列数据
df['Name']

数据过滤

可以使用条件表达式或query()方法进行数据过滤。

# 选择Age大于等于30的数据
df[df['Age'] >= 30]

# 使用query方法选择Age等于30的数据
df.query('Age == 30')

数据排序

可以使用sort_values()方法按照指定列进行排序。

# 按照Age列降序排序
df.sort_values('Age', ascending=False)

示例1:选出数据集中全年龄段(Age列)中的最大和最小值

# 选取Age列数据
ages = df['Age']

# 输出最大和最小值
print('最大值:', max(ages))
print('最小值:', min(ages))

示例2:计算全年龄段(Age列)的平均数

# 选取Age列数据
ages = df['Age']

# 输出平均数
mean_age = sum(ages) / len(ages)
print('平均数:', mean_age)

以上是DataFrame的基础操作,还有很多其他操作可以进行,需要根据具体的数据分析问题进行选择。