Python Pandas 中的数据结构详解

  • Post category:Python

Python Pandas 是一个非常有用的数据处理库,它为我们提供了多种灵活的数据结构,帮助我们更好的进行数据处理和分析。以下是本文的详细讲解”Python Pandas 中的数据结构详解”。

Pandas 的安装

在使用 Pandas 前,需要先安装 Pandas 库。安装方式有多种,比如可以使用 pip 命令进行安装。在命令行中输入以下命令即可:

pip install pandas

Pandas 的数据结构

Pandas 中有两种主要的数据结构:Series 和 DataFrame。

Pandas Series

Series 是一种一维的数据结构,它可以存储不同类型的数据(整数、浮点数、字符串等)。Series 可以根据需要自动创建索引,也可以自定义索引。

以下是一个 Series 的示例:

import pandas as pd
data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)

输出结果为:

0    1
1    2
2    3
3    4
4    5
dtype: int64

可以看到,Series 的索引是自动创建的数字索引。

接下来例子,我们将自定义索引:

import pandas as pd
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']
s = pd.Series(data, index=index)
print(s)

输出结果为:

a    1
b    2
c    3
d    4
e    5
dtype: int64

Pandas DataFrame

DataFrame 是一个二维的数据结构,它由多个 Series 组成。可以将 DataFrame 理解为一个表格,每个 Series 就是表格的一列。

以下是一个 DataFrame 的示例:

import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40]}
df = pd.DataFrame(data)
print(df)

输出结果为:

       name  age
0     Alice   25
1       Bob   30
2   Charlie   35
3     David   40

可以看到,DataFrame 的行索引是自动创建的数字索引。

我们还可以自定义行索引:

import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40]}
index = ['a', 'b', 'c', 'd']
df = pd.DataFrame(data, index=index)
print(df)

输出结果为:

       name  age
a     Alice   25
b       Bob   30
c   Charlie   35
d     David   40

另外,Pandas 还支持从外部文件中读取数据,比如读取一个 csv 文件:

import pandas as pd
df = pd.read_csv('data.csv')
print(df)

以上就是 Pandas 中的两种主要数据结构及其使用方法简介。