Python数据分析库pandas基本操作方法

  • Post category:Python

Python数据分析库pandas基本操作方法

pandas简介

pandas是基于NumPy的一种数据分析库,用于处理和分析来自各种数据源的数据。它提供了快速、灵活和富有表现力的数据结构,使处理”关系型”、”标记型”数据尤其方便。pandas中的两个重要的数据结构是Series和DataFrame。

pandas基本操作方法

导入pandas模块

安装pandas模块: !pip install pandas,然后导入模块:

import pandas as pd

创建Series

Series是pandas的一种数据结构,类似于一维数组,可以保存任意类型的数据。创建Series的基本语法如下:

s = pd.Series(data, index=index)

其中,data可以是列表、ndarray、字典等类型,index是可选参数,可以用来指定索引。

示例1:创建一个Series

import pandas as pd

# 用列表创建Series对象
s = pd.Series([1, 3, 5, np.nan, 6, 8])

print(s)

输出结果:

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

创建DataFrame

DataFrame是pandas的另一种数据结构,类似于二维数组或者表格。创建DataFrame的基本语法如下:

df = pd.DataFrame(data, index=index, columns=columns)

其中,data可以是ndarray、列表、字典等类型,index是行索引,columns是列索引。

示例2:创建一个DataFrame

import pandas as pd

# 用字典创建DataFrame对象
data = {'name': ['Bob', 'Alice', 'Charlie', 'David'],
        'age': [24, 25, 22, 23],
        'gender': ['M', 'F', 'M', 'M']}

df = pd.DataFrame(data)

print(df)

输出结果:

       name  age gender
0       Bob   24      M
1     Alice   25      F
2   Charlie   22      M
3     David   23      M

读取文件

pandas可以读取多种数据格式的文件,例如csv、txt、excel等文件。

示例3:从csv文件读取数据

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')

print(df)

数据操作

pandas可以进行多种操作,例如:切片、过滤、排序、聚合、填充缺失数据等。

示例4:数据排序

import pandas as pd

# 用字典创建DataFrame对象
data = {'name': ['Bob', 'Alice', 'Charlie', 'David'],
        'age': [24, 25, 22, 23],
        'gender': ['M', 'F', 'M', 'M']}

df = pd.DataFrame(data)

# 按照年龄进行排序
df.sort_values(by='age', inplace=True)

print(df)

输出结果:

       name  age gender
2   Charlie   22      M
3     David   23      M
0       Bob   24      M
1     Alice   25      F

总结

pandas是一种基于NumPy的数据分析库,常用于数据处理和分析。pandas中的两个重要的数据结构是Series和DataFrame,用于保存和处理一维和二维数据。pandas还支持多种数据操作,例如切片、过滤、排序、聚合、填充缺失数据等。