Python数据分析库pandas基本操作方法
pandas简介
pandas是基于NumPy的一种数据分析库,用于处理和分析来自各种数据源的数据。它提供了快速、灵活和富有表现力的数据结构,使处理”关系型”、”标记型”数据尤其方便。pandas中的两个重要的数据结构是Series和DataFrame。
pandas基本操作方法
导入pandas模块
安装pandas模块: !pip install pandas
,然后导入模块:
import pandas as pd
创建Series
Series是pandas的一种数据结构,类似于一维数组,可以保存任意类型的数据。创建Series的基本语法如下:
s = pd.Series(data, index=index)
其中,data
可以是列表、ndarray、字典等类型,index
是可选参数,可以用来指定索引。
示例1:创建一个Series
import pandas as pd
# 用列表创建Series对象
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
输出结果:
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
创建DataFrame
DataFrame是pandas的另一种数据结构,类似于二维数组或者表格。创建DataFrame的基本语法如下:
df = pd.DataFrame(data, index=index, columns=columns)
其中,data
可以是ndarray、列表、字典等类型,index
是行索引,columns
是列索引。
示例2:创建一个DataFrame
import pandas as pd
# 用字典创建DataFrame对象
data = {'name': ['Bob', 'Alice', 'Charlie', 'David'],
'age': [24, 25, 22, 23],
'gender': ['M', 'F', 'M', 'M']}
df = pd.DataFrame(data)
print(df)
输出结果:
name age gender
0 Bob 24 M
1 Alice 25 F
2 Charlie 22 M
3 David 23 M
读取文件
pandas可以读取多种数据格式的文件,例如csv、txt、excel等文件。
示例3:从csv文件读取数据
import pandas as pd
# 读取CSV文件
df = pd.read_csv('data.csv')
print(df)
数据操作
pandas可以进行多种操作,例如:切片、过滤、排序、聚合、填充缺失数据等。
示例4:数据排序
import pandas as pd
# 用字典创建DataFrame对象
data = {'name': ['Bob', 'Alice', 'Charlie', 'David'],
'age': [24, 25, 22, 23],
'gender': ['M', 'F', 'M', 'M']}
df = pd.DataFrame(data)
# 按照年龄进行排序
df.sort_values(by='age', inplace=True)
print(df)
输出结果:
name age gender
2 Charlie 22 M
3 David 23 M
0 Bob 24 M
1 Alice 25 F
总结
pandas是一种基于NumPy的数据分析库,常用于数据处理和分析。pandas中的两个重要的数据结构是Series和DataFrame,用于保存和处理一维和二维数据。pandas还支持多种数据操作,例如切片、过滤、排序、聚合、填充缺失数据等。