Python机器学习三大件之二pandas

  • Post category:Python

当在Python中进行机器学习时,pandas 是不可或缺的库之一。这是因为 pandas 为数据的清洗、转换和操作提供了强大的工具。本文将详细讲解 pandas 的使用方法。

安装 pandas

在开始使用 pandas 之前需要先安装它。可以使用 pip 安装:

pip install pandas

导入 pandas 库

安装好之后,需要导入 pandas 库:

import pandas as pd

创建 Series

Series 是一维的数组类型,同时可以在其左边添加索引。以下是 Series 的创建方法:

s = pd.Series([1, 3, 5, np.nan, 6, 8])

代码中的 np.nan 代表着缺失值(NaN),上面的代码将创建一个包含缺失值的 Series。

创建 DataFrame

DataFrame 是二维的表格型数据结构。以下是创建 DataFrame 的几种方法。

通过字典创建

data = {'name':['Alice', 'Bob', 'Charlie', 'David'], 'age':[25, 35, 45, 55]}
df = pd.DataFrame(data)

上面的代码将根据字典中的键值对创建一个 DataFrame。其中,字典中的每一对键值对代表着一列数据,而列名就是键,数据就是值。

通过列表创建

data = [['Alice', 25], ['Bob', 35], ['Charlie', 45], ['David', 55]]
df = pd.DataFrame(data, columns=['name', 'age'])

上面的代码会创建一个 DataFrame 对象。其中,data 是一个嵌套列表,每个子列表代表一行数据,columns 则是自定义的列名。

选择数据

在数据处理中,选择数据是一个重要的操作。常用的选择方法有 loc、iloc 和 ix。

使用 loc 选择数据

loc 可以通过行标签和列标签选择数据,如下所示:

df.loc[1] # 选择第二行
df.loc[1,'name'] # 选择第二行的 'name' 列
df.loc[1:3, ['name', 'age']] # 选择第二到四行,以及 'name' 和 'age' 两列

使用 iloc 选择数据

iloc 使用数字索引选择数据,如下所示:

df.iloc[1] # 选择第二行
df.iloc[1, 0] # 选择第二行的第一列
df.iloc[1:3, 0:2] # 选择第二到四行,以及第一和第二列

可以看到 iloc 选择数据的方法与 loc 非常类似。

以上是关于 pandas 的简要介绍和使用方法。希望这篇文章能够帮助大家更好地理解 pandas 的使用和机器学习中的重要性。