从Numpy数组创建一个Pandas DataFrame,并指定索引列和列头

  • Post category:Python

使用Numpy数组创建Pandas DataFrame是非常常见的操作。你可以通过以下步骤来创建一个基本的DataFrame,并指定索引列和列头。

首先,导入需要使用的Python库:

import numpy as np
import pandas as pd

接下来,创建一个NumPy数组,用于填充DataFrame。例如:

data = np.array([[10, 20, 30],
                 [40, 50, 60],
                 [70, 80, 90]])

定义列头和索引列:

columns = ['A', 'B', 'C']
index = ['Row 1', 'Row 2', 'Row 3']

然后,通过将NumPy数组转换为Pandas DataFrame,将数组插入到DataFrame中:

df = pd.DataFrame(data=data, columns=columns, index=index)

此时就创建了一个名为df的DataFrame,其中包括NumPy数组数据的列名和索引。输出df的内容:

print(df)

输出结果如下:

        A   B   C
Row 1  10  20  30
Row 2  40  50  60
Row 3  70  80  90

接下来,再给出一个例子,创建一个新的数据集并为DataFrame设置索引和列头:

data = np.array([[1, 2, 3, 4],
                 [5, 6, 7, 8],
                 [9, 10, 11, 12]])

columns = ['A', 'B', 'C', 'D']
index = pd.date_range('20210101', periods=3)

df = pd.DataFrame(data=data, columns=columns, index=index)

在这个例子中,我们创建了一个具有4列和3行的数据集,并在开始日期(2021年1月1日)的基础上向下添加了3篇文章。date_range()函数在这里很有用,它允许你创建一个指定长度的日期范围。这个例子中,我们通过periods=3来创建了一个由三个时间段组成的日期索引列,以便在DataFrame中使用。

最后,输出结果:

print(df)

输出结果如下:

             A   B   C   D
2021-01-01   1   2   3   4
2021-01-02   5   6   7   8
2021-01-03   9  10  11  12

这就是使用NumPy创建Pandas DataFrame的基本过程,你可以针对需要的数据集进行适当的调整。