详解pandas.DataFrame()(创建二维表格)函数使用方法

  • Post category:Python

pandas.DataFrame()是pandas库中最重要的对象之一,用于创建一个二维的、表格形式的数据结构,可以将数据组织成行和列的形式。在数据分析和数据处理过程中,pandas.DataFrame()被广泛应用。

创建DataFrame对象

创建一个空的DataFrame对象:

import pandas as pd

df = pd.DataFrame()

也可以通过传入字典创建DataFrame对象:

data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],
        'Age': [28, 34, 29, 42],
        'Country': ['US', 'UK', 'CN', 'CA']}
df = pd.DataFrame(data)

也可以通过传入二维数组创建DataFrame对象:

data = [[10, 11], [20, 21], [30, 31]]
df = pd.DataFrame(data, columns=['first', 'second'])

DataFrame的基本操作

  1. 查看数据

使用.head()方法可以查看前n行的数据,默认为5:

df.head(3)

使用.tail()方法可以查看后n行的数据,默认为5:

df.tail()

使用.columns属性可以查看列名:

df.columns

使用.index属性可以查看行号:

df.index

使用.shape属性可以查看DataFrame对象的形状:

df.shape
  1. 描述数据

使用describe()方法可以看到DataFrame对象中数值列的统计信息:

df.describe()
  1. 筛选数据

使用.loc[]方法可以按照索引和列名选择数据:

df.loc[0:1, ['first']]
  1. 添加数据

可以使用.append()方法向DataFrame对象中添加新数据:

new_data = {'first': 11, 'second': 12}
df = df.append(new_data, ignore_index=True)

示例

以下是两个使用DataFrame对象的示例:

  1. 读取csv文件,创建DataFrame对象并进行简单统计
import pandas as pd

df = pd.read_csv('data.csv')  # 读取csv文件
print(df.head())

# 计算每个地区的平均销售额
mean_sales = df.groupby('Region')['Sales'].mean()
print(mean_sales)
  1. 将字典数据转换为DataFrame对象,筛选出Age超过30的记录
import pandas as pd

data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],
        'Age': [28, 34, 29, 42],
        'Country': ['US', 'UK', 'CN', 'CA']}
df = pd.DataFrame(data)

age_over_30 = df[df['Age'] > 30]
print(age_over_30)