pandas.DataFrame()
是pandas库中最重要的对象之一,用于创建一个二维的、表格形式的数据结构,可以将数据组织成行和列的形式。在数据分析和数据处理过程中,pandas.DataFrame()被广泛应用。
创建DataFrame对象
创建一个空的DataFrame对象:
import pandas as pd
df = pd.DataFrame()
也可以通过传入字典创建DataFrame对象:
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'Age': [28, 34, 29, 42],
'Country': ['US', 'UK', 'CN', 'CA']}
df = pd.DataFrame(data)
也可以通过传入二维数组创建DataFrame对象:
data = [[10, 11], [20, 21], [30, 31]]
df = pd.DataFrame(data, columns=['first', 'second'])
DataFrame的基本操作
- 查看数据
使用.head()方法可以查看前n行的数据,默认为5:
df.head(3)
使用.tail()方法可以查看后n行的数据,默认为5:
df.tail()
使用.columns属性可以查看列名:
df.columns
使用.index属性可以查看行号:
df.index
使用.shape属性可以查看DataFrame对象的形状:
df.shape
- 描述数据
使用describe()方法可以看到DataFrame对象中数值列的统计信息:
df.describe()
- 筛选数据
使用.loc[]方法可以按照索引和列名选择数据:
df.loc[0:1, ['first']]
- 添加数据
可以使用.append()方法向DataFrame对象中添加新数据:
new_data = {'first': 11, 'second': 12}
df = df.append(new_data, ignore_index=True)
示例
以下是两个使用DataFrame对象的示例:
- 读取csv文件,创建DataFrame对象并进行简单统计
import pandas as pd
df = pd.read_csv('data.csv') # 读取csv文件
print(df.head())
# 计算每个地区的平均销售额
mean_sales = df.groupby('Region')['Sales'].mean()
print(mean_sales)
- 将字典数据转换为DataFrame对象,筛选出Age超过30的记录
import pandas as pd
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'Age': [28, 34, 29, 42],
'Country': ['US', 'UK', 'CN', 'CA']}
df = pd.DataFrame(data)
age_over_30 = df[df['Age'] > 30]
print(age_over_30)