学会这29个常用函数,你就是Pandas专家

  • Post category:Python

学会这29个常用函数,你就是Pandas专家

Pandas是Python数据分析中一个重要的库。学会这29个常用函数,你就可以快速入门Pandas, 并进行基本数据分析。

1. 导入Pandas库

使用Pandas库之前,需要先导入该库。

import pandas as pd

2. 读取数据

读取并存储数据是数据分析的第一步。Pandas提供多种方式读取数据,常用的有读取csv, Excel和SQL等。

# 读取CSV数据
df = pd.read_csv('data.csv')

# 读取Excel文件数据
df = pd.read_excel('data.xlsx')

# 读取SQL数据库数据
conn = sqlalchemy.create_engine('mysql+pymysql://root:password@localhost:3306/test')
df = pd.read_sql('select * from test_table', conn)

3. 处理缺失值

在数据中经常出现缺失值,Pandas提供多种填充和处理缺失值的方法,常用的有fillna和dropna。

# 使用fillna填充缺失值
df.fillna(0, inplace=True)
# 使用dropna删除缺失值
df.dropna(inplace=True)

4. 数据合并与拼接

在数据分析过程中,我们需要将多个数据合并成一个,或者将一个数据拆分为多个数据。Pandas提供了merge和concat等方法。

# 使用merge合并数据
df_merged = pd.merge(df_left, df_right, on='id')

# 使用concat拼接数据
df_concat = pd.concat([df1, df2], axis=0)

5. 新增、修改和删除列

新建、修改和删除列是在数据分析过程中常见操作。Pandas提供了assign、rename和drop等方法。

# 使用assign增加一列数据
df = df.assign(new_column=[1, 2, 3])

# 使用rename重命名一列数据
df = df.rename(columns={'old_column': 'new_column'})

# 使用drop删除一列或多列数据
df = df.drop(columns=['column1', 'column2'])

6. 数据分组与聚合

在数据分析过程中,我们常常需要对数据进行分组和聚合。Pandas提供了groupby和agg等方法。

# 使用groupby方法分组
grouped = df.groupby('column1')

# 使用agg方法对分组的数据进行聚合计算
agg_grouped = grouped.agg({'column2': 'sum', 'column3': 'mean'})

7. 数据筛选与过滤

数据筛选和过滤是数据分析过程中的基础操作。Pandas提供了多种方法进行数据筛选和过滤。

# 根据条件筛选数据
df_filtered = df[df['column'] == 'value']

# 使用isin过滤某列数据
df_filtered = df[df['column'].isin(['value1', 'value2'])]

# 使用query方法根据条件筛选数据
df_filtered = df.query("column1 == 'value1' & column2 > 10")

8. 数据排序

数据排序是数据分析的常见操作,Pandas提供了多种方法进行排序。

# 使用sort_values方法根据列排序
df_sorted = df.sort_values('column1', ascending=True)

# 使用sort_index方法根据索引排序
df_sorted = df.sort_index(inplace=True)

9. 数据转换

在数据分析过程中,经常需要对数据进行转换和处理。Pandas提供了多种方法进行数据转换。

# 使用apply方法对数据进行自定义处理
df['new_column'] = df['old_column'].apply(lambda x: x * 2)

# 使用map方法对数据进行处理
df['new_column'] = df['old_column'].map({'value1': 1, 'value2': 2})

# 使用pivot_table方法进行数据透视表操作
pd.pivot_table(df, values='column2', index='column1', columns='column3', aggfunc=np.mean)

10. 数据可视化

数据可视化是数据分析过程中非常重要的一部分。Pandas提供了plot方法和绘图工具包(Matplotlib和Seaborn)来进行数据可视化。

# 使用plot方法进行单个变量的可视化
df['column1'].plot(kind='hist')

# 利用Matplotlib进行双变量的绘图
import matplotlib.pyplot as plt
plt.scatter(df['column1'], df['column2'])

# 利用Seaborn进行数据可视化
import seaborn as sns
sns.boxplot(x='category', y='value', data=df)

以上就是学习这29个常用函数后你可以成为Pandas专家的完整攻略。实践起来,需要不断练习、思考和应用。