学会这29个常用函数,你就是Pandas专家
Pandas是Python数据分析中一个重要的库。学会这29个常用函数,你就可以快速入门Pandas, 并进行基本数据分析。
1. 导入Pandas库
使用Pandas库之前,需要先导入该库。
import pandas as pd
2. 读取数据
读取并存储数据是数据分析的第一步。Pandas提供多种方式读取数据,常用的有读取csv, Excel和SQL等。
# 读取CSV数据
df = pd.read_csv('data.csv')
# 读取Excel文件数据
df = pd.read_excel('data.xlsx')
# 读取SQL数据库数据
conn = sqlalchemy.create_engine('mysql+pymysql://root:password@localhost:3306/test')
df = pd.read_sql('select * from test_table', conn)
3. 处理缺失值
在数据中经常出现缺失值,Pandas提供多种填充和处理缺失值的方法,常用的有fillna和dropna。
# 使用fillna填充缺失值
df.fillna(0, inplace=True)
# 使用dropna删除缺失值
df.dropna(inplace=True)
4. 数据合并与拼接
在数据分析过程中,我们需要将多个数据合并成一个,或者将一个数据拆分为多个数据。Pandas提供了merge和concat等方法。
# 使用merge合并数据
df_merged = pd.merge(df_left, df_right, on='id')
# 使用concat拼接数据
df_concat = pd.concat([df1, df2], axis=0)
5. 新增、修改和删除列
新建、修改和删除列是在数据分析过程中常见操作。Pandas提供了assign、rename和drop等方法。
# 使用assign增加一列数据
df = df.assign(new_column=[1, 2, 3])
# 使用rename重命名一列数据
df = df.rename(columns={'old_column': 'new_column'})
# 使用drop删除一列或多列数据
df = df.drop(columns=['column1', 'column2'])
6. 数据分组与聚合
在数据分析过程中,我们常常需要对数据进行分组和聚合。Pandas提供了groupby和agg等方法。
# 使用groupby方法分组
grouped = df.groupby('column1')
# 使用agg方法对分组的数据进行聚合计算
agg_grouped = grouped.agg({'column2': 'sum', 'column3': 'mean'})
7. 数据筛选与过滤
数据筛选和过滤是数据分析过程中的基础操作。Pandas提供了多种方法进行数据筛选和过滤。
# 根据条件筛选数据
df_filtered = df[df['column'] == 'value']
# 使用isin过滤某列数据
df_filtered = df[df['column'].isin(['value1', 'value2'])]
# 使用query方法根据条件筛选数据
df_filtered = df.query("column1 == 'value1' & column2 > 10")
8. 数据排序
数据排序是数据分析的常见操作,Pandas提供了多种方法进行排序。
# 使用sort_values方法根据列排序
df_sorted = df.sort_values('column1', ascending=True)
# 使用sort_index方法根据索引排序
df_sorted = df.sort_index(inplace=True)
9. 数据转换
在数据分析过程中,经常需要对数据进行转换和处理。Pandas提供了多种方法进行数据转换。
# 使用apply方法对数据进行自定义处理
df['new_column'] = df['old_column'].apply(lambda x: x * 2)
# 使用map方法对数据进行处理
df['new_column'] = df['old_column'].map({'value1': 1, 'value2': 2})
# 使用pivot_table方法进行数据透视表操作
pd.pivot_table(df, values='column2', index='column1', columns='column3', aggfunc=np.mean)
10. 数据可视化
数据可视化是数据分析过程中非常重要的一部分。Pandas提供了plot方法和绘图工具包(Matplotlib和Seaborn)来进行数据可视化。
# 使用plot方法进行单个变量的可视化
df['column1'].plot(kind='hist')
# 利用Matplotlib进行双变量的绘图
import matplotlib.pyplot as plt
plt.scatter(df['column1'], df['column2'])
# 利用Seaborn进行数据可视化
import seaborn as sns
sns.boxplot(x='category', y='value', data=df)
以上就是学习这29个常用函数后你可以成为Pandas专家的完整攻略。实践起来,需要不断练习、思考和应用。