Python pandas常用函数详解

  • Post category:Python

Python pandas常用函数详解

简介

Python pandas是一个强大的数据处理工具,拥有众多的常用函数和方法,可用于数据分析中的各种任务处理。本文将对pandas中常用的一些函数进行详细讲解,帮助读者更好地了解和使用pandas。

读取数据

读取数据是pandas中最常使用的操作之一,pandas支持读取多种格式的数据,包括CSV、Excel、SQL数据库等。以下列举两个示例:

读取CSV文件

可以使用pandas中的read_csv函数读取CSV文件。该函数默认以逗号作为分隔符,支持自定义分隔符。

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')
# 将DataFrame打印出来
print(df)

上述代码会读取当前目录下的data.csv文件,并将其转化为DataFrame格式的数据,最后将其打印出来。

从Excel文件中读取

可以使用pandas中的read_excel函数读取Excel文件。该函数默认读取第一个工作表,也可以通过sheet_name参数指定要读取的工作表。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# 将DataFrame打印出来
print(df)

上述代码会读取当前目录下的data.xlsx文件中的第一个工作表,最后将其转化为DataFrame格式的数据并打印出来。

数据清洗

数据清洗是数据分析中不可或缺的一环,pandas提供了许多用于数据清洗的函数和方法,以下列举两个示例:

缺失值处理

在实际数据分析过程中,经常会遇到缺失值的情况,pandas提供了fillna函数用于填充缺失值。

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')
# 填充缺失值
df.fillna(0, inplace=True)
# 将DataFrame打印出来
print(df)

上述代码会读取当前目录下的data.csv文件中的数据,并使用fillna函数将其中的缺失值填充为0,最后将处理后的DataFrame打印出来。

数据重复处理

在某些情况下,数据可能存在重复的情况,可以使用drop_duplicates函数进行处理。

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')
# 删除重复行
df.drop_duplicates(inplace=True)
# 将DataFrame打印出来
print(df)

上述代码会读取当前目录下的data.csv文件中的数据,并使用drop_duplicates函数将其中的重复行删除,最后将处理后的DataFrame打印出来。

数据统计

数据统计是数据分析的核心内容之一,pandas提供了许多用于数据统计的函数和方法,以下列举两个示例:

统计描述信息

使用describe函数可以得到DataFrame中所有数值列的统计信息,包括均值、标准差、最大/最小值等。

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')
# 统计描述信息
desc = df.describe()
# 将统计信息打印出来
print(desc)

上述代码会读取当前目录下的data.csv文件中的数据,并使用describe函数得到其中所有数值列的统计信息,最后将其打印出来。

统计分组信息

使用groupby函数可以对数据进行分组,并统计每个组中各个字段的汇总信息。

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')
# 按照gender字段进行分组,并统计age字段均值、max、min值
grouped = df.groupby('gender')['age'].agg([('mean', 'mean'), ('max', 'max'), ('min', 'min')])
# 将分组信息打印出来
print(grouped)

上述代码会读取当前目录下的data.csv文件中的数据,并使用groupby函数将其中的数据按照gender字段分组,最后统计每个分组中age字段的均值、最大/最小值,并将其打印出来。

结论

pandas拥有丰富的函数和方法,使得数据分析过程变得更加高效和简单。在使用pandas时,需要根据具体业务场景选择合适的函数和方法,以达到最佳的数据分析效果。