Python数据分析之pandas函数详解

  • Post category:Python

Python数据分析之pandas函数详解

概述

pandas是Python数据分析和数据建模领域中最常用的库之一,可以方便地进行数据读取、数据清洗、数据分析等操作。在本文中,我们将详细介绍pandas库中的常用函数,让你能够深入学习和使用该库,更好地进行数据处理和分析。

pandas函数详解

1. 数据读取

pandas库中的read_xxx函数可以读取常用的数据文件形式,使用方法及其常用参数如下:

  • 读取csv文件:

“`python
import pandas as pd

data = pd.read_csv(‘data.csv’)
“`

  • 读取excel文件:

“`python
import pandas as pd

data = pd.read_excel(‘data.xlsx’, sheet_name=’sheet1′)
“`

  • 读取txt文件:

“`python
import pandas as pd

data = pd.read_table(‘data.txt’, sep=’\t’)
“`

2. 数据清洗

2.1 缺失值处理

pandas库中的fillna函数可以处理缺失值,使用方法及其常用参数如下:

import pandas as pd

data = pd.read_csv('data.csv')

# 缺失值填充为0
data.fillna(0, inplace=True)

2.2 重复值处理

pandas库中的drop_duplicates函数可以处理重复值,使用方法及其常用参数如下:

import pandas as pd

data = pd.read_csv('data.csv')

# 删除重复行
data.drop_duplicates(inplace=True)

3. 数据分析

3.1 分组统计

pandas库中的groupby函数可以实现数据的分组统计,使用方法及其常用参数如下:

import pandas as pd

data = pd.read_csv('data.csv')

# 按年龄分组统计数量和平均值
result = data.groupby('Age')['Count'].agg(['count', 'mean'])

示例1:统计每个城市广告投放的数量和占比

import pandas as pd

# 读取数据
data = pd.read_csv('advertise.csv')

# 统计数量
count = data.groupby('city')['id'].agg('count').reset_index()
count.rename(columns={'id': 'count'}, inplace=True)

# 计算占比
total_count = count['count'].sum()
count['percent'] = count['count'] / total_count

print(count)

示例2:统计按性别和年龄分组的平均得分和方差

import pandas as pd

# 读取数据
data = pd.read_csv('score.csv')

# 分组统计
result = data.groupby(['Sex', 'Age'])['Score'].agg(['mean', 'var'])

print(result)

总结

本文介绍了pandas库中的常用函数,包括数据读取、数据清洗和数据分析等功能。通过掌握这些函数,可以更好地进行数据处理和分析,快速高效地完成数据分析任务。