Python数据分析之pandas函数详解

概述

pandas是Python数据分析和数据建模领域中最常用的库之一，可以方便地进行数据读取、数据清洗、数据分析等操作。在本文中，我们将详细介绍pandas库中的常用函数，让你能够深入学习和使用该库，更好地进行数据处理和分析。

pandas函数详解

1. 数据读取

pandas库中的read_xxx函数可以读取常用的数据文件形式，使用方法及其常用参数如下：

读取csv文件：

“`python
import pandas as pd

data = pd.read_csv(‘data.csv’)
“`

读取excel文件：

“`python
import pandas as pd

data = pd.read_excel(‘data.xlsx’, sheet_name=’sheet1′)
“`

读取txt文件：

“`python
import pandas as pd

data = pd.read_table(‘data.txt’, sep=’\t’)
“`

2. 数据清洗

2.1 缺失值处理

pandas库中的fillna函数可以处理缺失值，使用方法及其常用参数如下：

import pandas as pd

data = pd.read_csv('data.csv')

# 缺失值填充为0
data.fillna(0, inplace=True)

2.2 重复值处理

pandas库中的drop_duplicates函数可以处理重复值，使用方法及其常用参数如下：

import pandas as pd

data = pd.read_csv('data.csv')

# 删除重复行
data.drop_duplicates(inplace=True)

3. 数据分析

3.1 分组统计

pandas库中的groupby函数可以实现数据的分组统计，使用方法及其常用参数如下：

import pandas as pd

data = pd.read_csv('data.csv')

# 按年龄分组统计数量和平均值
result = data.groupby('Age')['Count'].agg(['count', 'mean'])

示例1：统计每个城市广告投放的数量和占比

import pandas as pd

# 读取数据
data = pd.read_csv('advertise.csv')

# 统计数量
count = data.groupby('city')['id'].agg('count').reset_index()
count.rename(columns={'id': 'count'}, inplace=True)

# 计算占比
total_count = count['count'].sum()
count['percent'] = count['count'] / total_count

print(count)

示例2：统计按性别和年龄分组的平均得分和方差

import pandas as pd

# 读取数据
data = pd.read_csv('score.csv')

# 分组统计
result = data.groupby(['Sex', 'Age'])['Score'].agg(['mean', 'var'])

print(result)

总结

本文介绍了pandas库中的常用函数，包括数据读取、数据清洗和数据分析等功能。通过掌握这些函数，可以更好地进行数据处理和分析，快速高效地完成数据分析任务。

Python数据分析之pandas函数详解

概述

pandas函数详解

1. 数据读取

2. 数据清洗

2.1 缺失值处理

2.2 重复值处理

3. 数据分析

3.1 分组统计

总结

你可能也喜欢

在Pandas DataFrame上创建视图

如何将字典转换为Pandas系列

如何在Pandas中删除包含特定值的行