Python数据分析之pandas函数详解
概述
pandas是Python数据分析和数据建模领域中最常用的库之一,可以方便地进行数据读取、数据清洗、数据分析等操作。在本文中,我们将详细介绍pandas库中的常用函数,让你能够深入学习和使用该库,更好地进行数据处理和分析。
pandas函数详解
1. 数据读取
pandas库中的read_xxx函数可以读取常用的数据文件形式,使用方法及其常用参数如下:
- 读取csv文件:
“`python
import pandas as pd
data = pd.read_csv(‘data.csv’)
“`
- 读取excel文件:
“`python
import pandas as pd
data = pd.read_excel(‘data.xlsx’, sheet_name=’sheet1′)
“`
- 读取txt文件:
“`python
import pandas as pd
data = pd.read_table(‘data.txt’, sep=’\t’)
“`
2. 数据清洗
2.1 缺失值处理
pandas库中的fillna函数可以处理缺失值,使用方法及其常用参数如下:
import pandas as pd
data = pd.read_csv('data.csv')
# 缺失值填充为0
data.fillna(0, inplace=True)
2.2 重复值处理
pandas库中的drop_duplicates函数可以处理重复值,使用方法及其常用参数如下:
import pandas as pd
data = pd.read_csv('data.csv')
# 删除重复行
data.drop_duplicates(inplace=True)
3. 数据分析
3.1 分组统计
pandas库中的groupby函数可以实现数据的分组统计,使用方法及其常用参数如下:
import pandas as pd
data = pd.read_csv('data.csv')
# 按年龄分组统计数量和平均值
result = data.groupby('Age')['Count'].agg(['count', 'mean'])
示例1:统计每个城市广告投放的数量和占比
import pandas as pd
# 读取数据
data = pd.read_csv('advertise.csv')
# 统计数量
count = data.groupby('city')['id'].agg('count').reset_index()
count.rename(columns={'id': 'count'}, inplace=True)
# 计算占比
total_count = count['count'].sum()
count['percent'] = count['count'] / total_count
print(count)
示例2:统计按性别和年龄分组的平均得分和方差
import pandas as pd
# 读取数据
data = pd.read_csv('score.csv')
# 分组统计
result = data.groupby(['Sex', 'Age'])['Score'].agg(['mean', 'var'])
print(result)
总结
本文介绍了pandas库中的常用函数,包括数据读取、数据清洗和数据分析等功能。通过掌握这些函数,可以更好地进行数据处理和分析,快速高效地完成数据分析任务。