基于Python数据分析之pandas统计分析 - BBSMAP

基于Python数据分析之pandas统计分析

Post published:2023年5月14日
Post category:Python

确保pandas包已经安装：在终端或命令行窗口输入“pip install pandas”安装pandas包，确认安装成功后，在Python环境中调用pandas包。
导入数据：可以使用pandas从Excel、CSV、SQL、JSON等文件中导入数据，也可以从数据库中直接读取数据。使用read_csv函数读取CSV文件，read_excel函数读取Excel文件，read_sql函数从SQL数据库中读取数据。示例代码如下：

import pandas as pd

# 从Excel文件中读取数据
df = pd.read_excel('data.xlsx')

# 从CSV文件中读取数据
df = pd.read_csv('data.csv')

# 从SQL数据库中读取数据
import sqlalchemy
engine = sqlalchemy.create_engine('mysql+pymysql://username:password@host:port/database_name')
df = pd.read_sql('select * from table_name', engine)

数据清洗和预处理：数据清洗是指在数据分析前对数据进行清洗和处理，确保数据的质量和可靠性。可以使用pandas提供的函数drop_duplicates()去重、fillna()填充缺失值、dropna()删除缺失值等函数对数据进行清洗和处理。示例代码如下：

# 去除重复行
df = df.drop_duplicates()

# 填充缺失值
df = df.fillna(0)

# 删除缺失值
df = df.dropna()

数据分组：数据分组是指将数据按照某一列或某几列的值进行分组，从而对每个组的数据进行聚合分析，并得到分组统计结果。可以使用pandas提供的groupby函数对数据进行分组。示例代码如下：

# 按照性别分组，计算平均身高和体重
df.groupby('gender')['height', 'weight'].mean()

数据透视表：数据透视表是一种交互式表格，可以将数据按照行、列和值进行分类汇总，并计算统计值。相当于将数据表格按照行和列进行分类，并进行数据聚合。可以使用pandas提供的pivot_table函数来生成数据透视表。示例代码如下：

# 生成数据透视表
pd.pivot_table(df, index=['gender', 'age'], columns=['level'], values=['score'], aggfunc='mean')

绘图分析：pandas也可以用来进行数据可视化，可以使用pandas提供的plot()函数或者结合matplotlib库进行可视化。示例代码如下：

# 绘制条形图
df.groupby('gender')['height'].mean().plot(kind='bar')

# 绘制散点图
df.plot.scatter(x='height', y='weight')

以上是“基于Python数据分析之pandas统计分析”的完整攻略。其中，示例1演示了如何从文件或数据库中读取数据；示例2和3演示了如何进行数据清洗和预处理；示例4演示了如何进行数据分组；示例5演示了如何生成数据透视表；示例6演示了如何进行数据可视化。

Tags: pandas