基于Python数据分析之pandas统计分析

  • Post category:Python
  1. 确保pandas包已经安装:在终端或命令行窗口输入“pip install pandas”安装pandas包,确认安装成功后,在Python环境中调用pandas包。

  2. 导入数据:可以使用pandas从Excel、CSV、SQL、JSON等文件中导入数据,也可以从数据库中直接读取数据。使用read_csv函数读取CSV文件,read_excel函数读取Excel文件,read_sql函数从SQL数据库中读取数据。示例代码如下:

import pandas as pd

# 从Excel文件中读取数据
df = pd.read_excel('data.xlsx')

# 从CSV文件中读取数据
df = pd.read_csv('data.csv')

# 从SQL数据库中读取数据
import sqlalchemy
engine = sqlalchemy.create_engine('mysql+pymysql://username:password@host:port/database_name')
df = pd.read_sql('select * from table_name', engine)
  1. 数据清洗和预处理:数据清洗是指在数据分析前对数据进行清洗和处理,确保数据的质量和可靠性。可以使用pandas提供的函数drop_duplicates()去重、fillna()填充缺失值、dropna()删除缺失值等函数对数据进行清洗和处理。示例代码如下:
# 去除重复行
df = df.drop_duplicates()

# 填充缺失值
df = df.fillna(0)

# 删除缺失值
df = df.dropna()
  1. 数据分组:数据分组是指将数据按照某一列或某几列的值进行分组,从而对每个组的数据进行聚合分析,并得到分组统计结果。可以使用pandas提供的groupby函数对数据进行分组。示例代码如下:
# 按照性别分组,计算平均身高和体重
df.groupby('gender')['height', 'weight'].mean()
  1. 数据透视表:数据透视表是一种交互式表格,可以将数据按照行、列和值进行分类汇总,并计算统计值。相当于将数据表格按照行和列进行分类,并进行数据聚合。可以使用pandas提供的pivot_table函数来生成数据透视表。示例代码如下:
# 生成数据透视表
pd.pivot_table(df, index=['gender', 'age'], columns=['level'], values=['score'], aggfunc='mean')
  1. 绘图分析:pandas也可以用来进行数据可视化,可以使用pandas提供的plot()函数或者结合matplotlib库进行可视化。示例代码如下:
# 绘制条形图
df.groupby('gender')['height'].mean().plot(kind='bar')

# 绘制散点图
df.plot.scatter(x='height', y='weight')

以上是“基于Python数据分析之pandas统计分析”的完整攻略。其中,示例1演示了如何从文件或数据库中读取数据;示例2和3演示了如何进行数据清洗和预处理;示例4演示了如何进行数据分组;示例5演示了如何生成数据透视表;示例6演示了如何进行数据可视化。