利用Python对中国500强排行榜数据进行可视化分析

  • Post category:Python

实现对中国500强排行榜数据进行可视化分析的完整实例教程,需要遵循以下步骤:

步骤1:准备工作

  • 获取中国500强企业排行榜数据
  • 安装Python数据分析库pandas、可视化库matplotlib和中文字体simsun.ttf

步骤2:数据清洗

我们需要使用pandas库读取CSV格式的排行榜数据,然后对数据进行清洗和整理,以便日后进行可视化操作。示例代码如下:

import pandas as pd

# 读取csv文件
df = pd.read_csv("500.csv", encoding="GBK")
# 删除缺失值
df.dropna(inplace=True)
# 修改列名
df.rename(columns={"名称": "name", "品牌价值(亿元)": "brand_value", "营业收入(亿元)": "revenue", "利润(亿元)": "profit", "总资产(亿元)": "total_assets", "职工人数": "employee_count"}, inplace=True)
# 转换列数据类型
df[["name"]] = df[["name"]].astype(str)
df[["brand_value", "revenue", "profit", "total_assets"]] = df[["brand_value", "revenue", "profit", "total_assets"]].astype(float)
df[["employee_count"]] = df[["employee_count"]].astype(int)

经过数据清洗和整理之后,我们就可以进行可视化分析了。

步骤3:可视化分析

我们可以使用matplotlib库进行数据可视化分析,下面是两个示例:

示例一:绘制品牌价值和职工人数散点图

通过以下示例,我们可以绘制出品牌价值和职工人数的散点图,以便更好地了解两者之间的关系。

import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 设置中文字体
font = fm.FontProperties(fname="./simsun.ttf")

# 绘制散点图
fig, ax = plt.subplots()
df.plot.scatter(x="brand_value", y="employee_count", ax=ax, s=50)
ax.set_xlabel("品牌价值(亿元)", fontproperties=font)
ax.set_ylabel("职工人数", fontproperties=font)
plt.show()

示例二:绘制各行业总营业收入堆叠柱状图

通过以下示例,我们可以绘制出每个行业公司总营业收入的堆叠柱状图,以便更好地比较各行业公司总营业收入的大小和构成。

import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 设置中文字体
font = fm.FontProperties(fname="./simsun.ttf")

# 获取不同行业的总营业收入数据
industries = df.groupby(["行业"])["revenue"].sum().sort_values(ascending=False)
industry_names = list(industries.index)
industry_values = list(industries.values)

# 绘制堆叠柱状图
fig, ax = plt.subplots()
for i in range(len(industry_names)):
    df[df["行业"] == industry_names[i]].sort_values(by="revenue", ascending=False).plot(kind="bar", x="name", y="revenue", ax=ax, stacked=True)

ax.set_xticklabels(df[df["行业"] == industry_names[0]]["name"].values, fontproperties=font)
ax.set_xlabel("公司名称", fontproperties=font)
ax.set_ylabel("总营业收入(亿元)", fontproperties=font)
plt.legend(industry_names, prop=font)
plt.show()

总结

通过上述步骤,我们可以使用Python对中国500强排行榜数据进行可视化分析。具体来说,我们需要先对数据进行清洗和整理,然后使用matplotlib库进行可视化分析,比较常用的可视化方式包括散点图、柱状图、折线图等。