Python基础之教你怎么在M1系统上使用pandas
简介
本攻略旨在指导在M1系统上使用pandas库进行数据处理的方法,既包括pandas的安装,也包括常用的数据处理技巧。
安装pandas
M1系统上的python安装有两种方式,分别是使用Rosetta 2的x86版本的Python和使用原生ARM架构的Python。不管使用哪一种方式,安装pandas库的命令都是一样的,具体步骤如下:
- 打开终端。
-
输入以下命令安装pip包管理器:
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
sudo python3 get-pip.py -
输入以下命令安装pandas:
pip install pandas
-
如果安装过程中有任何提示,按照提示进行即可。
pandas常用数据处理技巧
读取CSV文件
pandas的read_csv函数可以读取CSV文件,并转换为DataFrame。例如,读取以下csv文件:
country,population,year
China,1405170000,2021
India,1370170000,2021
United States,332915073,2021
Indonesia,270626157,2021
Pakistan,233500636,2021
可以使用以下代码:
import pandas as pd
df = pd.read_csv('example.csv')
print(df)
输出结果为:
country population year
0 China 1405170000 2021
1 India 1370170000 2021
2 United States 332915073 2021
3 Indonesia 270626157 2021
4 Pakistan 233500636 2021
数据清洗
pandas提供了丰富的函数来进行数据清洗。以下示例代码演示如何删除空值和重复值:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, None, 3], 'B': ['a', 'b', None, 'd'], 'C': [1, 2, 3, 3]})
df.dropna(inplace=True) # 删除空值
df.drop_duplicates(inplace=True) # 删除重复值
print(df)
输入结果为:
A B C
0 1 a 1
1 2 b 2
3 3 d 3
示例说明
示例一
以下是处理一个非常大的csv文件的示例代码,首先读取csv文件,然后进行数据清洗:
import pandas as pd
df = pd.read_csv('bigfile.csv')
df.dropna(inplace=True) # 删除空值
df.drop_duplicates(inplace=True) # 删除重复值
print(df)
示例二
以下是使用pandas进行特定行的筛选和数据加总:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': ['a', 'b', 'c', 'd'], 'C': [1, 2, 3, 3]})
df2 = df[df['A'] % 2 == 0] # 筛选A列剩下偶数
result = df2['C'].sum() # 求偶数所在行的C列之和
print(result)
输入结果为:
5
结语
用pandas进行数据处理可以快速而简单的完成复杂的数据分析任务,在M1系统上也能简单的安装并使用pandas。