需要使用Pandas提供的chunksize参数,将文件分成多个小块进行加载。具体步骤如下:
- 使用Pandas库的read_csv()函数加载CSV文件,并指定chunksize参数。chunksize参数指定每个小块的行数,例如:chunksize=10000,表示将文件分成每个小块10000行。
import pandas as pd
chunksize = 10000
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
# 在每个小块上进行处理
...
- 循环迭代每个小块,处理小块数据。可以增加for循环来处理所有小块数据。例如:
import pandas as pd
chunksize = 10000
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
# 在每个小块上进行处理
for row in chunk.itertuples():
# 处理数据,例如输出第一列
print(row[1])
3.对于处理完每个小块之后,可以选择将数据存储到新的CSV文件中:
import pandas as pd
chunksize = 10000
for i, chunk in enumerate(pd.read_csv('large_file.csv', chunksize=chunksize)):
# 在每个小块上进行处理
for row in chunk.itertuples():
# 处理数据,例如输出第一列
print(row[1])
# 将处理好的数据保存到新的CSV文件中
chunk.to_csv('new_file_{}.csv'.format(i), index=False)
以上就是使用Pandas加载大文件时,将其切分成小块方法的详细讲解。