如何在Pandas中把一个庞大的文件加载成小块

  • Post category:Python

需要使用Pandas提供的chunksize参数,将文件分成多个小块进行加载。具体步骤如下:

  1. 使用Pandas库的read_csv()函数加载CSV文件,并指定chunksize参数。chunksize参数指定每个小块的行数,例如:chunksize=10000,表示将文件分成每个小块10000行。
import pandas as pd

chunksize = 10000
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
    # 在每个小块上进行处理
    ...
  1. 循环迭代每个小块,处理小块数据。可以增加for循环来处理所有小块数据。例如:
import pandas as pd

chunksize = 10000
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
    # 在每个小块上进行处理
    for row in chunk.itertuples():
        # 处理数据,例如输出第一列
        print(row[1])

3.对于处理完每个小块之后,可以选择将数据存储到新的CSV文件中:

import pandas as pd

chunksize = 10000
for i, chunk in enumerate(pd.read_csv('large_file.csv', chunksize=chunksize)):
    # 在每个小块上进行处理
    for row in chunk.itertuples():
        # 处理数据,例如输出第一列
        print(row[1])

    # 将处理好的数据保存到新的CSV文件中
    chunk.to_csv('new_file_{}.csv'.format(i), index=False)

以上就是使用Pandas加载大文件时,将其切分成小块方法的详细讲解。