详解pandas.read_csv()(读取CSV文件)函数使用方法

  • Post category:Python

下面是关于 pandas.read_csv() 的详细讲解。

1. pandas.read_csv() 的作用

pandas.read_csv() 是 pandas 库中一个非常常用的函数,它的主要作用是读取一个以逗号分隔的值文件(CSV 文件)并转化成一个 DataFrame 数据结构。CSV 文件是一种简单、轻量的格式,通常用于将表格数据存储到文件中。

读取 CSV 文件还有其它方法,如 Python 内置的 csv 模块,但 pandas.read_csv() 函数非常方便,它可以处理庞大的 CSV 文件并能在内存中创建高效的 DataFrame。

2. pandas.read_csv() 的使用方法

pandas.read_csv() 的常用参数如下:

  • filepath_or_buffer:文件的名称或路径或 URL。
  • sep:字段分隔符。
  • delimiter:该参数与 sep 等效。
  • header:指定哪一行是列名(默认是 0,表示取第一行)。
  • index_col:指定哪些列作为行的索引。
  • usecols:要读取哪些列。
  • skiprows:跳过的行数(默认是 0)。
  • nrows:要读取的行数。
  • encoding:指定字符编码,默认是 utf-8。
  • dtype:指定每一列的数据类型。
  • na_values:指定 NaN 的值。

下面是两个实例:

实例一:读取 CSV 文件并创建一个 DataFrame

假设我们有一个 student.csv 的文件,如下所示:

name,age,gender,score
Tom,18,M,90
Jerry,17,F,85
Amy,20,F,92

我们可以使用 pandas.read_csv() 函数来读取,并保存为 DataFrame:

import pandas as pd

df = pd.read_csv('student.csv')
print(df)

执行上述代码,输出的结果如下所示:

    name  age gender  score
0    Tom   18      M     90
1  Jerry   17      F     85
2    Amy   20      F     92

我们可以看到,函数成功地将 CSV 文件读取并转化成了一个 DataFrame 对象。

实例二:设置 index_col 和 usecols

有时候我们只需要文件中的一部分数据,而不需要全部的数据。在这种情况下,我们可以使用 usecols 参数来指定要读取的列。例如,如果我们只需要读取 name 和 score 两列,我们可以这样做:

import pandas as pd

df = pd.read_csv('student.csv', usecols=['name', 'score'])
print(df)

执行上述代码,输出的结果如下所示:

    name  score
0    Tom     90
1  Jerry     85
2    Amy     92

除了 usecols 参数外,我们还可以使用 index_col 来指定要用作行索引的列。例如,如果我们希望把 name 列作为行索引,可以这样做:

import pandas as pd

df = pd.read_csv('student.csv', index_col='name')
print(df)

执行上述代码,输出的结果如下所示:

       age gender  score
name                    
Tom     18      M     90
Jerry   17      F     85
Amy     20      F     92

我们可以看到,CSV 文件中的 name 列现在已经被转化成了行索引。

总结

本文介绍了 pandas.read_csv() 函数的作用和使用方法,并提供了两个实例。当你需要读取 CSV 文件时,可以使用这个函数读取并创建一个 DataFrame。同时,你还可以使用一些可选参数来控制读取的列、行、编码等信息。