下面是关于 pandas.read_csv() 的详细讲解。
1. pandas.read_csv() 的作用
pandas.read_csv() 是 pandas 库中一个非常常用的函数,它的主要作用是读取一个以逗号分隔的值文件(CSV 文件)并转化成一个 DataFrame 数据结构。CSV 文件是一种简单、轻量的格式,通常用于将表格数据存储到文件中。
读取 CSV 文件还有其它方法,如 Python 内置的 csv 模块,但 pandas.read_csv() 函数非常方便,它可以处理庞大的 CSV 文件并能在内存中创建高效的 DataFrame。
2. pandas.read_csv() 的使用方法
pandas.read_csv() 的常用参数如下:
- filepath_or_buffer:文件的名称或路径或 URL。
- sep:字段分隔符。
- delimiter:该参数与 sep 等效。
- header:指定哪一行是列名(默认是 0,表示取第一行)。
- index_col:指定哪些列作为行的索引。
- usecols:要读取哪些列。
- skiprows:跳过的行数(默认是 0)。
- nrows:要读取的行数。
- encoding:指定字符编码,默认是 utf-8。
- dtype:指定每一列的数据类型。
- na_values:指定 NaN 的值。
下面是两个实例:
实例一:读取 CSV 文件并创建一个 DataFrame
假设我们有一个 student.csv 的文件,如下所示:
name,age,gender,score
Tom,18,M,90
Jerry,17,F,85
Amy,20,F,92
我们可以使用 pandas.read_csv() 函数来读取,并保存为 DataFrame:
import pandas as pd
df = pd.read_csv('student.csv')
print(df)
执行上述代码,输出的结果如下所示:
name age gender score
0 Tom 18 M 90
1 Jerry 17 F 85
2 Amy 20 F 92
我们可以看到,函数成功地将 CSV 文件读取并转化成了一个 DataFrame 对象。
实例二:设置 index_col 和 usecols
有时候我们只需要文件中的一部分数据,而不需要全部的数据。在这种情况下,我们可以使用 usecols 参数来指定要读取的列。例如,如果我们只需要读取 name 和 score 两列,我们可以这样做:
import pandas as pd
df = pd.read_csv('student.csv', usecols=['name', 'score'])
print(df)
执行上述代码,输出的结果如下所示:
name score
0 Tom 90
1 Jerry 85
2 Amy 92
除了 usecols 参数外,我们还可以使用 index_col 来指定要用作行索引的列。例如,如果我们希望把 name 列作为行索引,可以这样做:
import pandas as pd
df = pd.read_csv('student.csv', index_col='name')
print(df)
执行上述代码,输出的结果如下所示:
age gender score
name
Tom 18 M 90
Jerry 17 F 85
Amy 20 F 92
我们可以看到,CSV 文件中的 name 列现在已经被转化成了行索引。
总结
本文介绍了 pandas.read_csv() 函数的作用和使用方法,并提供了两个实例。当你需要读取 CSV 文件时,可以使用这个函数读取并创建一个 DataFrame。同时,你还可以使用一些可选参数来控制读取的列、行、编码等信息。