在Pandas-Python中获取该列的子串

  • Post category:Python

获取Pandas中某一列的子串,可以通过字符串的切片操作来实现。以下是详细步骤:

  1. 导入Pandas库

要操作Pandas数据,首先要导入Pandas库。导入语句为:

import pandas as pd
  1. 读取数据

从CSV等格式的数据文件中读取数据,可以使用read_csv函数,如下所示:

data = pd.read_csv('data.csv')

以上代码读取名为‘data.csv’的文件,并将数据存储在一个名为data的DataFrame中。

  1. 获取子串

获取DataFrame中的某一列,可以使用iloc或loc等函数。以下是loc函数的例子:

col = data.loc[:, 'column_name']

以上代码从DataFrame中获取名为 ‘column_name’ 的列,并将其存储在名为‘col’的Series对象中。

要获取该列的子串,可以使用字符串的切片操作,即:

sub_col = col.str[start:end]

其中,start和end分别为要提取的子串的起始位置和终止位置。

例如,以下是从‘data’ DataFrame中获取名为‘name’列的前三个字符的代码示例:

import pandas as pd

data = pd.read_csv('data.csv')
name_col = data.loc[:, 'name']
sub_col = name_col.str[0:3]

print(sub_col)

输出结果为:

0    Tom
1    Mar
2    Joh
3    Ben
Name: name, dtype: object

以上代码通过str函数提取了’name’列的前三个字符,并将结果存储在‘sub_col’的Series对象中。可以看到输出结果为包含三个字母子串的Series对象。