获取Pandas中某一列的子串,可以通过字符串的切片操作来实现。以下是详细步骤:
- 导入Pandas库
要操作Pandas数据,首先要导入Pandas库。导入语句为:
import pandas as pd
- 读取数据
从CSV等格式的数据文件中读取数据,可以使用read_csv函数,如下所示:
data = pd.read_csv('data.csv')
以上代码读取名为‘data.csv’的文件,并将数据存储在一个名为data的DataFrame中。
- 获取子串
获取DataFrame中的某一列,可以使用iloc或loc等函数。以下是loc函数的例子:
col = data.loc[:, 'column_name']
以上代码从DataFrame中获取名为 ‘column_name’ 的列,并将其存储在名为‘col’的Series对象中。
要获取该列的子串,可以使用字符串的切片操作,即:
sub_col = col.str[start:end]
其中,start和end分别为要提取的子串的起始位置和终止位置。
例如,以下是从‘data’ DataFrame中获取名为‘name’列的前三个字符的代码示例:
import pandas as pd
data = pd.read_csv('data.csv')
name_col = data.loc[:, 'name']
sub_col = name_col.str[0:3]
print(sub_col)
输出结果为:
0 Tom
1 Mar
2 Joh
3 Ben
Name: name, dtype: object
以上代码通过str函数提取了’name’列的前三个字符,并将结果存储在‘sub_col’的Series对象中。可以看到输出结果为包含三个字母子串的Series对象。