在Pandas DataFrame中基于现有的列创建一个新的列,可以用 assign() 方法实现。具体过程如下:
1.读取数据:首先,要有数据可以操作,我们可以使用 pandas.read_csv() 读取一个外部的 CSV 文件生成 DataFrame。
2.基于已有列创建新列:在 DataFrame 上使用 assign() 方法,对现有列做一定的计算,生成新的列。
3.保存数据:对新的 DataFrame 可进行一些数据清洗、处理等操作,最后保存为新的 CSV 文件。
下面是一个示例:
import pandas as pd
# 读取数据
df = pd.read_csv('data.csv')
# 基于已有列创建新列
df = df.assign(新列名 = df['A列名'] + df['B列名'])
# 保存数据
df.to_csv('new_data.csv', index=False)
在上面的示例中,pd.read_csv()
方法用于读取一个名为data.csv的CSV文件生成DataFrame;df.assign()
方法则用于基于A列名和B列名创建新的一列,这里新列名为‘新列名’;最后,将生成的新DataFrame保存为new_data.csv文件,其中的index=False
则表示列序号不需要保存在文件中。
处理完之后,我们也可以用 Pandas 常用的数据操作功能对新的 DataFrame 进行进一步操作,如筛选出符合条件的行、合并多个 DataFrame 等,都可以更好地帮助我们处理和分析数据。