在Pandas DataFrame中基于现有的列创建一个新的列

Post published:2023年4月16日
Post category:Python

在Pandas DataFrame中基于现有的列创建一个新的列，可以用 assign() 方法实现。具体过程如下：

1.读取数据：首先，要有数据可以操作，我们可以使用 pandas.read_csv() 读取一个外部的 CSV 文件生成 DataFrame。

2.基于已有列创建新列：在 DataFrame 上使用 assign() 方法，对现有列做一定的计算，生成新的列。

3.保存数据：对新的 DataFrame 可进行一些数据清洗、处理等操作，最后保存为新的 CSV 文件。

下面是一个示例：

import pandas as pd

# 读取数据
df = pd.read_csv('data.csv')

# 基于已有列创建新列
df = df.assign(新列名 = df['A列名'] + df['B列名'])

# 保存数据
df.to_csv('new_data.csv', index=False)

在上面的示例中，pd.read_csv()方法用于读取一个名为data.csv的CSV文件生成DataFrame；df.assign()方法则用于基于A列名和B列名创建新的一列，这里新列名为‘新列名’；最后，将生成的新DataFrame保存为new_data.csv文件，其中的index=False则表示列序号不需要保存在文件中。

处理完之后，我们也可以用 Pandas 常用的数据操作功能对新的 DataFrame 进行进一步操作，如筛选出符合条件的行、合并多个 DataFrame 等，都可以更好地帮助我们处理和分析数据。

Tags: pandas

你可能也喜欢

如何将TSV文件加载到Pandas DataFrame中

在Pandas数据框架中，将列的第一个字母大写

Pandas中的分层数据