初始化具有缺失值的列，并将数据帧的另一列复制+转换为初始化列

Question

我在csv文件中有一个杂乱的列（数据帧的A列）。

using CSV, DataFrames
df = DataFrame(A = ["1", "3", "-", "4", missing, "9"], B = ["M", "F", "R", "G", "Z", "D"])

我想要做的是：

将整数从字符串转换为数字（例如Float64）
在"-"中转换字符串missing

策略是首先定义一个填充缺失的新列向量

df[:C] = fill(missing, size(df)[1])

然后使用for循环执行2次转换

for i in 1:size(df)[1]
    if df[:A][i] == "-"
        continue
    else
        df[:C][i] = parse(Float64,df[:A][i])
    end
end

但是，在查看df[:C]时，我的列中只有缺失的列。我究竟做错了什么？

Answer 1

你的代码有几个问题，但首先让我展示一下我将如何编写这个转换：

df.C = passmissing(parse).(Float64, replace(df.A, "-"=>missing))

它不是最有效的方法，但很容易推理。

使用循环的实现可能如下所示：

df.C = similar(df.A, Union{Float64, Missing});

for (i, a) in enumerate(df.A)
    if !ismissing(a) && a != "-"
        df.C[i] = parse(Float64, a)
    else
        df.C[i] = missing
    end
end

请注意，默认情况下similar会用df.C填充missing，因此可以删除else部分，但是没有记录此行为，因此编写它更安全。

你也可以使用一种理解：

df. C = [ismissing(a) || a == "-" ? missing : parse(Float64, a) for a in df.A]

现在，为了修复您的代码，您可以编写：

# note a different initialization
# in your code df.C allowed only values of Missing type and disallows of Float64 type
df.C = Vector{Union{Float64, Missing}}(missing, size(df, 1))

for i in 1:size(df)[1]
    # note that we need to handle missing value and "=" separately
    if ismissing(df.A[i]) || df.A[i] == "-"
        continue
    else
        df.C[i] = parse(Float64,df.A[i])
    end
end

最后请注意，最好编写df.C而不是df[:C]来访问数据框中的列（目前两者都是等效的，但将来可能会改变）。

初始化具有缺失值的列，并将数据帧的另一列复制+转换为初始化列

问题描述投票：1回答：1

1个回答

最新问题

初始化具有缺失值的列，并将数据帧的另一列复制+转换为初始化列

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1