我在Palantir Foundry存储库中与Pyspark有一个问题。
i有一个表X,该表X是在处理后Y的。现在,我想用X替换Y,但是存储库检查检测到预期的环状依赖性错误。 我尝试了一切:创建与x相同的第三个表并用它代替y。
使用检查点
没有工作是因为检查本身在执行前失败。我还尝试将其导出为CSV并重新介导,但文件太大。 任何建议?
您有
Y => X
,您想替换为
X => X
?
<nothing> => X
,喜欢:
@incremental()
@transform( my_dataset_output = Output(...) )
def compute(...)
df = my_dataset_output.dataframe()
my_dataset_output.write_dataframe(df)
如果您的目标是进行一次性更改(例如,进行X => Z,但您想在中间保持相同的转换),则需要“断开”转换与当前输出的转换。换句话说,如果要更改“哪个变换将输出此数据集”,则需要更改其“归因”。
为此,您可以详细介绍输出数据集的详细信息,然后删除此数据集的“ Jobspecs”。您可能会收到多个警告,这是合法的,因为这将阻止您的数据集构建,直到新的代码回购获得其所有权为止。
从那里,您可以编写一个新的转换,该变换将输出到同一数据集路径/RID,并且检查应通过。