环保依赖性pyspark存储库Palantir

Question

我在Palantir Foundry存储库中与Pyspark有一个问题。

i有一个表X，该表X是在处理后Y的。现在，我想用X替换Y，但是存储库检查检测到预期的环状依赖性错误。我尝试了一切：

创建与x相同的第三个表并用它代替y。

使用检查点

没有工作是因为检查本身在执行前失败。

我还尝试将其导出为CSV并重新介导，但文件太大。任何建议？

您有

Y => X

，您想替换为

X => X

？

Answer 1

如果您想在同一数据集中读取和写入，则可以将其添加为输出，然后使转换增量。这也将为您提供阅读的选项。所以

<nothing> => X

，喜欢：

@incremental()
@transform( my_dataset_output = Output(...) )
def compute(...)
 df = my_dataset_output.dataframe()
 my_dataset_output.write_dataframe(df)

如果您的目标是进行一次性更改（例如，进行X => Z，但您想在中间保持相同的转换），则需要“断开”转换与当前输出的转换。换句话说，如果要更改“哪个变换将输出此数据集”，则需要更改其“归因”。

为此，您可以详细介绍输出数据集的详细信息，然后删除此数据集的“ Jobspecs”。您可能会收到多个警告，这是合法的，因为这将阻止您的数据集构建，直到新的代码回购获得其所有权为止。

从那里，您可以编写一个新的转换，该变换将输出到同一数据集路径/RID，并且检查应通过。

环保依赖性pyspark存储库Palantir

问题描述投票：0回答：1

1个回答

最新问题

环保依赖性pyspark存储库Palantir

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1