环保依赖性pyspark存储库Palantir

问题描述 投票:0回答:1

我在Palantir Foundry存储库中与Pyspark有一个问题。

i有一个表X,该表X是在处理后Y的。现在,我想用X替换Y,但是存储库检查检测到预期的环状依赖性错误。 我尝试了一切:

创建与x相同的第三个表并用它代替y。

使用检查点

没有工作是因为检查本身在执行前失败。

我还尝试将其导出为CSV并重新介导,但文件太大。 任何建议?

您有

Y => X

,您想替换为

X => X

pyspark repository palantir-foundry
1个回答
0
投票
如果您想在同一数据集中读取和写入,则可以将其添加为输出,然后使转换增量。这也将为您提供阅读的选项。所以

<nothing> => X

,喜欢:
@incremental()
@transform( my_dataset_output = Output(...) )
def compute(...)
 df = my_dataset_output.dataframe()
 my_dataset_output.write_dataframe(df)

如果您的目标是进行一次性更改(例如,进行X => Z,但您想在中间保持相同的转换),则需要“断开”转换与当前输出的转换。换句话说,如果要更改“哪个变换将输出此数据集”,则需要更改其“归因”。

为此,您可以详细介绍输出数据集的详细信息,然后删除此数据集的“ Jobspecs”。您可能会收到多个警告,这是合法的,因为这将阻止您的数据集构建,直到新的代码回购获得其所有权为止。

从那里,您可以编写一个新的转换,该变换将输出到同一数据集路径/RID,并且检查应通过。
    

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.