Azure 数据工厂:目标 CSV 文件丢失记录顺序

问题描述 投票:0回答:1

我在 ADF 中有工作管道。 源是雪花视图,其中记录按行号升序排序,这是一个关键条件。视图可能包含行号列,但最终的 CSV 不应包含它。然后,视图输出将导出到 blob 存储,猜测为多个 *_X_Y_X.csv.gz 文件,然后合并到一个最终的 CSV 中,不进行压缩。但是,合并后所有排序顺序都会丢失。

据我了解,必须有一种方法可以通过单独的数据流添加排序。但是,我怀疑应该有一种方法可以在合并阶段恢复排序顺序。对存储容器的查询如

SELECT a.$1 FROM @STAGE a ORDER BY a.$2
(其中 a.$2 是行号)会以正确的顺序返回记录。

可以对复制数据合并活动进行任何更改以使其保持记录顺序吗?

enter image description here

azure-pipelines azure-data-factory google-cloud-dataflow
1个回答
0
投票

我找到了解决办法。我认为这不是最有效的,但很有效。 我在“设置”部分中将“复制并行度”设置为 1。这使得在所有排序都正确的情况下逐个摄取文件的过程。

© www.soinside.com 2019 - 2024. All rights reserved.