我在 ADF 中有工作管道。 源是雪花视图,其中记录按行号升序排序,这是一个关键条件。视图可能包含行号列,但最终的 CSV 不应包含它。然后,视图输出将导出到 blob 存储,猜测为多个 *_X_Y_X.csv.gz 文件,然后合并到一个最终的 CSV 中,不进行压缩。但是,合并后所有排序顺序都会丢失。
据我了解,必须有一种方法可以通过单独的数据流添加排序。但是,我怀疑应该有一种方法可以在合并阶段恢复排序顺序。对存储容器的查询如
SELECT a.$1 FROM @STAGE a ORDER BY a.$2
(其中 a.$2 是行号)会以正确的顺序返回记录。
可以对复制数据合并活动进行任何更改以使其保持记录顺序吗?
我找到了解决办法。我认为这不是最有效的,但很有效。 我在“设置”部分中将“复制并行度”设置为 1。这使得在所有排序都正确的情况下逐个摄取文件的过程。