我正在构建个人项目,但我陷入困境。 具体来说,在编写 Spark 作业来处理和转换数据后,我将数据加载到 hadoop HDFS 中。然后我想将hdfs连接到snowflake,然后我可以将hdfs的数据导出到snowflake,但是似乎不起作用。
读完后,我发现我需要使用一些各方支持的云存储,例如AWS,MCA,GCS,这意味着首先将数据从HDFS加载到云存储,然后将数据从云导出到雪花。
我想知道这是现在常见的方式吗?有没有其他方法可以在不使用云存储的情况下解决这个问题?
谢谢大家。
鉴于您已经在使用 Apache Spark,您可以使用 Snowflake Spark Connector 将数据直接写入 Snowflake。
这将是更短的路径,而不是将数据写入 HDFS 或云存储服务,然后在单独的步骤中将该数据加载到 Snowflake 中。