我需要检索存储在 Databricks 平台中的数据。我可以看到它可以使用 Databricks-SDK 以及 Databricks API 路线来实现,但没有在任何地方看到获取数据的最佳方式。
如果您能看到其他更好的方法,请告诉我。
非常感谢这里的任何帮助/建议。
对于 Spring,最简单的方法是使用 Databricks JDBC 驱动程序,它提供了非常好的性能,特别是当您需要获取大块数据时。驱动程序可在 Maven Central 上找到,坐标如下:
<dependency>
<groupId>com.databricks</groupId>
<artifactId>databricks-jdbc</artifactId>
<version>2.6.34</version>
<scope>runtime</scope>
</dependency>
之后,您可以通过 JDBC url 将其用作另一个 JDBC 数据源,如
jdbc:databricks://...
(确切的字符串取决于配置)。我有一个从 Spring 使用它的小例子(虽然不是很惯用)。
另一种方法是使用 Databricks SQL 语句执行 REST API,但它通常需要更多的工作来进行身份验证、等待结果、解码数据等。尽管 Databricks Java SDK 简化了其使用,因此您可以使用如果您不想使用 JDBC,请使用它。