PySpark - 在SQL Server中使用Spark连接器。

Question

希望你们都过得很好。

我们目前正在探索在DataBricks中使用PySpark加载SQL Server表的选项。我们有不同的来源，包括文件和表格。我们正在使用python作为基础，因为它更容易与其他现有的代码库链接。

问题01:

有人建议我们使用Spark Connector连接到SQL Server（on-prem和云端）。

上述MS的链接清楚地表明Scala是一个依赖关系。是否可以只在Scala中使用上述连接器？它也可以在Python中使用吗？如果可以，我们如何调用它里面的驱动程序和方法。

问题02:

在python代码中包含JAR文件中的importaccess库、驱动程序或其他Maven库的最佳方法是什么？在python中，我们通常有一个模块，从这个模块中导入所需的库。假设我们在Databricks中安装了几个使用Maven坐标和其他独立JAR的库，如何在Python脚本中访问它们。

希望以上细节足够。先谢谢大家的帮助和建议。干杯...

Answer 1

看起来有人找到了一个解决方案，但没有Databricks上下文。请看下面的Stack Overflow帖子。如何在 pyspark 中使用 azure-sqldb-spark 连接器

同时，请您对以下 UserVoice 功能请求进行投票和评论。为 azure-sqldb-spark 连接器实现 python 绑定。目前正在审查中。

关于当前支持的内容，请参见 Alberto 对以下 Srack Overflow 帖子的回答。如何将Azure SQL数据库与Azure Databricks连接起来？