希望你们都过得很好。
我们目前正在探索在DataBricks中使用PySpark加载SQL Server表的选项。我们有不同的来源,包括文件和表格。我们正在使用python作为基础,因为它更容易与其他现有的代码库链接。
问题01:
有人建议我们使用Spark Connector连接到SQL Server(on-prem和云端)。
https:/docs.microsoft.comen-usazuresql-databases-data-spark-connector。
上述MS的链接清楚地表明Scala是一个依赖关系。是否可以只在Scala中使用上述连接器?它也可以在Python中使用吗?如果可以,我们如何调用它里面的驱动程序和方法。
问题02:
在python代码中包含JAR文件中的importaccess库、驱动程序或其他Maven库的最佳方法是什么?在python中,我们通常有一个模块,从这个模块中导入所需的库。假设我们在Databricks中安装了几个使用Maven坐标和其他独立JAR的库,如何在Python脚本中访问它们。
希望以上细节足够。先谢谢大家的帮助和建议。干杯...
看起来有人找到了一个解决方案,但没有Databricks上下文。请看下面的Stack Overflow帖子。如何在 pyspark 中使用 azure-sqldb-spark 连接器
同时,请您对以下 UserVoice 功能请求进行投票和评论。为 azure-sqldb-spark 连接器实现 python 绑定。 目前正在审查中。
关于当前支持的内容,请参见 Alberto 对以下 Srack Overflow 帖子的回答。如何将Azure SQL数据库与Azure Databricks连接起来?