与Microsoft SQL Server的Pyspark连接？

Question

我在SQL Server中有一个巨大的数据集，我想将SQL Server与python连接，然后使用pyspark运行查询。

我已经看过JDBC驱动程序，但是我没有找到实现的方法，我是用PYODBC来做的，但是没有火花。

任何帮助将不胜感激。

Answer 1

请使用以下内容连接到Microsoft SQL：

def connect_to_sql(
    spark, jdbc_hostname, jdbc_port, database, data_table, username, password
):
    jdbc_url = "jdbc:sqlserver://{0}:{1}/{2}".format(jdbc_hostname, jdbc_port, database)

    connection_details = {
        "user": username,
        "password": password,
        "driver": "com.microsoft.sqlserver.jdbc.SQLServerDriver",
    }

    df = spark.read.jdbc(url=jdbc_url, table=data_table, properties=connection_details)
    return df

[spark是一个SparkSession对象，其余的都非常清楚。

您还可以将下推查询传递给read.jdbc

与Microsoft SQL Server的Pyspark连接？

问题描述投票：0回答：1

1个回答

最新问题

与Microsoft SQL Server的Pyspark连接？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1