我正在尝试使用 Snowflake 作为数据源,但是当我在上下文中设置数据源时,我得到数据库不正确。我应该如何传递 Snowflake 的连接字符串。我可以使用 Snowflake sql alchemy 连接器连接到 Snowfake,只需要主机名、用户名和密码。
您可以使用 Pyspark 方法:
使用 Snowflake 连接器和 JDBC 驱动程序
配置 Spark 会话from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("Snowflake_Integration") \
.config("spark.jars.packages", "net.snowflake:spark-snowflake_2.12:2.10.0-spark_3.2,net.snowflake:snowflake-jdbc:3.13.14") \
.getOrCreate()
from pyspark.sql.types import *
from pyspark.sql import SparkSession
from pyspark import SparkConf
sfOptions = {
"sfURL": "app.snowflake.com",
"sfUser": "Dilipheking2",
"sfPassword": "Diliprajnarayan@1",
"sfDatabase": "db02",
"sfSchema": "Employee",
"sfWarehouse": "warehouse"
}
SNOWFLAKE_SOURCE_NAME = "net.snowflake.spark.snowflake"
df = spark.read.format(SNOWFLAKE_SOURCE_NAME) \
.options(**sfOptions) \
.option("query", "SELECT * FROM Employee") \
.load()
在上面定义 Snowflake 选项的代码中 定义雪花数据源 从 Snowflake 加载数据
参考:SO链接