我是新的蔚蓝湖屋和仓库。我正在尝试掌握 Microsoft Fabric 工作区中的概念,以便我可以选择 Lakehouse 或仓库作为我的目的地。
据我了解,Lakehouse 是数据湖和仓库的结合,因此支持结构化和非结构化数据。
我还知道Lakehouse是基于Spark引擎的,而Warehouse是基于SQL引擎的。
这个pyspark用于Lakehouse中的转换,而SQL用于仓库中的转换。
我还知道 Lakehouse 支持通过 pyspark 使用 SQL 查询(SELECT/INSERT/UPDATE/DELETE),以及使用 %%sql 的简单 SELECT 查询。
我想问:
对于你的两个问题:
我可以使用 %%sql 编写数据转换 SQL (INSERT/UPDATE/DELETE) 在莱克豪斯?
是的,您可以在 Spark SQL 中进行 SELECT 之外的数据转换,例如 Spark SQL API 支持的 MERGE、INSERT 和 DELETE,但这些必须是增量表。
我可以使用 python pyspark 或笔记本编写数据转换吗 仓库?
不直接,这仅限于支持的 T-SQL 功能。您可以在 Lakehouse 中启动笔记本,并使用 JDBC 连接连接到 Warehouse,然后运行包含在 python 中的 T-SQL 来运行转换,但在 Warehouse 体验中不直接支持运行 python 命令。