使用配置单元在spark中使用2个内部连接来连接3个表

问题描述 投票:0回答:1

我想仅使用内部联接在Spark中连接三个表。我相信我可以通过两种方式做到:

Way 1:-
Step1: dataframeA = TableA inner join TableB on [condition] inner join TableC on [condition]
Step2: dataframeA.saveAsTable

Way 2:
Step1: dataframeA = TableA inner join TableB on [condition]
Step2: TableC -> convert to Dataframe -> dataframeB
Step3: dataframeA join dataframeA  on [condition].saveAsTable

所以,我想知道哪种方式更快实现,如果我根据它们的大小连接表,它会有什么不同吗?比如先加入较大的表而不是加入较小的表。

任何相关来源将不胜感激。谢谢。

sql apache-spark hive pyspark bigdata
1个回答
0
投票

如果任何表格足够小https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins-broadcast.html,你可以利用广播联接

© www.soinside.com 2019 - 2024. All rights reserved.