我想仅使用内部联接在Spark中连接三个表。我相信我可以通过两种方式做到:
Way 1:-
Step1: dataframeA = TableA inner join TableB on [condition] inner join TableC on [condition]
Step2: dataframeA.saveAsTable
Way 2:
Step1: dataframeA = TableA inner join TableB on [condition]
Step2: TableC -> convert to Dataframe -> dataframeB
Step3: dataframeA join dataframeA on [condition].saveAsTable
所以,我想知道哪种方式更快实现,如果我根据它们的大小连接表,它会有什么不同吗?比如先加入较大的表而不是加入较小的表。
任何相关来源将不胜感激。谢谢。