我对 Databricks 中以下代码的差异感到困惑
spark.readStream.format('json')
对
spark.readStream.format('cloudfiles').option('cloudFiles.format', 'json')
我知道 cloudfiles 的格式将被视为 Databricks Autoloader 。性能/功能比较,哪一个更好?有人有这方面的经验吗
谢谢
两者之间存在多种差异。当您使用 Auto Loader 时,您至少会得到更多的东西(请参阅 doc 了解所有详细信息):
根据我的经验,对于预定的批处理作业,我发现 Spark Streaming 平均快约 60%。 您可以使用自动加载器进行基于事件的实时更新,因为在事件之间它不会使用计算(即您不需要连续轮询事件源)
批处理作业的参考数据:
Spark read/writestream - 8412 rows in 1min 52 secs
Autoloaded - 8412 records in 5 min 30 seconds