我目前在一个小团队工作,该团队正在开发基于 Databricks 的解决方案。 目前,我们的规模足够小,可以使用 Databricks 的云实例进行工作。 随着团队的成长,这并不实际。
是否有可以出于开发目的而安装的 Databricks 的“本地”安装(它不需要是可扩展版本,但需要本质上具有完整功能)? 换句话说,有没有一种方法可以让每个开发人员在本地计算机上创建自己的 Databricks 开发实例?
是否有其他方法为每个开发人员提供专用的Databricks环境?
Databricks作为一个云部署平台,在其部署中利用了许多云技术。 例如,Auto Loader 使用 EventBridge、SNS 和 S3 在新数据文件到达 AWS 时增量摄取新数据文件,而 Azure 使用 EventHubs、通知中心和 ADLS 技术。 他们的目标是在 AWS、Azure 和 GCP 上创建无缝的外观和感觉,但只能在云中做到这一点。
对于本地部署,您也许可以使用 Apache Spark 和 MlFlow 并创建类似的体验,但笔记本体验不是开源的。 Databricks 的工作流程是专有的,尽管 Databricks 已经开源了许多技术,例如Delta Lake。 本地 Spark、MlFlow 可能足以满足某些需求,然后很少使用云,但 Databricks 提供的无缝工作流程很难在领先的云供应商之外进行复制。
这不是databricka设置,而是在本地机器上设置spark环境并使用pyspark进行本地开发 唯一的差异是databricks总是你可以spark实例,而本地你需要先创建spark实例才能执行任何代码
根据是在 Windows 还是 Unix 上,设置凸轮略有不同。
Windows dbutils 需要一些调整,如果您想在本地保存增量表,那么有软件包和 jar 可以做到这一点。