我知道我们可以通过 UI 提交 python 轮作业,但是可以使用气流 DatabricksSubmitRunOperator 来实现它吗?
对于doc,似乎只支持python_file,是否有解决方法来提交python_wheel来运行?
提前致谢。
首先,您需要将 Wheel 和 main 存储到 dbfs 位置,然后使用 Airflow DAG 调用它,如下例所示:
new_cluster = {
"name": "my_cluster",
"spark_version": "14.3.....",
"num_workers": 1,
"autoscale": {
"min_workers": 1,
"max_workers": 8
},
}
spark_python_task_params = {
"new_cluster": new_cluster,
"spark_python_task": {
"python_file": "dbfs:path/to/your/main.py",
"parameters": []
},
"libraries": [
{
"whl": "dbfs:path/to/your/wheel.whl"
}
],
}
spark_task = DatabricksSubmitRunOperator(
task_id="run_this_job",
databricks_conn_id="databricks_default",
dag=dag,
json=spark_python_task_params)