在创建并运行群集后,是否可以在Google Dataproc群集中安装python包?
我试图在主命令行中使用“pip install xxxxxxx
”但它似乎不起作用。
谷歌的Dataproc文档没有提到这种情况。
创建群集后通常无法进行此操作。我建议使用初始化操作来执行此操作。
正如您所注意到的那样,pip
默认情况下也不可用。因此,您需要运行easy_install pip
,然后运行pip install
命令。
最后,如果你打算在任何自动化中使用这个集群,和/或你想要密封性,我建议创建一个存储在GCS中的wheel
并在init操作中下载。然后你会安装你的车轮。车轮增加了比直接从pip安装许多软件包更快的好处。
2019年更新
请参阅本教程,了解如何在Dataproc上配置Python环境:https://cloud.google.com/dataproc/docs/tutorials/python-configuration