我有一个HDP 2.5群集,我与Zeppelin的%pyspark解释工作来生成代码。
我想使用有助于时间序列分析都在Python,Java和斯卡拉,这是这里指定的工作在星火库:https://github.com/sryza/spark-timeseries
问题是,我不知道如何导入和使用这个库到我的ZEPPELIN%pyspark解释。
首先,我下载了一个名为 “sparkts-0.2.0-JAR-与-dependencies.jar” .jar文件。接下来,我把它保存在我的/ opt /目录在我的群集节点,在ZEPPELIN工作。
然后,我尝试用%DEP,但它在我目前的HDP的版本过时了,所以我说在ZEPPELIN“翻译”菜单中,这样的依赖关系:
我重新解释,并在ZEPPELIN笔记本的尝试:
%pyspark
import sparkts
但是,我得到了一个错误:
ImportError: No module named sparkts
所以我的问题是:我怎么能导入和使用这个.jar文件进行时间序列分析与ZEPPELIN我HDP集群?
非常感谢!
由于它是一个Python库,你需要PIP如果你在一个集群的顶部使用资源管理器似纱在那里工作可以在集群中的任何节点上运行运行飞艇群集的每个节点上安装这个和你使用像李维译员分配你的工作。如果库通过PIP不可用,你可以通过运行setup.py安装(如果有的话),或在万不得已的供应jar文件直接到Pyspark壳像这样火花壳--jars(不适用于飞艇的解决方案虽然)