cron中的spark-submit schedu

问题描述 投票:1回答:2

我想在crontab中安排一个pyspark脚本,每5分钟运行一次。我已使用此命令手动成功启动了脚本:

spark-submit script.py

问题是从crontab启动时,相同的命令似乎不起作用。日志不显示任何细节(它们被截断)

*/5 * * * * /path/script.sh

文件script.sh包含:spark-submit script.py

如果您对如何解决此问题有任何想法,请与我们联系。

unix apache-spark crontab
2个回答
1
投票

你应该把它放在一个bash文件中并在cron上运行:

Bash文件Your_Script.sh

#!/bin/bash
echo "RUNNING JOB"
/opt/mapr/spark/spark-1.5.2/bin/spark-submit /Path/To/Your_Script.py parama1

所以你可以像这样从crantab轻松运行它:

32 18 * * *  /Path/To/Your_Script.sh

0
投票

我遇到了同样的问题。我通过两个步骤解决了这个问题:

  1. 请参阅cron日志:日志的路径是Centos中的/ var / spool / mail / $ {username}。我的日志显示:找不到hadoop和$ JAVA_HOME
  2. source /etc/profile:因为我的操作系统中的/ etc / profile中配置了$ JAVA_HOME和$ HADOOP_HOME。如果在〜/ .bashrc中配置了$ JAVA_HOME和$ HADOOP_HOME,那应该是source ~/.bashrc
© www.soinside.com 2019 - 2024. All rights reserved.