我正在尝试将对一组 resque 工作人员的控制权从 upstart 迁移到 systemd。在 upstart 下,我们能够拥有两个控制脚本,一个脚本定义单个工作程序,第二个脚本多次调用第一个脚本,以使用单个 upstart 命令启动或停止多个工作程序。我们正在尝试使用 systemd 实现相同的功能。
我尝试过为每个工作人员使用一个 systemd 单元,因此如果我们尝试管理 6 个工作人员,我们将使用 6 个独立的 systemd 单元脚本,每个工作人员一个。然后我们使用 bash 脚本来触发:
systemctl start|stop|restart worker-1.service &
systemctl start|stop|restart worker-2.service &
...
问题在于,当我们通过 systemctl 发送终止信号时,它会立即终止父级 resque 进程,导致任何分叉的子进程立即死亡,而不是在死亡之前完成其工作。我们能够使用 upstart 来实现这种确切的行为,其中父进程不会接受新作业(将停止分叉),并且在作业完成子工作进程之后,允许子工作进程在工作时保持活动状态会自行死亡。
在 systemd 下,worker 都会立即死亡,并且作业在完成之前会中途终止。
我们的 systemd 单元脚本如下所示:
[Unit]
Description=Controls a single Resque worker process: worker-1
After=redis.service
[Service]
Restart=on-failure
RestartSec=10
StartLimitInterval=400
StartLimitBurst=5
KillSignal=SIGQUIT
User=www-data
WorkingDirectory=/app/working/dir
Type=single
ExecStart=/usr/bin/bundle exec rake production resque:work QUEUE=a,b,c,d,e,f
ExecStop=/bin/kill -QUIT $MAINPID
[Install]
WantedBy=multi-user.target
我尝试将 Type=single 更改为 Type=forking,但该进程不会保持运行,它会尝试启动,然后当没有可用作业时,因为父进程仅在有作业时分叉,该进程就会终止并失败熬夜。当 Type=simple 时,流程按预期工作,但如上所述,我们无法像对待新贵那样优雅地控制它们。
我们的 bash 脚本如下所示:
systemctl $COMMAND resque-worker-1.service &
每个worker服务都有一个命令。 $COMMAND 只是传递给脚本 (start|stop|restart) 的参数。
之前使用的暴发户脚本:
从运行级别开始 [2345] 停止在运行级别 [06]
杀死信号QUIT
我想我自己解决了这个问题。通过删除此指令:
ExecStop=/bin/kill -QUIT $MAINPID
当我现在发出 systemctl stop resque-worker-n.service 时,它会优雅地等待作业完成,然后再杀死工作线程。
注意到某些工作仍会立即退出,因此添加了此指令:
KillMode=process
但后来注意到,当稍后重新启动工作程序时,“已完成”的作业被 resque 视为可排队,因此会再次错误地排队。所以添加了这个指令:
SendSIGKILL=no
现在的行为似乎与我们之前使用 upstart 时的行为相同。
我们遇到了同样的问题,您的解决方案有效,但它无法正确管理退出状态,并会导致
Resque::DirtyExit
。
为什么会造成DirtyExit
?好吧,问题是,通过这种方式,信号将被发送到每个进程,而父进程会做错误的事情。我附上我工作过的最好的模板:
[Unit]
Description=Resque service
After=network.target
Type=forking
User=ec2-user
# change this to your working directory
WorkingDirectory=.../current
# define the queues sorted by the priority you want to them work
Environment=QUEUE=a,b,c
Environment=RAILS_ENV=production
Environment=VERBOSE=1
# shall be a folder that doesn't change with deploy
Environment=PIDFILE=.../shared/pids/resque.pid
Environment=COUNT=1
# this is to ask to resque to start workers and exit after, this is fundamental
Environment=BACKGROUND=yes
# Systemd require an absolute path, it can relay on a symlink, current is a symlink
ExecStart=.../current/bin/bundle exec rails resque:workers
TimeoutSec=120
# as per Resque documentation, use SIGQUIT signal to graceful exit workers
KillSignal=SIGQUIT
# as we want Systemd to relay on effective workers
RemainAfterExit=yes
# Systemd shall send the KillSignal to all remaining processes
ExitType=cgroup
[Install]
WantedBy=multi-user.target
我希望清楚谁会来这里尝试了解它应该如何运作。必须阅读大量有关 Systemd 的文档才能创建这个。