我的应用程序是一个bash脚本,在tesseract
上运行GNU parallel
。我需要处理的数据是50GB。如果我做一个VM,它太慢了。我需要集群计算的强大功能,但我不想自己设置多个虚拟机,而只是想在Google集群上启动我的APP(以及数据文件)(Kubernetes?)。我对这些概念没有太多的清晰度。如果有人可以指导这将是伟大的。
当您只关心这一个用例时,从头开始学习所有容器编排细节可能是一个挑战。
虽然GNU Parallel在一台机器上很不错,但似乎没有很多入门套件可以在云中以分布式模式使用它。
我会考虑使用google dataflow,而不是考虑使用K8S群集。它可以轻松分配和清理,并允许您避免管理VM和学习编排框架。