我们正在使用mapr,我们想部署一个新的(datalab)集群,我问的是将数据从生产集群传输到datalab集群的最佳方法?
我们在两个集群之间使用了镜像,但是使用这个选项我们只在数据库中读取数据,那么我们如何实时传输数据呢?
您可以使用以下选项:
mysqldump -u [username]-p
[pass][dbname]| gzip > file.sql.gz
然后您可以将其移动到其他服务器scp username@<ip>:/<source>/file.sql.gz <destination>/
如果你只想要一个FS.a ==> FS.b“实时”管道,我所知道的最佳选择是Apache NiFi或StreamSets,因为不需要编码。
Flume可能是另一种选择,因为它已经在大多数Hadoop供应商环境中可用。
如果您更注重开发,可以使用Spark或Flink。
DistCP on an Oozie schedule是故障安全解决方案