如何将数据从生产集群传输到datalab集群进行实时数据分析?

问题描述 投票:0回答:2

我们正在使用mapr,我们想部署一个新的(datalab)集群,我问的是将数据从生产集群传输到datalab集群的最佳方法?

我们在两个集群之间使用了镜像,但是使用这个选项我们只在数据库中读取数据,那么我们如何实时传输数据呢?

hadoop bigdata mapr
2个回答
1
投票

您可以使用以下选项:

  • Distcp.But在相同的.Refer here中支持某些协议
  • 如果您使用的是hbase,则可以使用快照功能.Refer here
  • 或者,您可以使用数据库实用程序来创建转储。例如,如果您使用的是mysql,那么使用mysqldump -u [username]-p [pass][dbname]| gzip > file.sql.gz然后您可以将其移动到其他服务器scp username@<ip>:/<source>/file.sql.gz <destination>/
  • 或者,您可以使用Apache falcon,它使用oozie工作流在集群之间复制数据。您可以设置一次性工作流并执行它

1
投票

如果你只想要一个FS.a ==> FS.b“实时”管道,我所知道的最佳选择是Apache NiFi或StreamSets,因为不需要编码。

Flume可能是另一种选择,因为它已经在大多数Hadoop供应商环境中可用。

如果您更注重开发,可以使用Spark或Flink。

DistCP on an Oozie schedule是故障安全解决方案

© www.soinside.com 2019 - 2024. All rights reserved.