如何将数据从生产集群传输到datalab集群进行实时数据分析？

问题描述投票：0回答：2

我们正在使用mapr，我们想部署一个新的（datalab）集群，我问的是将数据从生产集群传输到datalab集群的最佳方法？

我们在两个集群之间使用了镜像，但是使用这个选项我们只在数据库中读取数据，那么我们如何实时传输数据呢？

hadoop bigdata mapr

2个回答

1
投票

您可以使用以下选项：

Distcp.But在相同的.Refer here中支持某些协议
如果您使用的是hbase，则可以使用快照功能.Refer here
或者，您可以使用数据库实用程序来创建转储。例如，如果您使用的是mysql，那么使用mysqldump -u [username]-p [pass][dbname]| gzip > file.sql.gz然后您可以将其移动到其他服务器scp username@<ip>:/<source>/file.sql.gz <destination>/
或者，您可以使用Apache falcon，它使用oozie工作流在集群之间复制数据。您可以设置一次性工作流并执行它

1
投票

如果你只想要一个FS.a ==> FS.b“实时”管道，我所知道的最佳选择是Apache NiFi或StreamSets，因为不需要编码。

Flume可能是另一种选择，因为它已经在大多数Hadoop供应商环境中可用。

如果您更注重开发，可以使用Spark或Flink。

DistCP on an Oozie schedule是故障安全解决方案

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.