spark spark而不是java REST API

问题描述 投票:0回答:2

我们有一个现有的应用程序,它从休息端点接收数据。是否进行了一些过滤和操作并将其存储到redis(内存数据库中)。发送者是接收者(这里接收者是从蓝牙信标接收数据并将数据发送到休息端点的设备),有效载荷不大,但频率很高(每秒数万)。这个时候chocs应用程序。

由于spark被认为是流处理的一个很好的候选者,我们的计划是保持端点相同(因为更改端点需要在所有地理位置的所有接收器中手动更改它)并在其余应用程序中以某种方式使用spark来处理并以有效的方式插入数据。

Spark小批量作业将是一个问题,因为我们必须在应用程序内以某种方式将数据存储在那个短时间内,为此我们必须实现一些Q,增加复杂性。

任何人都可以展示一些见解

rest apache-spark redis jax-rs spark-streaming
2个回答
1
投票

它还不可能,你需要一个队列或某种微型缓冲区的缓冲区,没有什么像每个记录处理,可能在未来的版本中可用。阅读第20章。流处理基础知识。你会明白一点


0
投票

这种情况很常见,我有一些建议。

堆栈建议:

  • Spark Streaming
  • 卡夫卡

上面的堆栈:

  • 您的端点未更改。使用新实现而不是流程数据,您的端点将向Kafka主题发布数据。
  • Spark Streaming将订阅Kafka主题,过滤和操作并将其存储到Redis

Sample Spark + Kafka

© www.soinside.com 2019 - 2024. All rights reserved.