Apache Beam每用户会话窗口未合并

问题描述 投票:2回答:1

我们有一个拥有用户的应用程序;每个用户使用我们的应用程序,每次使用10-40分钟,我想根据发生的特定事件(例如“此用户转换”,“此用户)计算每次会话的事件分布/事件的发生情况上次会话有问题“,”这个用户上次会话成功了“)。

(在此之后,我想每天计算这些更高级别的事件,但这是一个单独的问题)

为此,我一直在研究会话窗口;但所有docs似乎都面向全局会话窗口,但我想为每个用户创建它们(这也是一个自然的分区)。

我在找到如何做到这一点的文档(python首选)时遇到了麻烦。你能指出我正确的方向吗?

或者换句话说:如何创建可以输出更多结构化(丰富)事件的每用户每会话窗口?

是)我有的

class DebugPrinter(beam.DoFn):
  """Just prints the element with logging"""
  def process(self, element, window=beam.DoFn.WindowParam):
    _, x = element
    logging.info(">>> Received %s %s with window=%s", x['jsonPayload']['value'], x['timestamp'], window)
    yield element

def sum_by_event_type(user_session_events):
  logging.debug("Received %i events: %s", len(user_session_events), user_session_events)
  d = {}
  for key, group in groupby(user_session_events, lambda e: e['jsonPayload']['value']):
    d[key] = len(list(group))
  logging.info("After counting: %s", d)
  return d

# ...

by_user = valid \
  | 'keyed_on_user_id'      >> beam.Map(lambda x: (x['jsonPayload']['userId'], x))

session_gap = 5 * 60 # [s]; 5 minutes

user_sessions = by_user \
  | 'user_session_window'   >> beam.WindowInto(beam.window.Sessions(session_gap),
                                               timestamp_combiner=beam.window.TimestampCombiner.OUTPUT_AT_EOW) \
  | 'debug_printer'         >> beam.ParDo(DebugPrinter()) \
  | beam.CombinePerKey(sum_by_event_type)

什么输出

INFO:root:>>> Received event_1 2019-03-12T08:54:29.200Z with window=[1552380869.2, 1552381169.2)
INFO:root:>>> Received event_2 2019-03-12T08:54:29.200Z with window=[1552380869.2, 1552381169.2)
INFO:root:>>> Received event_3 2019-03-12T08:54:30.400Z with window=[1552380870.4, 1552381170.4)
INFO:root:>>> Received event_4 2019-03-12T08:54:36.300Z with window=[1552380876.3, 1552381176.3)
INFO:root:>>> Received event_5 2019-03-12T08:54:38.100Z with window=[1552380878.1, 1552381178.1)

所以你可以看到; Session()窗口不会扩展Window,但只将非常接近的事件组合在一起......做错了什么?

python google-cloud-dataflow apache-beam
1个回答
0
投票

您可以通过在窗口后添加“按键分组”转换来使其工作。您已经为记录分配了密钥,但实际上没有通过密钥和会话窗口(按每个键工作)将它们组合在一起,并不知道这些事件需要合并在一起。

为了证实这一点,我做了一个可重复的例子,其中包含一些内存中的虚拟数据(以便将Pub / Sub与问题隔离开来,并能够更快地测试它)。所有五个事件将具有相同的密钥或user_id,但它们将相互“分开”1,2,4和8秒“到达”。当我使用5秒的session_gap时,我希望将前4个元素合并到同一个会话中。第五场比赛将在第四场比赛结束后8秒钟进行,因此必须降级到下一场比赛(差距超过5秒)。数据创建如下:

data = [{'user_id': 'Thanos', 'value': 'event_{}'.format(event), 'timestamp': time.time() + 2**event} for event in range(5)]

我们使用beam.Create(data)初始化管道和beam.window.TimestampedValue来分配“假”时间戳。同样,我们只是模拟流媒体行为。在那之后,我们通过user_id字段创建键值对,我们在window.Sessions窗口,我们添加缺少的beam.GroupByKey()步骤。最后,我们使用稍微修改过的DebugPrinter版本记录结果:管道现在看起来像这样:

events = (p
  | 'Create Events' >> beam.Create(data) \
  | 'Add Timestamps' >> beam.Map(lambda x: beam.window.TimestampedValue(x, x['timestamp'])) \
  | 'keyed_on_user_id'      >> beam.Map(lambda x: (x['user_id'], x))
  | 'user_session_window'   >> beam.WindowInto(window.Sessions(session_gap),
                                             timestamp_combiner=window.TimestampCombiner.OUTPUT_AT_EOW) \
  | 'Group' >> beam.GroupByKey()
  | 'debug_printer'         >> beam.ParDo(DebugPrinter()))

其中DebugPrinter是:

class DebugPrinter(beam.DoFn):
  """Just prints the element with logging"""
  def process(self, element, window=beam.DoFn.WindowParam):
    for x in element[1]:
      logging.info(">>> Received %s %s with window=%s", x['value'], x['timestamp'], window)

    yield element

如果我们在没有按键分组的情况下测试它,我们会得到相同的行为:

INFO:root:>>> Received event_0 1554117323.0 with window=[1554117323.0, 1554117328.0)
INFO:root:>>> Received event_1 1554117324.0 with window=[1554117324.0, 1554117329.0)
INFO:root:>>> Received event_2 1554117326.0 with window=[1554117326.0, 1554117331.0)
INFO:root:>>> Received event_3 1554117330.0 with window=[1554117330.0, 1554117335.0)
INFO:root:>>> Received event_4 1554117338.0 with window=[1554117338.0, 1554117343.0)

但在添加之后,窗口现在可以正常工作了。事件0到3在扩展的12s会话窗口中合并在一起。事件4属于单独的5s会话。

INFO:root:>>> Received event_0 1554118377.37 with window=[1554118377.37, 1554118389.37)
INFO:root:>>> Received event_1 1554118378.37 with window=[1554118377.37, 1554118389.37)
INFO:root:>>> Received event_3 1554118384.37 with window=[1554118377.37, 1554118389.37)
INFO:root:>>> Received event_2 1554118380.37 with window=[1554118377.37, 1554118389.37)
INFO:root:>>> Received event_4 1554118392.37 with window=[1554118392.37, 1554118397.37)

完整代码here

另外两件事值得一提。第一个是,即使在使用DirectRunner的单个机器上本地运行它,记录也可能无序(在我的情况下,event_3在event_2之前处理)。这是为了模拟here记录的分布式处理。

最后一个是如果你得到这样的堆栈跟踪:

TypeError: Cannot convert GlobalWindow to apache_beam.utils.windowed_value._IntervalWindowBase [while running 'Write Results/Write/WriteImpl/WriteBundles']

从2.10.0 / 2.11.0 SDK降级到2.9.0。例如,请参阅此answer

© www.soinside.com 2019 - 2024. All rights reserved.