建模场景主要是半加性事实

问题描述 投票:0回答:1

我正在学习维度建模,我试图创建一个模型。我在考虑一个评价酒店的社交媒体平台。该平台有以下数据:

  • 酒店信息:姓名和地址
  • 用户可以评价酒店(1-5分)
  • 用户可以写评论
  • 平台存储评论的日期
  • 酒店可以通过评论回答,并存储它的日期
  • 平台存储每个评级等级的总数(即:所有费率为1分,所有费率为2分等)
  • 平台存储用户的信息:性别,姓名,他/她的总票数和地址

首先,我尝试定义哪些信息属于维度或事实表 (这里我还检查了哪一种是添加剂/半添加剂/非添加剂)

我意识到我的例子很难,因为很难确定它是属于事实表还是维度。

我想听听一些建议。有人会同意我的模特吗?

我就是这样建模的:

  • 酒店信息 - >酒店维度
  • 用户评级 - >附加事实 - 因为我可以将它们与所有维度聚合在一起
  • 用户评论 - >半添加剂? - 因为我可以用日期维度聚合它们(我不知道我的论证是否正确,但我知道我每天都会有新的评论,这对我来说是一个理由将它存储在事实表中
  • 作为评论回答 - >与用户评论相同的处理
  • 评论日期 - >维度
  • 所有选票的总数(1/2/3/4/5) - >半加性事实 - 将它们合计是没有意义的,因为它已经完全但我会得到平均值
  • 用户信息性别和姓名,地址 - >用户维度
  • 用户信息:总票数 - >可以是维度或事实。这取决于它改变的频率。如果它经常变化,我将它存储在一个事实中。如果它不经常那么,那么维度

我还有疑问,希望有人可以帮助我:

我的问题:我应该创建两个日期维度,还是可以将这两个信息存储在一个日期维度中?

第二个问题:每个用户和酒店只有一个地址。是否存在参数,以在自己的层次结构中分离地址维度?我可以创建与用户维度和地址维度的1:1关系吗?

erd dimensional-modeling star-schema
1个回答
1
投票

对于您的模型,它看起来很好,但这里有一些想法:

用户评论(和评论的答案):它们是一个被捕获的事件(每天都有新的事件,如你所述)所以是事实的,评论者的维度,评论的类型,日期和度量至少是'count'是加法的。但是你不希望将大文本存储在一个事实中,因此你需要将它放在一个维度中,这个事实是1:1,对于需要查询注释本身的情况。

如你所说,总票数(1/2/3/4/5)已经汇总,主要是为了表现。原始数据本身应该很容易,所以可能根本不值得存储它们。您还可以考虑使用列进行更新酒店维度(酒店A有5'1'票和4'2'票),您可以随时更新,以便于过滤和分类。

用户信息:总票数:它是关于用户的事实信息(维度),它取决于您是否总是只想“找出”某个人,或者您是否可能使用它来过滤其他信息(即告诉我所有评论已经10-20票的用户)。在这种情况下,您可以将总数存储在用户维度中(和/或条带,例如“评论范围的数量”,10-20,20-30)。如果需要,您可以经常更新尺寸,但是你是对的,它仍然只能作为一个事实。

至于日期维度,如果'grain'是'day',那么你只需要一个维度,你可以从多个事实中引用。

至于地址,你是对的,双方都有争论!许多人将地址分成他们自己的维度,从使用它们的其他维度引用。 Kimball建议您可以在必要时在幕后执行此操作,但更喜欢每个维度都有自己的一组地址列(尽可能一致地建模)。

© www.soinside.com 2019 - 2024. All rights reserved.