首先我意识到狭窄的事实表是理想的情况。
我正在设计一个医疗保健数据仓库,专门用于将其引入 Power BI。我遇到的问题是,我有超过 100 个不同的指标包含在一份报告中。大多数数据来自这样的来源:
医院 | 医院ID | 日期 | 说明 | 数字 |
---|---|---|---|---|
儿童医院 | 20192 | 1/2/2021 | 需要床位 | 8 |
儿童医院 | 20192 | 1/2/2021 | 新冠患者 | 2 |
我们目前使用逻辑在 PowerBI 中像这样提取每个指标:
需要的床数=IF(描述=“需要的床数”,数字,0)
我们针对业务领导者需要的 100 多个指标执行此操作。我的问题是,我有两种方法可以考虑这样做:
选项1:
我们将上面的逻辑放入数据库,并让每个指标成为它自己的列。
日期 | 住院医生 | 需要床位 | 新冠患者 |
---|---|---|---|
1/2/2021 | 20192 | 8 | 2 |
选项2:
我这样设置事实表:
日期 | 医院ID | 描述id | 数字 |
---|---|---|---|
1/2/2021 | 20192 | 12 | 8 |
1/2/2021 | 20192 | 11 | 2 |
然后像这样创建一个维度表:
说明 | 描述ID |
---|---|
需要床位 | 12 |
新冠患者 | 11 |
我目前拥有的表格(以第一个表格的格式)每个大约有 200k 行,其中有 4 个。有一张表提供了大约 2000 万行的指标。
选项 2 是更清洁的版本。一个大的事实表将比文本更好地存储数字。
对于 20mm 行的事实表,您可以使用增量刷新将其拉入。