首先,我对这个标题感到抱歉...一旦有人回答并且我明白我的实际问题是什么,我就会提出一个更好的。
我正在创建一个事实表,用于衡量与学校相关的资源量:
学校数量
学生人数
员工人数
电脑数量(行政用及学生用)
FACT_SCHOOL_RESOURCES
学校(外籍)
地点(国外)
教育类型 (FK)
学校总数*
学生总数
员工总数
学生计算机总数
总计_管理_计算机
*在学校数量中,每行都有相同的值(1)。
我的问题是,有一些与学校相关的“基础设施”问题,我实际上不能将其作为其属性之一(名为“基础设施”的属性),因为有不止一种类型(能源、水)来源、废物处理...)并且我不能将每种类型用作属性,因为对于每种类型,我与我的学校维度具有多对多关系,例如:
电源
太阳能电池板
发电机
城市能源供应
...
废物处理
垃圾填埋场
焚烧
回收
堆肥
废物变能源
...
使用这些示例,学校可以同时拥有垃圾填埋场和回收站,因为它是废物处理或利用城市能源供应,同时使用发电机或太阳能电池板。
所有这些都是必要的,因为研究表明其中一些问题(以及许多我没有提到的其他问题)与“教学质量”有关,并且应该有一种方法来分析这一切。
在星型模式上解决此问题的最佳方法是什么?可以吗?
我认为您正在寻找超越星型模式的东西。如果您想对哪些因素与某些指标(例如教学质量)最相关进行多变量分析,那么您可能需要考虑立方体。
将每种类型的电源和废物处理的存在视为一个属性。也许您可以从每个因素的二进制标志这样简单的事情开始。然后,您可以使用立方体中的不同切片来测试指标和因子之间的相关性。
您启动的 RDBMS 将有一百万块并将它们聚合到您想要的位置,您从一块开始并将其分解到您想要的位置的立方体,基本上您最终会得到相同的答案,仅取决于您是向上还是向下钻取: )