我如何设计我的数据仓库来处理迟到的数据源?

问题描述 投票:1回答:1

您好,我正在为客户开发MS SQL Server 2017 Standard Edition数据仓库,遇到了我要寻求建议的挑战。

我有一个相当大的事实表来保存零售交易(每天约250万行,已有3年的历史)。事实表的大部分来自一个来源-直到系统。因此,我们目前有一个ETL流程,用于从该系统加载数据,对其进行建模以查找代理键等,并每小时每小时将其加载到事实表中。该表具有群集的列存储索引,以确保在BI工具中具有良好的性能。

现在,客户拥有他们想要集成的忠诚度应用程序系统。该系统通过每日CSV提取数据向我们发送数据。摘录包含应用交易的详细信息以及通过该应用获取的相关报价,并包含与我们事实表中已持有的交易ID相匹配的公共交易ID。

如果这些源一起到达,我将为新的维表建模-DimAppOffer或类似的维,并使用这两个源来查找与每个交易相关联的要约,并在事实表上具有AppOfferKey。但是,由于该CSV文件每天仅到达一次,并且每小时加载一次交易,因此当我从忠诚度应用程序获取数据时,所有关联的交易已经存在于事实表中。]

您认为我应该如何在ETL中处理此问题?如果可以避免的话,我特别不想对群集的列存储索引运行较大的更新,但是看不到其他解决方法?任何意见,将不胜感激。

[您好,我正在为客户开发MS SQL Server 2017 Standard Edition数据仓库,遇到了我正在寻求建议的挑战。我有一个存放零售的相当大的事实表...

sql-server database-design data-warehouse columnstore
1个回答
0
投票

如果可以避免的话,我特别不希望对集群的列存储索引进行大型更新,但是看不到其他解决方法?

© www.soinside.com 2019 - 2024. All rights reserved.