我们使用数据的方式是从其他组织中获取调查数据,或者是自己创建调查工具并向我们组织下的组织征集数据。
我们有一个数据库,其中最大的表可能是1000万条记录。我们每年提取和上载大多数数据,偶尔需要对来自人口普查,美国社区调查等组织的大量表进行ETL。我们的数据库全部位于Azure上,目前是我获取数据库的方式通过将普查文件/.csv文件重新保存为Excel并使用Excel导入向导来删除它们。
ETL中的所有“ T”都发生在我的登台数据库中的编程过程中,然后将这些表(使用Visual Studio)移动到我们的报表数据库中。
我应该使用更先进的技术吗?如果是,那是什么?我在这方面的所有教育都来自于细读Google和观看YouTube,因此我缺乏对所有不同术语的掌握,并且在Internet上搜索ETL使得很难找到我认为应该是一个简单的答案。
一段时间以来,我以为我们想最终毕业于使用SSIS,但是我了解到,如果您在prem上有一个数据库,则SSIS主要用于此用途。我尝试使用BULK INSERT查看动态SQL,以发现BULK INSERT无法与Azure数据库一起使用。等
最近,我一直在学习有关Azure数据工厂以及使用Windows Power Shell进行的大容量复制程序的知识。
对于小规模的BI报告解决方案,我应该考虑采用哪种技术?有人对此提出建议吗?
我建议您使用Data Factory,它对于大数据传输具有良好的性能。
此处引用:Copy performance and scalability achievable using ADF
[Copy Active支持您使用表数据,查询或存储过程来过滤源中的数据:
接收器支持,您选择目标表,存储过程或自动创建表(批量插入)以接收数据:
数据工厂Mapping Data Flow为数据转换提供更多功能。
参考:Copy and transform data in Azure SQL Database by using Azure Data Factory。
希望这会有所帮助。