我认为这是一个非常普遍的问题,希望有一些我们可以重用的解决方案/方法。
我们正在使用Azure ADLS gen2构建数据湖,具有单向数据流:Nifi/ADF -> ADLS -> ETL/Spark/Databricks -> Data Warehouse -> Power BI
。负责的业务用户应每周/每月加载/更新某些ETL输入。
您能为企业用户提供符合以下要求的ETL输入建议/改进解决方案吗?
需求的实现程度从1(非常差的做法)估计到5(100%干净,易于实施的解决方案)。
Upload files from Power Apps to Data Warehouse.流量:Business users -> Power Apps -> Data Warehouse & Stored Procedures -> ADLS -> Spark -> Data Warehouse -> Power BI
。
DW -> ADLS -> DW
。难以推理和协调。 在ADLS事件/触发器上使用Spark / Databricks。流量:Business users -> Microsoft Storage Explorer app -> ADLS gen2 -> Azure Blob Storage trigger -> Azure Function -> Spark parsing/validation job -> ADLS gen2
我了解您正在寻找具有以下功能(按优先级排序)的单向ETL流程/体系结构:
用户友好的定义也有点含糊,因为用户最终将习惯于使用不直观的工具-您可以例如强迫他们参加课程。我知道业务用户根本不喜欢使用例如Power BI,但他们没有任何选择not
我的一般经验是,根据业务需求量身定制的前端可以使用户开心得多,这要比让他们使用庞大的多合一瑞士军刀,用户在日常业务中仅使用其中一些功能的情况要好得多。 。我从未见过使用PowerApps,但是从他们的网站和https://alternativeto.net/software/microsoft-powerapps/那里得到的是那是一种低代码的应用程序/ UI构建平台。
我个人会使用具有大量用户社区的低代码工具,例如Tableau,Qlik或Appian。我与它们都不相关,但是我设法将它们全部快速连接到SQL数据库,这就是为什么我提到这三个。
您说过
Storage Explorer具有足够的用户友好界面,并且实现成本为零。唯一需要关注的是验证反馈和审核。为了减轻验证-我们可能会为业务用户创建一些Excel模板之王。
所以我想您可能会选择这种解决方案,但我绝不会牺牲审计。与备份类似,通常仅在发生以下情况时才知道没有备份或审核的实际成本是多少。如果发生网络攻击或white collar crimes,企业通常非常需要日志文件。