我有以下用于构建Data Lake的用例(例如在Azure中:]
我的组织与破产的公司打交道。公司破产后,需要将其所有数据交给我们,包括结构化数据(例如CSV)以及半结构化和非结构化数据(例如PDF,Word文档,图像,JSON,.txt文件等)。 )。拥有数据湖将对您有所帮助,因为数据量可能很大且无法预测,Azure Data Lake似乎是一种成本相对较低且可扩展的存储解决方案。
但是,除了存储所有这些数据外,我们还需要为业务用户提供一个工具,使他们能够搜索所有这些数据。我可以想象两种搜索类型:
是否有任何可用的工具可以将Azure Data Lake用作使用户能够执行此类搜索的数据源?
很遗憾,目前没有工具可以直接在Data Lake中过滤文件。
甚至Azure Storage Explorer仅支持按前缀搜索。
Data Factory支持我们过滤文件,但通常用于复制和传输数据。参考:Data Factory supports wildcard file filters for Copy Activity
希望这会有所帮助。