如何将所有文件从blob存储容器导入和处理到azure数据库

问题描述 投票:0回答:1

我正在使用azure databricks和blob存储。我有一个存储帐户,每小时存储来自物联网设备的数据。所以文件夹结构是{年/月/日/小时}它将数据存储为csv文件。我的要求是,需要每天从azure databricks访问文件(因此将有从t-23开始的24个文件夹)并且需要执行一些计算。

azure databricks azure-blob-storage
1个回答
0
投票

为了在wasb容器下处理许多文件,您需要使用Hadoop输入格式glob模式。模式如下,有点类似于正则表达式:

* (match 0 or more character)
? (match single character)
[ab] (character class)
[^ab] (negated character class)
[a-b] (character range)
{a,b} (alternation)
\c (escape character)

对于您的用例,以下内容应该有效:

df = spark.read.format("csv").load("/container/*/*/*/*.csv")
© www.soinside.com 2019 - 2024. All rights reserved.