如何将所有文件从blob存储容器导入和处理到azure数据库

问题描述投票：0回答：1

我正在使用azure databricks和blob存储。我有一个存储帐户，每小时存储来自物联网设备的数据。所以文件夹结构是{年/月/日/小时}它将数据存储为csv文件。我的要求是，需要每天从azure databricks访问文件（因此将有从t-23开始的24个文件夹）并且需要执行一些计算。

azure databricks azure-blob-storage

1个回答

0
投票

为了在wasb容器下处理许多文件，您需要使用Hadoop输入格式glob模式。模式如下，有点类似于正则表达式：

* (match 0 or more character)
? (match single character)
[ab] (character class)
[^ab] (negated character class)
[a-b] (character range)
{a,b} (alternation)
\c (escape character)

对于您的用例，以下内容应该有效：

df = spark.read.format("csv").load("/container/*/*/*/*.csv")

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.