在'from_delayed'JSON文件中找到DASK元数据不匹配

问题描述 投票:0回答:1

我刚刚开始我的DASK冒险和土地我正在学习json格式的示例数据集。我知道这对于初学者来说不是世界上最简单的数据格式:)

我有一个json格式的数据集。我通过dd.read_json将数据加载到数据帧,一切顺利。问题出现在,例如,compute()len()函数。

我收到此错误:

ValueError: Metadata mismatch found in `from_delayed`.

Partition type: `DataFrame`
+----------+-------+----------+
| Column   | Found | Expected |
+----------+-------+----------+
| column1  |   -   | object   |
| column2  |   -   | object   |
+----------+-------+----------+

我尝试了不同的东西,但没有任何帮助。我不知道如何处理这个错误。

请帮忙,我将非常感激!

python dataset bigdata dask
1个回答
3
投票

我的猜测是你的JSON数据在数据的不同部分有不同的列。当Dask DataFrame加载您的JSON数据时,它会查看第一个数据块以确定列名和数据类型。然后假设您的所有数据都是这样的。

在您的情况下,这个假设被证明是错误的,并且可能有一些列仅在文件中稍后出现。

在确定像列名这样的元数据时,您可以考虑增加Dask读取的样本的大小。

df = dd.read_json(..., sample=2**26)

默认值为1MB(2 ** 20)

© www.soinside.com 2019 - 2024. All rights reserved.