parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何使用 C++ 从 parquet 文件中读取“date32[day]”类型?

我收到了一个具有以下架构的镶木地板文件: 名称:串 标识:字符串 日期:date32[日] 事件时间戳:时间戳[us] 我使用一个简单的 python 脚本转储了模式: #! /我们...

回答 1 投票 0

pymilvus 导入数据失败,镶木地板读取器失败

我正在按照步骤从导入数据将数据导入到 milvus db。 下面是我创建架构和准备数据的脚本。 milvus_db/import_test.py 随机导入 导入字符串 从 pymilvus 导入

回答 1 投票 0

GUI 或 CLI 创建镶木地板文件

我想为与我一起工作的人提供一个工具来创建 parquet 文件,以用于读取和处理此类文件的模块的单元测试。 我使用ParquetViewer查看parquet fi的内容...

回答 3 投票 0

仅使用一个 row_group 对 parquet 文件进行采样

我正在处理一个包含超过 3000 万行的巨大镶木地板文件。我只需要其中的一小部分,并希望选择一些随机选择的行。当我检查文件的元数据时,有...

回答 1 投票 0

如何使用Pyspark读取DeltaLake表

我在AWS S3存储桶中有一个deltalake表(镶木地板格式)。我需要在笔记本代码中使用 Pyspark 在数据框中读取它。 我尝试在网上搜索但尚未成功。谁能分享一下样品吗...

回答 2 投票 0

如何在 ChoParquetReader 方法中传递 Azure blob 文件路径 url?

根据链接,我能够从本地文件夹传递镶木地板文件,并能够将数据转换为 json 格式。下面是示例代码 MemoryStream jsonMs = new MemoryStream(); 使用 (var r = new

回答 1 投票 0

在超出集群资源的大型数据帧上优化 PySpark 代码

我有一个大型 PySpark 数据框,包含 2.5 亿行,只有 2 列。我正在运行此处找到的 minHash 代码。我尝试通过 adj_sdf.write 将生成的数据帧写入镶木地板文件。

回答 1 投票 0

写入 Delta 表 Spark 3.5.3 Delta Lake 3.2.0

我似乎无法使用 Spark 作业中的 Delta 格式进行编写,但我不确定我错过了什么。我正在使用 Spark 3.5.3 和 Deltalake 3.2.0。 我的错误: 线程“main”组织中出现异常。

回答 1 投票 0

重命名的列从现有数据中返回 null

我正在试验 Apache Iceberg,并试图了解列重命名的工作原理。在我的场景中,我正在使用存储在 AWS S3 中的现有 Parquet 文件数据湖。我的目标是创造

回答 1 投票 0

将新列附加到现有镶木地板文件

有什么方法可以将新列附加到现有的镶木地板文件中吗? 我目前正在参加 Kaggle 比赛,我已将所有数据转换为镶木地板文件。 情况就是这样,我读了

回答 4 投票 0

如何使用 pyarrow 编写 Parquet 元数据?

我使用 pyarrow 创建和分析包含生物信息的 Parquet 表,我需要存储一些元数据,例如数据来自哪个样本,如何获取和处理。 镶木地板...

回答 3 投票 0

如何将parquet数据集的一部分读入pandas?

我有一个巨大的数据框,想将其分割成小文件以获得更好的性能。这是要编写的示例代码。但我不能只从中读取一小部分而不加载整个数据框

回答 1 投票 0

将 parquet 文件中的读取列表发出到数据框中,在 MacOS 上显示为“无”,但适用于 Windows

我有许多带有定价数据的镶木地板文件,出价和要价以及尺寸存储为浮点值列表 例如 出价\ 0 [4.

回答 1 投票 0

org.apache.parquet.schema.InvalidSchemaException:无法使用空组编写模式

我正在从 ADF 中的 API 提取响应,我使用 COPY 活动源作为 REST API,并使用接收器作为 ADLS Gen2 Parquet。当我调试复制活动时,它因以下原因而失败。 这是回复...

回答 1 投票 0

尽管路径正确,DuckDB 仍不读取 Parquet 文件

我正在尝试在 VS Code 中运行的 Jupyter 笔记本中使用 DuckDB 读取大型 Parquet 文件。我的目标是直接从 Parquet 文件查询数据的子集,而不加载整个数据

回答 1 投票 0

高效读取部分分区数据集

我有相当大(高达~300Gb)的数据集,由镶木地板格式(压缩)的分区存储。 我正在尝试找到一种有效的方法来将数据集的各个部分(由一组过滤器定义)读入

回答 1 投票 0

读取数据并将数据写回同一个表 [UNSUPPORTED_OVERWRITE.TABLE]

我无法让我的 PySpark 应用程序将更新的 DataFrame 写入持久 Parquet 存储。 我尝试读取和写入存储的表 我遵循了创建的通常步骤...

回答 1 投票 0

从 Spark 中的 parquet 文件读取特定列的有效方法

从具有许多列的 parquet 文件中仅读取 Spark 中列的子集的最有效方法是什么?正在使用spark.read.format("parquet").load().select(...col1, col2...

回答 4 投票 0

Pyspark 以分布式方式循环遍历值

我有以下使用Azure databricks(pyspark)开发的要求。 调用 Azure SQL 数据库以从表中读取列。 对于每个列值,请阅读上面的内容,调用 REST API,其中

回答 1 投票 0

读取或写入 Parquet 格式数据时出错

我创建了一个指向具有镶木地板存储的 Azure ADLS 的外部表,在将数据插入该表时出现以下错误。我正在使用 Databricks 来执行 org.apa...

回答 6 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.