parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

对 PyArrow Parquet 文件进行分区并将其写入数据集

我有一个 PyArrow Parquet 文件太大,无法在内存中处理。因为数据可以很容易地划分到不同的分片中,所以我想手动对其进行划分并创建一个 PyArrow 数据集...

回答 1 投票 0

OSError:无法反序列化thrift:没有更多数据可供读取。反序列化页眉失败

我正在从事件中心获取数据并将其上传到带有 blob_type AppendBlob 的 blob,它会正确附加,但是当我下载并尝试读取该镶木地板文件时,它会显示此错误 OSError:

回答 1 投票 0

java.lang.NoSuchFieldError:尝试运行 Apache Arrow 示例程序时,chunkSize 可见

当尝试运行 Apache arrow 网站上的第一个 Java 示例程序时,在 this.chunkSize = this.directArenas[0].chunkSize; 行中可以看到 No such field error for chunkSize; 完整的电子...

回答 1 投票 0

如何通过模式自动检测将 Parquet/AVRO 加载到 Snowflake 中的多个列中?

当尝试将 Parquet/AVRO 文件加载到 Snowflake 表中时,出现错误: PARQUET 文件格式可以生成一且仅一列类型变体或对象或数组。如果您愿意,请使用 CSV 文件格式

回答 2 投票 0

fastparquet 和 pyarrow 之间的比较?

经过一番搜索,我未能找到 fastparquet 和 pyarrow 的彻底比较。 我找到了这篇博文(速度的基本比较)。 以及一个 github 讨论,声称文件创建...

回答 6 投票 0

Sparklyr:从 S3 读取多个 Parquet 文件无限期运行

我正在使用 Sparklyr 从 S3 存储桶读取 Parquet 文件,在尝试读取多个文件时遇到问题。读取特定文件工作正常,但是当尝试读取所有文件时...

回答 1 投票 0

从 Spark Dataframe 写入的 Parquet 文件似乎已损坏

我正在使用 Spark 将数据写入 Parquet 文件,并根据 AWS Kinesis 每小时分区以每小时的方式从 AWS Kinesis 读取数据输出。 写作时,我将数据输出按年/

回答 2 投票 0

Spark:从 parquet 读取一个 int 列,长度为

我有一个 parquet 文件,由 Spark 作为外部表读取。 其中一列在 parquet 模式和 Spark 表中都定义为 int。 最近,我发现 int 太小了...

回答 2 投票 0

我无法通过数据类型错误将 df 转换为 parquet

我正在尝试将 pandas 数据帧转换为镶木地板,但收到错误“Exptected bytes,got a 'int' object”,“类型为 object 的列 xxxxxxx 转换失败”) 这张表在

回答 4 投票 0

将行向量写入 Parquet 文件

我知道如何将 Parquet 文件读入 Vec。 外部板条箱镶木地板; 使用 parquet::file::reader::{FileReader, SerializedFileReader}; 使用 std::{fs,sync::Arc}; 使用 parquet::column::writer::

回答 2 投票 0

使用 Javascript 读取 Parquet v2 文件

我已经搜索了节点包管理器(NPM),但似乎找不到也支持版本 2 的工作 Parquet 库。 parquets 是我能找到的唯一可用的解析器,我得到了这个......

回答 1 投票 0

如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC?

通常在 Impala 中,我们在将数据插入底层文件为 Parquet 格式的表之前使用 COMPRESSION_CODEC。 用于设置 COMPRESSION_CODEC 的命令: 设置压缩_c...

回答 3 投票 0

PySpark 分区镶木地板需要很长时间才能加载,即使使用指定的模式

设置:我有一个包含约 1300 个分区 parquet 文件的文件夹(例如 C:\Project Data\Data-*.parquet),其中 * 是一个计数器,每个文件大小约为 8MB。所有文件都具有相同的架构。 我是茹...

回答 1 投票 0

如何使用 SQL 将 BigQuery 表导出到 parquet 并保留列模式

我正在尝试以 parquet 格式将 BQ 表导出到 GCS。由于大小限制,无法使用 API,因此必须是 SQL 查询。问题是使用 SQL 查询时,parquet 会忽略表列...

回答 1 投票 0

如何定义 Parquet 和/或 Arrow 模式?

是否有一种与语言无关的方式以类似于 Avro 的方式表示 Parquet 或 Arrow 模式?例如,Avro 架构可能如下所示: { “类型”:“记录”, ...

回答 1 投票 0

如何通过 pandas 的 parquet 创建 Athena 桌子?

我从 pandas Dataframe 开始并保存为 parquet 格式,如下所示: 将 pandas 导入为 pd df = pd.DataFrame([ {'abc': 1.231, 'xyz':2, 'jkl': False, 'idx': '第一行', '日期': '2023-12-01'}, ...

回答 1 投票 0

如何在 Power BI 桌面中仅加载选定文件

Power BI Desktop 支持从 ADLS 加载单个镶木地板文件, 现在,我们的进程会将多个镶木地板文件转储到一个文件夹中。该文件夹将包含包含其他文件的子文件夹...

回答 2 投票 0

如何处理 Apache Spark 中不断变化的 parquet 模式

我遇到了一个问题,我将 Parquet 数据作为 S3 中的每日块(以 s3://bucketName/prefix/YYYY/MM/DD/ 的形式),但无法从 AWS EMR Spark 中读取数据不同的日期因为...

回答 4 投票 0

将 BigQuery 重复数据类型转换为 parquet

我有一个 BigQuery 表,其中包含由结构化数据 (RECORD) 组成的 REPEATED 字段,该字段仅由两个键组成:KEY 和 VALUE。它看起来像这样: [{“KEY”:“TESTING_FLAG”,“...

回答 1 投票 0

为什么从 Bigquery 导出 parquet 文件后数据类型从 BIGNUMERIC 转换为 FLOAT32?

我从bigquery导出一张表,遇到一个问题,有一个BIGNUMERIC类型的列,在使用fastparquet导出并在pandas上读取后,该列的数据类型从

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.