parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

Parquet Writer 写入缓冲区或字节流

我有一个java应用程序,可以将json消息转换为镶木地板格式。是否有任何 parquet writer 可以在 java 中写入缓冲区或字节流?大多数示例,我都见过写入文件。

回答 3 投票 0

每个分区文件是否包含Spark DataFrameWriter.partitionBy之后的所有列?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 2 投票 0

使用 pandas 或 arrow 读取 Snowflake 创建的分区镶木地板文件时出现问题

ArrowInvalid:无法合并:字段 X 具有不兼容的类型:字符串与字典 ArrowInvalid:无法合并:字段 X 具有不兼容的类型:de...

回答 2 投票 0

每个分区文件是否包含 Spark DataFrameWriter.partitionBy 之后的所有行?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 1 投票 0

如何使用 Apache Sedona 将 parquet 格式数据框中的纬度和经度列转换为点类型(几何)?

我有 100 TB 的 parquet 格式的数据。该数据有很多列,包括纬度和经度列。我想使用 Apache Sedona 将这些列转换为点类型列(

回答 1 投票 0

dask:'TypeError(“read_row_group_file()得到意外的关键字参数\'infile\'”)'

我使用“conda install dask”安装了 Dask,但是当在 parquet 上使用函数时,我不断收到这些错误。我通过将 dask 版本降级到 2022.6.1 来解决这个问题,但是我会...

回答 1 投票 0

如何从 AWS Kinesis Firehose 写入具有 int64 时间戳(而不是 int96)的 Parquet 文件?

为什么 int96 时间戳对我不起作用? 我想使用 S3 Select 读取 Parquet 文件。根据文档,S3 Select 不支持保存为 int96 的时间戳。另外,存储时间戳...

回答 2 投票 0

使用 pyarrow 读取多个 csv 文件

我正在寻找使用来自hadoop的PyArrow读取多个csv文件,但我不知道如何做到这一点。 为了给您提供更多背景信息,我有一些包含多个 csv 文件的文件夹 文件夹: 文件0 文件1 文件2 电子...

回答 1 投票 0

使用 pandas read_parquet 对分区列进行过滤的多个条件

如果我有分区数据,并且我要使用 pd.read_parquet 中的filters参数进行过滤,我该如何实现这一点?例如: 将 pandas 导入为 pd 数据 = { “ID”:[1,2,3], ...

回答 1 投票 0

Pypark 附加分区会覆盖未分区的镶木地板

在Azure Databricks中,当我有一个未按某些列分区的镶木地板文件时。随后附加一个带有partitionBy("some_column")的新数据框,这是我原来的&q的数据......

回答 1 投票 0

无法让极坐标从 S3 404 未找到读取配置单元布局镶木地板文件

我正在努力通过极坐标从 S3 读取数据,但一直得到无用的信息 客户端错误,状态为 404 Not Found 数据分布在 S3 中,我认为是 Hive 分区(al...

回答 1 投票 0

带有溢出和 Alluxio 缓存的 Trino 向对象存储发出大量请求

我有 Trino、Hive Metastore 和 Minio 存储的本地设置。我已经在 Trino 上启用并配置了 Alluxio 缓存和磁盘溢出。对对象存储的请求数量更高

回答 1 投票 0

Kafka Connect:读取 JSON 序列化的 Kafka 消息,转换为 Parquet 格式并保存在 S3 中

我需要从 Kafka 主题读取 JSON 序列化消息,将它们转换为 Parquet 并保留在 S3 中。 背景 官方 S3-Sink-Connector 支持 Parquet 输出格式,但是: 你

回答 2 投票 0

Parquet文件覆盖压缩优化时如何保证Spark查询的原子性和数据完整性?

我有一个 Spark 设置,其中存在包含原始 Parquet 文件的分区,并且查询正在这些分区上主动运行。 我正在运行后台作业来优化这些 Parquet 文件以获得更好的效果

回答 1 投票 0

“类 java.time.LocalDate 无法转换为类 java.lang.Number”,在 Avro 中保存时,逻辑类型为日期,类型为 int

我正在尝试在 parquet 输出中保存 Avro 中存在的具有日期逻辑类型的字段(它在使用 int 作为数据类型保存时有效,但在尝试保存为日期逻辑类型时给出错误...

回答 2 投票 0

Apache Avro 不会将 BigDecimal 打印到 parquet 文件中 错误:java.math.BigDecimal 无法转换为 java.nio.ByteBuffer

我需要使用Java8中的apache-avro库创建镶木地板文件。使用 Maven 生成资源从“.avsc”文件自动创建的 POJO。但我在 BigDecimal 方面遇到了麻烦...

回答 1 投票 0

以镶木地板文件格式从本地复制到 Blob 时,ADF 中出现内存不足错误

我在本地 SQL 中有大约 10M 条记录,我正在尝试使用集成运行时以 parquet 文件格式将其传输到我的 Azure Blob 存储。 对于 2M 记录,它正在传输,无需我...

回答 2 投票 0

DuckDB 将 hive 分区插入 parquet 文件中

我有按 user_id 和 report_date 分区的 jsonl 文件。我将这些 jsonl 文件转换为 parquet 文件,并使用 DuckDB 中的以下命令将它们保存在同一文件夹中 jsonl_file_p...

回答 1 投票 0

当 FIXED_LEN_BYTE_ARRAY 数据类型用于固定长度字节数组列时,为什么 parquet 文件会变大?

当尝试将数据集存储在 parquet 文件中以将其上传到 HuggingFace 时,我遇到了一个奇怪的现象:将 50 字节数组存储为列时,输入

回答 1 投票 0

无法将 blob 发送到 Azure - 缺少 HTTP 标头异常

我正在尝试将 parquet 文件上传到 Azure,但它不断向我显示一条错误消息,指出它缺少必需的 HTTP 标头。 在我提供的示例中,我只是尝试了

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.