parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

保留 UNLOAD 生成的 Parquet 中的列名称大小写

默认情况下,在 Athena(可能更普遍的是 Presto/Trino)中 SELECT * 小写列名称。 我找到了一种解决方法,通过在适当的情况下显式指定列名称 SELECT SomeColumn,

回答 1 投票 0

PyArrow 数据集过滤不适用于分区镶木地板文件

我将镶木地板文件存储在分区目录结构中,如下所示: bfl/pnr_group=0/319a1fb5557a342c1b55356ce5123123-0.parquet 当我直接使用 pq.read 读取单个镶木地板文件时...

回答 1 投票 0

聚合多个 Parquet 文件时,使用 Polars 在每个文件的基础上添加日期列

我有大量的 Parquet 数据文件,我可以通过 Polars 很好地加入和聚合它们,执行如下操作(请注意文件名中的 glob): ( pl.scan_parquet('data/data-16828*.parq...

回答 1 投票 0

Polars + Parquet 与 Polars + mySQL?

[注 - 我尝试在 Stack Exchange/软件工程和 Stack Exchange/软件推荐,甚至 Stack Exchange/超级用户上询问这个问题,但他们没有 Polars 或 Parquet 的标签。]...

回答 2 投票 0

python Polars - 连接数千个 csv/feather 文件时内核不断崩溃

我正在 python 上处理数千个 csv/feather 文件(每个文件包含 ~xxx)。我最初使用 pandas 来完成任务,但需要很长时间,因此我尝试使用 Polars。 注意:我公司的 pandas 版本...

回答 2 投票 0

如何在 Spring Boot 应用程序中创建带有时间戳类型字段的 parquet 文件?

这是我当前的场景。 当某些事件发生时,我将事件详细信息记录在 aws rds mysql 数据库中。 事件类有 3 个字段。 私有字符串事件; 私有长EVENT_ID; 私人

回答 1 投票 0

在 parquet-java 中读取 parquet 需要太长时间

我正在使用 parquet-hadoop 来读取 Snappy 压缩的 parquet 文件。然而,我发现读取时间与文件大小成二次方,而且长得令人无法接受。 以下是代码...

回答 1 投票 0

在Polars库中使用sink_parquet时出错

我正在尝试从数据集中提取一些特征,然后使用 Python 中的 Polars 库将结果写入 Parquet 文件。这是我正在使用的代码: 导入IP地址 将 numpy 导入为 np 我...

回答 1 投票 0

是否可以使用箭头按列而不是按列值对数据集进行分区?

我有一个函数,可以根据输入样本列表创建一个包含大约 2900 万行和用户定义的列数的 data.table。它读取带有索引列的各个示例文件并且...

回答 1 投票 0

需要修复我的 Python、Pyspark 处理作业的时区问题

我在Postgres aurora“last_updated_timestamp”中有数据库列,它没有时区并且值为“2024-08-01 00:00:00” 当我执行 df.show() 时,我正在使用 pyspark df 获取该值 是

回答 1 投票 0

使用nodejs-polars从S3存储桶读取镶木地板文件

我正在尝试使用 nodejs-polars 库读取 Parquet 文件,但在尝试从 S3 存储桶加载文件时遇到 403 Forbidden 响应。 我找到的大多数例子......

回答 1 投票 0

以节省内存的方式从 python 中的流创建 Parquet 文件

Python 中创建 Parquet 文件的最常见方法是首先创建 Pandas 数据框,然后使用 pyarrow 将表写入 parquet。我担心这可能会造成过度的负担

回答 3 投票 0

Apache Spark 内存分配

我正在使用单节点 Spark 设置将大量 JSON 文件(总大小:11GB)转换为 Parquet 文件。目前,我已经分配了 6GB 给驱动程序,4GB 给执行程序,但我

回答 1 投票 0

Azure Cost Exports - Java 中的 Parquet 格式解析

我已将天蓝色成本数据以 parquet 格式导出到存储帐户。解析该文件时,将数据输出为 GenericData$Fixed(以字节为单位)。我不知道如何获取原始值f...

回答 1 投票 0

如何使用 psycopg2 从 PostgreSQL 加载数据块

我想迭代地从表中加载批次并将每个批次保存为 .parquet 格式。 问题是我不明白如何用 psycopg2 做到这一点。 conn = psycopg2.connect(dbname=dbname, user=us...

回答 2 投票 0

无法使用 StreamingBody 从 S3 读取镶木地板文件而不保留在内存中

我正在尝试从 S3 读取 parquet 文件,并将其内容转储到 Kafka 主题。 当您将整个文件保存在内存中时,这并不太困难,但对于大文件,这是不可行的......

回答 1 投票 0

如何使用Delta Lake独立创建Delta表并写入数据

我可以使用独立 API 读取在 Amazon S3 中创建的增量表,但无法创建增量表并向其中插入数据。在下面的 Delta Lake 链接中提到使用 Zappy r...

回答 3 投票 0

如何将 parquet bytes 对象作为 zip 文件写入磁盘

我从 pandas 数据帧开始,我想将其保存为压缩的 parquet 文件,所有内容都在内存中,无需在磁盘上执行中间步骤。我有以下内容: bytes_buffer = BytesIO() df.to_parquet(

回答 1 投票 0

如何用Spark高效读取多个parquet小文件?有CombineParquetInputFormat吗?

Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。

回答 2 投票 0

MemSQL (SingleStore) 到 S3 使用 Python 创建多个 zip 文件

我正在尝试以镶木地板文件的形式从 MemSQL (SingleStore) 获取数据到 S3 中。使用以下查询: 选择 ... INTO S3 文件路径 CONFIG '{"region":"","endpoint_...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.