parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

保留 UNLOAD 生成的 Parquet 中的列名称大小写

默认情况下，在 Athena（可能更普遍的是 Presto/Trino）中 SELECT * 小写列名称。我找到了一种解决方法，通过在适当的情况下显式指定列名称 SELECT SomeColumn，

parquet amazon-athena presto trino

回答 1 投票 0

PyArrow 数据集过滤不适用于分区镶木地板文件

我将镶木地板文件存储在分区目录结构中，如下所示： bfl/pnr_group=0/319a1fb5557a342c1b55356ce5123123-0.parquet 当我直接使用 pq.read 读取单个镶木地板文件时...

python parquet pyarrow

回答 1 投票 0

聚合多个 Parquet 文件时，使用 Polars 在每个文件的基础上添加日期列

我有大量的 Parquet 数据文件，我可以通过 Polars 很好地加入和聚合它们，执行如下操作（请注意文件名中的 glob）： ( pl.scan_parquet('data/data-16828*.parq...

parquet python-polars

回答 1 投票 0

Polars + Parquet 与 Polars + mySQL？

[注 - 我尝试在 Stack Exchange/软件工程和 Stack Exchange/软件推荐，甚至 Stack Exchange/超级用户上询问这个问题，但他们没有 Polars 或 Parquet 的标签。]...

python mysql parquet python-polars

回答 2 投票 0

python Polars - 连接数千个 csv/feather 文件时内核不断崩溃

我正在 python 上处理数千个 csv/feather 文件（每个文件包含 ~xxx）。我最初使用 pandas 来完成任务，但需要很长时间，因此我尝试使用 Polars。注意：我公司的 pandas 版本...

python csv parquet python-polars feather

回答 2 投票 0

如何在 Spring Boot 应用程序中创建带有时间戳类型字段的 parquet 文件？

这是我当前的场景。当某些事件发生时，我将事件详细信息记录在 aws rds mysql 数据库中。事件类有 3 个字段。私有字符串事件；私有长EVENT_ID；私人

java parquet avro

回答 1 投票 0

在 parquet-java 中读取 parquet 需要太长时间

我正在使用 parquet-hadoop 来读取 Snappy 压缩的 parquet 文件。然而，我发现读取时间与文件大小成二次方，而且长得令人无法接受。以下是代码...

hadoop parquet

回答 1 投票 0

在Polars库中使用sink_parquet时出错

我正在尝试从数据集中提取一些特征，然后使用 Python 中的 Polars 库将结果写入 Parquet 文件。这是我正在使用的代码：导入IP地址将 numpy 导入为 np 我...

python parquet python-polars

回答 1 投票 0

是否可以使用箭头按列而不是按列值对数据集进行分区？

我有一个函数，可以根据输入样本列表创建一个包含大约 2900 万行和用户定义的列数的 data.table。它读取带有索引列的各个示例文件并且...

r parquet apache-arrow

回答 1 投票 0

需要修复我的 Python、Pyspark 处理作业的时区问题

我在Postgres aurora“last_updated_timestamp”中有数据库列，它没有时区并且值为“2024-08-01 00:00:00” 当我执行 df.show() 时，我正在使用 pyspark df 获取该值是

python pyspark data-science parquet data-engineering

回答 1 投票 0

使用nodejs-polars从S3存储桶读取镶木地板文件

我正在尝试使用 nodejs-polars 库读取 Parquet 文件，但在尝试从 S3 存储桶加载文件时遇到 403 Forbidden 响应。我找到的大多数例子......

node.js amazon-s3 parquet nodejs-polars

回答 1 投票 0

以节省内存的方式从 python 中的流创建 Parquet 文件

Python 中创建 Parquet 文件的最常见方法是首先创建 Pandas 数据框，然后使用 pyarrow 将表写入 parquet。我担心这可能会造成过度的负担

python parquet pyarrow fastparquet

回答 3 投票 0

Apache Spark 内存分配

我正在使用单节点 Spark 设置将大量 JSON 文件（总大小：11GB）转换为 Parquet 文件。目前，我已经分配了 6GB 给驱动程序，4GB 给执行程序，但我

java apache-spark out-of-memory parquet

回答 1 投票 0

Azure Cost Exports - Java 中的 Parquet 格式解析

我已将天蓝色成本数据以 parquet 格式导出到存储帐户。解析该文件时，将数据输出为 GenericData$Fixed（以字节为单位）。我不知道如何获取原始值f...

java azure parquet avro

回答 1 投票 0

如何使用 psycopg2 从 PostgreSQL 加载数据块

我想迭代地从表中加载批次并将每个批次保存为 .parquet 格式。问题是我不明白如何用 psycopg2 做到这一点。 conn = psycopg2.connect(dbname=dbname, user=us...

python pandas psycopg2 parquet

回答 2 投票 0

无法使用 StreamingBody 从 S3 读取镶木地板文件而不保留在内存中

我正在尝试从 S3 读取 parquet 文件，并将其内容转储到 Kafka 主题。当您将整个文件保存在内存中时，这并不太困难，但对于大文件，这是不可行的......

python boto3 parquet

回答 1 投票 0

如何使用Delta Lake独立创建Delta表并写入数据

我可以使用独立 API 读取在 Amazon S3 中创建的增量表，但无法创建增量表并向其中插入数据。在下面的 Delta Lake 链接中提到使用 Zappy r...

java scala parquet delta-lake

回答 3 投票 0

如何将 parquet bytes 对象作为 zip 文件写入磁盘

我从 pandas 数据帧开始，我想将其保存为压缩的 parquet 文件，所有内容都在内存中，无需在磁盘上执行中间步骤。我有以下内容： bytes_buffer = BytesIO() df.to_parquet(

python pandas zip byte parquet

回答 1 投票 0

如何用Spark高效读取多个parquet小文件？有CombineParquetInputFormat吗？

Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。

apache-spark spark-streaming apache-spark-sql parquet

回答 2 投票 0

MemSQL (SingleStore) 到 S3 使用 Python 创建多个 zip 文件

我正在尝试以镶木地板文件的形式从 MemSQL (SingleStore) 获取数据到 S3 中。使用以下查询：选择 ... INTO S3 文件路径 CONFIG '{"region":"","endpoint_...

python amazon-s3 parquet singlestore

回答 1 投票 0

parquet 相关问题

最新问题