parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

以节省内存的方式从 python 中的流创建 Parquet 文件

Python 中创建 Parquet 文件的最常见方法是首先创建 Pandas 数据框,然后使用 pyarrow 将表写入 parquet。我担心这可能会造成过度的负担

回答 3 投票 0

Apache Spark 内存分配

我正在使用单节点 Spark 设置将大量 JSON 文件(总大小:11GB)转换为 Parquet 文件。目前,我已经分配了 6GB 给驱动程序,4GB 给执行程序,但我

回答 1 投票 0

Azure Cost Exports - Java 中的 Parquet 格式解析

我已将天蓝色成本数据以 parquet 格式导出到存储帐户。解析该文件时,将数据输出为 GenericData$Fixed(以字节为单位)。我不知道如何获取原始值f...

回答 1 投票 0

如何使用 psycopg2 从 PostgreSQL 加载数据块

我想迭代地从表中加载批次并将每个批次保存为 .parquet 格式。 问题是我不明白如何用 psycopg2 做到这一点。 conn = psycopg2.connect(dbname=dbname, user=us...

回答 2 投票 0

无法使用 StreamingBody 从 S3 读取镶木地板文件而不保留在内存中

我正在尝试从 S3 读取 parquet 文件,并将其内容转储到 Kafka 主题。 当您将整个文件保存在内存中时,这并不太困难,但对于大文件,这是不可行的......

回答 1 投票 0

如何使用Delta Lake独立创建Delta表并写入数据

我可以使用独立 API 读取在 Amazon S3 中创建的增量表,但无法创建增量表并向其中插入数据。在下面的 Delta Lake 链接中提到使用 Zappy r...

回答 3 投票 0

如何将 parquet bytes 对象作为 zip 文件写入磁盘

我从 pandas 数据帧开始,我想将其保存为压缩的 parquet 文件,所有内容都在内存中,无需在磁盘上执行中间步骤。我有以下内容: bytes_buffer = BytesIO() df.to_parquet(

回答 1 投票 0

如何用Spark高效读取多个parquet小文件?有CombineParquetInputFormat吗?

Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。

回答 2 投票 0

MemSQL (SingleStore) 到 S3 使用 Python 创建多个 zip 文件

我正在尝试以镶木地板文件的形式从 MemSQL (SingleStore) 获取数据到 S3 中。使用以下查询: 选择 ... INTO S3 文件路径 CONFIG '{"region":"","endpoint_...

回答 1 投票 0

Pandas 将 parquet 文件写入 S3 的分区限制为 1024

我有一个 pandas 数据框,我正在使用 Pyarrow 引擎将其写入 S3。我有要通过 Pyarrow 引擎分区的数据抛出错误,无法写入超过 1024 个分区。有没有...

回答 1 投票 0

单个小文件的Parquet分区策略及读取优化

我有一个 5 到 100Mb 数据的镶木地板文件。 当我尝试在日期列上创建分区时,会创建多个文件,这会降低读取性能,因为有很多...

回答 1 投票 0

了解用 parquet-tools“meta”命令打印的 Parquet 文件的元数据信息

我正在学习 Parquet File 的内部表示,因此我浏览了 Apache Parquet 的 Github 页面、Google Dremel 的论文来了解定义和重复级别以及

回答 2 投票 0

创建 parquet 文件时如何避免创建 .crc 文件

我正在使用镶木地板框架来编写镶木地板文件。 我用这个构造函数创建了 parquet writer—— 公共类 ParquetBaseWriter 扩展 ParquetWriter {

回答 3 投票 0

将巨大的 Polars 数据帧转换为 dict,而不消耗太多 RAM

当我将 parquet 文件加载到 Polars DataFrame 中时,需要大约 5.5 GB 的 RAM。与我尝试过的其他选择相比,Polars 非常棒。但是,Polars 不支持创建像 Pan 这样的索引...

回答 2 投票 0

如何在spark中使用repartition()指定文件大小

我正在使用 pyspark,我有一个大型数据源,我想对其进行重新分区,并明确指定每个分区的文件大小。 我知道使用 repartition(500) 函数会将我的镶木地板分成...

回答 1 投票 0

从 parquet 文件加载到 redshift 时,有没有办法在 COPY 命令中单独提供列值

我有一个 parquet 文件,需要将其加载到 Redshift 中。 我正在使用 COPY 命令来执行此操作。 但表中还有其他列需要与 COPY co 一起插入值...

回答 1 投票 0

HiveIgnoreKeyTextOutputFormat 的athena 插入和配置单元格式错误

在提出问题/问题之前,先进行以下设置: 表1 创建外部表 `table1`( `mac_address` 字符串, `节点` 字符串, `wave_found` 字符串, `wave_data` 字符串, `calc_dt` 字符串, `

回答 1 投票 0

pyspark 静默覆盖无法删除陈旧的 parquet 文件

环境: 9.1 LTS ML(包括 Apache Spark 3.1.2、Scala 2.12) 我执行了以下覆盖操作: df.repartition(parts).write.mode('覆盖').parquet(s3_output_path) 你可以在

回答 1 投票 0

Parquet 列无法在文件中转换 <parquet path> 列:[年份],预期:int,发现:INT64

我有大量的小镶木地板。其中 80% 的年份列编码为 int,但 20% 的年份列编码为“Int64” 我通过指定架构来读取它们,其中我将年份列指定为 IntegerType。 df = Spark.read.

回答 1 投票 0

日期时间列的刻度值必须位于有效日期时间刻度范围 - 0000-12-30 00:00:00 之间

我们正在使用 OData Web 服务通过 Azure 数据工厂从 Dynamics Business Central 提取数据。 数据最初被提取到 ADLS gen2 中的 Parquet 文件中。 然后从那里复制到Az...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.