parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何将parquet数据集的一部分读入pandas?

我有一个巨大的数据框,想将其分割成小文件以获得更好的性能。这是要编写的示例代码。但我不能只从中读取一小部分而不加载整个数据框

回答 1 投票 0

将 parquet 文件中的读取列表发出到数据框中,在 MacOS 上显示为“无”,但适用于 Windows

我有许多带有定价数据的镶木地板文件,出价和要价以及尺寸存储为浮点值列表 例如 出价\ 0 [4.

回答 1 投票 0

org.apache.parquet.schema.InvalidSchemaException:无法使用空组编写模式

我正在从 ADF 中的 API 提取响应,我使用 COPY 活动源作为 REST API,并使用接收器作为 ADLS Gen2 Parquet。当我调试复制活动时,它因以下原因而失败。 这是回复...

回答 1 投票 0

尽管路径正确,DuckDB 仍不读取 Parquet 文件

我正在尝试在 VS Code 中运行的 Jupyter 笔记本中使用 DuckDB 读取大型 Parquet 文件。我的目标是直接从 Parquet 文件查询数据的子集,而不加载整个数据

回答 1 投票 0

高效读取部分分区数据集

我有相当大(高达~300Gb)的数据集,由镶木地板格式(压缩)的分区存储。 我正在尝试找到一种有效的方法来将数据集的各个部分(由一组过滤器定义)读入

回答 1 投票 0

读取数据并将数据写回同一个表 [UNSUPPORTED_OVERWRITE.TABLE]

我无法让我的 PySpark 应用程序将更新的 DataFrame 写入持久 Parquet 存储。 我尝试读取和写入存储的表 我遵循了创建的通常步骤...

回答 1 投票 0

从 Spark 中的 parquet 文件读取特定列的有效方法

从具有许多列的 parquet 文件中仅读取 Spark 中列的子集的最有效方法是什么?正在使用spark.read.format("parquet").load().select(...col1, col2...

回答 4 投票 0

Pyspark 以分布式方式循环遍历值

我有以下使用Azure databricks(pyspark)开发的要求。 调用 Azure SQL 数据库以从表中读取列。 对于每个列值,请阅读上面的内容,调用 REST API,其中

回答 1 投票 0

读取或写入 Parquet 格式数据时出错

我创建了一个指向具有镶木地板存储的 Azure ADLS 的外部表,在将数据插入该表时出现以下错误。我正在使用 Databricks 来执行 org.apa...

回答 6 投票 0

保留 UNLOAD 生成的 Parquet 中的列名称大小写

默认情况下,在 Athena(可能更普遍的是 Presto/Trino)中 SELECT * 小写列名称。 我找到了一种解决方法,通过在适当的情况下显式指定列名称 SELECT SomeColumn,

回答 1 投票 0

PyArrow 数据集过滤不适用于分区镶木地板文件

我将镶木地板文件存储在分区目录结构中,如下所示: bfl/pnr_group=0/319a1fb5557a342c1b55356ce5123123-0.parquet 当我直接使用 pq.read 读取单个镶木地板文件时...

回答 1 投票 0

聚合多个 Parquet 文件时,使用 Polars 在每个文件的基础上添加日期列

我有大量的 Parquet 数据文件,我可以通过 Polars 很好地加入和聚合它们,执行如下操作(请注意文件名中的 glob): ( pl.scan_parquet('data/data-16828*.parq...

回答 1 投票 0

Polars + Parquet 与 Polars + mySQL?

[注 - 我尝试在 Stack Exchange/软件工程和 Stack Exchange/软件推荐,甚至 Stack Exchange/超级用户上询问这个问题,但他们没有 Polars 或 Parquet 的标签。]...

回答 2 投票 0

python Polars - 连接数千个 csv/feather 文件时内核不断崩溃

我正在 python 上处理数千个 csv/feather 文件(每个文件包含 ~xxx)。我最初使用 pandas 来完成任务,但需要很长时间,因此我尝试使用 Polars。 注意:我公司的 pandas 版本...

回答 2 投票 0

如何在 Spring Boot 应用程序中创建带有时间戳类型字段的 parquet 文件?

这是我当前的场景。 当某些事件发生时,我将事件详细信息记录在 aws rds mysql 数据库中。 事件类有 3 个字段。 私有字符串事件; 私有长EVENT_ID; 私人

回答 1 投票 0

在 parquet-java 中读取 parquet 需要太长时间

我正在使用 parquet-hadoop 来读取 Snappy 压缩的 parquet 文件。然而,我发现读取时间与文件大小成二次方,而且长得令人无法接受。 以下是代码...

回答 1 投票 0

在Polars库中使用sink_parquet时出错

我正在尝试从数据集中提取一些特征,然后使用 Python 中的 Polars 库将结果写入 Parquet 文件。这是我正在使用的代码: 导入IP地址 将 numpy 导入为 np 我...

回答 1 投票 0

是否可以使用箭头按列而不是按列值对数据集进行分区?

我有一个函数,可以根据输入样本列表创建一个包含大约 2900 万行和用户定义的列数的 data.table。它读取带有索引列的各个示例文件并且...

回答 1 投票 0

需要修复我的 Python、Pyspark 处理作业的时区问题

我在Postgres aurora“last_updated_timestamp”中有数据库列,它没有时区并且值为“2024-08-01 00:00:00” 当我执行 df.show() 时,我正在使用 pyspark df 获取该值 是

回答 1 投票 0

使用nodejs-polars从S3存储桶读取镶木地板文件

我正在尝试使用 nodejs-polars 库读取 Parquet 文件,但在尝试从 S3 存储桶加载文件时遇到 403 Forbidden 响应。 我找到的大多数例子......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.