parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

使用 where 子句的 Parquet 分区性能

我正在尝试优化 Azure Synapse Analytics 中 parquet 文件的 PySpark SQL 查询的查询性能。 我的数据集有数十亿条记录,因此我可以获得的任何性能都很棒。 我的...

回答 1 投票 0

读取所有 .parquet 分区比一次读取完整 .parquet 慢? (数据块)

我每天生成并保存按“酒店”字段分区的数据集,我想知道读取分区文件是否比读取没有分区的同一文件慢。 让我们说...

回答 1 投票 0

PySpark 数据帧与标题不匹配

我有一堆在 6 个月内编写的 parquet 文件,按创建日期和时间进行分区。在这 6 个月里,标题发生了变化,因此

回答 1 投票 0

如何使用 presto 从 Aws S3 读取带分区的镶木地板数据?

我将数据以带有分区的镶木地板文件的形式存储在S3中。我正在尝试使用 presto 读取这些数据。如果我提供带有分区的镶木地板文件的完整位置,我就可以读取数据....

回答 1 投票 0

从 Spark 写入增量表时可以使用 parquet 格式 v2 吗?

有没有办法配置spark在将数据帧写入增量表时写入特定版本的parquet格式? 我找不到任何东西可以帮助我配置文件格式版本...

回答 2 投票 0

将 parquet 文件加载到 redshift 时如何格式化时间戳字段?

我有一堆带有不同格式的时间戳字段的镶木地板文件。我想在将数据加载到红移表时统一格式。但下面的语法不起作用,它会抛出...

回答 2 投票 0

年、月和日参数描述了 Oracle.ManagedDataAccess 中 OracleDataReader 中不可表示的日期时间

我有一个代码: 使用 (OracleCommand 命令 = new OracleCommand(查询, 连接)) { 使用 (OracleDataReader reader = command.ExecuteReader()) { 使用 (var parser = new ChoParquetW...

回答 1 投票 0

写入 Feather 或 Parquet 文件格式时出现 Geopandas 错误 - UnsupportedGEOSVersionError:“iso”选项至少需要 GEOS 3.10.0

当尝试将 pandas 地理数据帧“gdf”写入羽毛文件格式时,我收到错误消息 UnsupportedGEOSVersionError:“iso”选项至少需要 GEOS 3.1...

回答 1 投票 0

spark 在写入 delta 表时使用什么版本的 parquet 文件格式?

有没有办法配置spark在将数据帧写入增量表时写入特定版本的parquet格式? 我找不到任何东西可以帮助我配置文件格式版本...

回答 1 投票 0

Redshift - 字符串列被截断

我们利用 AWS Glue 爬网程序提取存储在 Amazon S3 中的 Parquet 文件。爬网程序检测 Parquet 文件的架构和元数据,并在 Amazon Redshift 中创建外部架构/表....

回答 2 投票 0

Bigquery 导出为 parquet 文件分区

每当我需要将数据从 Bigquery 导出到 parquet 时,我发现自己处于以下情况,要么使用: dask-bigquery:我的数据集大约需要 40 分钟;输出 700 个文件,约 12...

回答 1 投票 0

将 parquet 文件转换为具有嵌套元素的 Golang 结构

我正在尝试使用 xitongsys/parquet-go 库读取 Go 中带有嵌套数组/结构的镶木地板文件。列表数据没有被读取,也没有看到值。下面是我在 Golang 中的结构 典型...

回答 2 投票 0

使用duckdb查询一定范围内的多个parquet文件

我有以此格式排列的镶木地板文件 /db/{year}/table{date}.parquet 每个年份文件夹中最多有 365 个文件。 如果我想查询某个时间范围内的数据,比如说2024年4月28日到202年这一周...

回答 1 投票 0

Athena - 创建字段名称与镶木地板列名称不同的外部表

我正在尝试使用 Athena 创建外部表。正在读取的数据格式为镶木地板,我的外部表脚本是: 如果不存在则创建外部表 my_table ( 一个字符串, ...

回答 1 投票 0

Parquet Writer 写入缓冲区或字节流

我有一个java应用程序,可以将json消息转换为镶木地板格式。是否有任何 parquet writer 可以在 java 中写入缓冲区或字节流?大多数示例,我都见过写入文件。

回答 3 投票 0

每个分区文件是否包含Spark DataFrameWriter.partitionBy之后的所有列?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 2 投票 0

使用 pandas 或 arrow 读取 Snowflake 创建的分区镶木地板文件时出现问题

ArrowInvalid:无法合并:字段 X 具有不兼容的类型:字符串与字典 ArrowInvalid:无法合并:字段 X 具有不兼容的类型:de...

回答 2 投票 0

每个分区文件是否包含 Spark DataFrameWriter.partitionBy 之后的所有行?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 1 投票 0

如何使用 Apache Sedona 将 parquet 格式数据框中的纬度和经度列转换为点类型(几何)?

我有 100 TB 的 parquet 格式的数据。该数据有很多列,包括纬度和经度列。我想使用 Apache Sedona 将这些列转换为点类型列(

回答 1 投票 0

dask:'TypeError(“read_row_group_file()得到意外的关键字参数\'infile\'”)'

我使用“conda install dask”安装了 Dask,但是当在 parquet 上使用函数时,我不断收到这些错误。我通过将 dask 版本降级到 2022.6.1 来解决这个问题,但是我会...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.