parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

对 PyArrow Parquet 文件进行分区并将其写入数据集

我有一个 PyArrow Parquet 文件太大，无法在内存中处理。因为数据可以很容易地划分到不同的分片中，所以我想手动对其进行划分并创建一个 PyArrow 数据集...

parquet pyarrow

回答 1 投票 0

OSError：无法反序列化thrift：没有更多数据可供读取。反序列化页眉失败

我正在从事件中心获取数据并将其上传到带有 blob_type AppendBlob 的 blob，它会正确附加，但是当我下载并尝试读取该镶木地板文件时，它会显示此错误 OSError:

python azure azure-blob-storage parquet

回答 1 投票 0

java.lang.NoSuchFieldError：尝试运行 Apache Arrow 示例程序时，chunkSize 可见

当尝试运行 Apache arrow 网站上的第一个 Java 示例程序时，在 this.chunkSize = this.directArenas[0].chunkSize; 行中可以看到 No such field error for chunkSize; 完整的电子...

java parquet apache-arrow

回答 1 投票 0

如何通过模式自动检测将 Parquet/AVRO 加载到 Snowflake 中的多个列中？

当尝试将 Parquet/AVRO 文件加载到 Snowflake 表中时，出现错误： PARQUET 文件格式可以生成一且仅一列类型变体或对象或数组。如果您愿意，请使用 CSV 文件格式

snowflake-cloud-data-platform avro parquet

回答 2 投票 0

fastparquet 和 pyarrow 之间的比较？

经过一番搜索，我未能找到 fastparquet 和 pyarrow 的彻底比较。我找到了这篇博文（速度的基本比较）。以及一个 github 讨论，声称文件创建...

python parquet dask pyarrow fastparquet

回答 6 投票 0

Sparklyr：从 S3 读取多个 Parquet 文件无限期运行

我正在使用 Sparklyr 从 S3 存储桶读取 Parquet 文件，在尝试读取多个文件时遇到问题。读取特定文件工作正常，但是当尝试读取所有文件时...

r apache-spark parquet sparklyr read-data

回答 1 投票 0

从 Spark Dataframe 写入的 Parquet 文件似乎已损坏

我正在使用 Spark 将数据写入 Parquet 文件，并根据 AWS Kinesis 每小时分区以每小时的方式从 AWS Kinesis 读取数据输出。写作时，我将数据输出按年/

scala apache-spark amazon-s3 apache-spark-sql parquet

回答 2 投票 0

Spark：从 parquet 读取一个 int 列，长度为

我有一个 parquet 文件，由 Spark 作为外部表读取。其中一列在 parquet 模式和 Spark 表中都定义为 int。最近，我发现 int 太小了...

apache-spark parquet

回答 2 投票 0

我无法通过数据类型错误将 df 转换为 parquet

我正在尝试将 pandas 数据帧转换为镶木地板，但收到错误“Exptected bytes，got a 'int' object”，“类型为 object 的列 xxxxxxx 转换失败”）这张表在

python python-3.x pandas dataframe parquet

回答 4 投票 0

将行向量写入 Parquet 文件

我知道如何将 Parquet 文件读入 Vec。外部板条箱镶木地板；使用 parquet::file::reader::{FileReader, SerializedFileReader}；使用 std::{fs,sync::Arc}; 使用 parquet::column::writer::

rust parquet apache-arrow

回答 2 投票 0

使用 Javascript 读取 Parquet v2 文件

我已经搜索了节点包管理器（NPM），但似乎找不到也支持版本 2 的工作 Parquet 库。 parquets 是我能找到的唯一可用的解析器，我得到了这个......

node.js npm parquet parquet-dataset

回答 1 投票 0

如何查找 Parquet 文件生成时使用的 COMPRESSION_CODEC？

通常在 Impala 中，我们在将数据插入底层文件为 Parquet 格式的表之前使用 COMPRESSION_CODEC。用于设置 COMPRESSION_CODEC 的命令：设置压缩_c...

hadoop parquet impala

回答 3 投票 0

PySpark 分区镶木地板需要很长时间才能加载，即使使用指定的模式

设置：我有一个包含约 1300 个分区 parquet 文件的文件夹（例如 C:\Project Data\Data-*.parquet），其中 * 是一个计数器，每个文件大小约为 8MB。所有文件都具有相同的架构。我是茹...

python pyspark parquet

回答 1 投票 0

如何使用 SQL 将 BigQuery 表导出到 parquet 并保留列模式

我正在尝试以 parquet 格式将 BQ 表导出到 GCS。由于大小限制，无法使用 API，因此必须是 SQL 查询。问题是使用 SQL 查询时，parquet 会忽略表列...

google-cloud-platform google-bigquery google-cloud-storage parquet

回答 1 投票 0

如何定义 Parquet 和/或 Arrow 模式？

是否有一种与语言无关的方式以类似于 Avro 的方式表示 Parquet 或 Arrow 模式？例如，Avro 架构可能如下所示： { “类型”：“记录”， ...

parquet apache-arrow

回答 1 投票 0

如何通过 pandas 的 parquet 创建 Athena 桌子？

我从 pandas Dataframe 开始并保存为 parquet 格式，如下所示：将 pandas 导入为 pd df = pd.DataFrame([ {'abc': 1.231, 'xyz':2, 'jkl': False, 'idx': '第一行', '日期': '2023-12-01'}, ...

pandas hive parquet amazon-athena

回答 1 投票 0

如何在 Power BI 桌面中仅加载选定文件

Power BI Desktop 支持从 ADLS 加载单个镶木地板文件，现在，我们的进程会将多个镶木地板文件转储到一个文件夹中。该文件夹将包含包含其他文件的子文件夹...

powerbi azure-blob-storage parquet powerbi-desktop azure-data-lake

回答 2 投票 0

如何处理 Apache Spark 中不断变化的 parquet 模式

我遇到了一个问题，我将 Parquet 数据作为 S3 中的每日块（以 s3://bucketName/prefix/YYYY/MM/DD/ 的形式），但无法从 AWS EMR Spark 中读取数据不同的日期因为...

apache-spark apache-spark-sql parquet amazon-emr

回答 4 投票 0

将 BigQuery 重复数据类型转换为 parquet

我有一个 BigQuery 表，其中包含由结构化数据 (RECORD) 组成的 REPEATED 字段，该字段仅由两个键组成：KEY 和 VALUE。它看起来像这样： [{“KEY”：“TESTING_FLAG”，“...

java google-bigquery apache-beam parquet

回答 1 投票 0

为什么从 Bigquery 导出 parquet 文件后数据类型从 BIGNUMERIC 转换为 FLOAT32？

我从bigquery导出一张表，遇到一个问题，有一个BIGNUMERIC类型的列，在使用fastparquet导出并在pandas上读取后，该列的数据类型从

python pandas dataframe google-bigquery parquet

回答 1 投票 0

parquet 相关问题

最新问题