parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

在spark中如何获取镶木地板文件创建的时间戳作为列

在spark中,在从 hdfs 读取文件时,对于每条记录,我想向 df 添加一列,其中包含读取记录的文件的文件创建时间戳。 例如 hdfs具有以下结构 /

回答 1 投票 0

Python:快速将 SQL 字典列表转换为列表字典(从行数据到列数据)

我正在从 SQL 数据库读取和处理面向行的数据,然后将其作为列式数据写入 Parquet 文件。 在 Python 中转换这些数据很简单。问题是数据集是

回答 1 投票 0

Spark 仅保存(写入)镶木地板一个文件

如果我写 dataFrame.write.format("parquet").mode("append").save("temp.parquet") 在 temp.parquet 文件夹中 我得到与行号相同的文件号 我想我还没有完全理解pa...

回答 4 投票 0

使用Spark将一系列json格式的binlog记录合并到Hudi表中的最佳方法是什么?

我有一个Hudi表,和一些json格式的binlog记录。现在我想将这些binlog记录合并到Hudi表中。我们知道,binlog记录需要按顺序执行。什么是最好的...

回答 1 投票 0

如何通过 AWS Redshift Spectrum 读取 parquet 文件中的二进制类型列?

我有一个由clickhouse生成的镶木地板文件,如果使用pyarrow显示其模式: 将 pyarrow.parquet 导入为 pq 数据 = pq.read_table('test.pqt') 打印(数据.架构) 它显示架构是这样的:

回答 1 投票 0

在Python中获取parquet文件的模式

是否有任何 python 库可用于获取 parquet 文件的架构? 目前,我们正在将镶木地板文件加载到 Spark 中的数据帧中,并从数据帧中获取模式以显示...

回答 7 投票 0

在databricks中创建parquet文件后无法在dbfs中找到文件

我创建了一个镶木地板文件,并且此代码已成功执行。但是,在同一路径“/mnt/dev/lvl1/lvl2/”中,有子文件夹lvl2_1和lvl2_2,其中包含“delta”文件...

回答 1 投票 0

dask 的 read_parquet 读取加载模式时应过滤掉的文件

我遇到了一个问题,我正在保存具有稍微不同架构的不同镶木地板文件,但它们具有共享分区列。我创建了以下内容作为最小的可复制示例...

回答 2 投票 0

从 GCP BigQuery 导出到 parquet:如何获得正确的数字类型的比例、精度?

我在 BQ 的表 A 中有一个类型为 NUMERIC(29) 的 A 列。我使用 BigQueryToGCSOperator 将其导出到镶木地板: 传输BigQuerryToBucket = BigQueryToGCSOperator( task_id='BigQuerryToBucket' ,

回答 1 投票 0

parquet 文件中 data_page_version=1.0 和 2.0 有什么区别?

在 pyarrow 中,parquet writer 具有 data_page_version 参数,该参数可以是“1.0”或“2.0”,默认值为“1.0”。我有时用“2.0”保存文件

回答 1 投票 0

使用 PyArrow 按时间戳分区时的文件名输出

我目前正在使用 pyarrow 进行分区,使用名为“req_moment”的列对 pyarrow 数据框中的数据进行分区。分区过程本身没问题,但是时间戳是sh...

回答 1 投票 0

Databricks parquet 写入作业导致空文件

我们有多个 Databricks PySpark 作业,可将 parquet 文件写入 Azure Blob 存储中的同一容器中。最近我们有时会得到一个内容为 0 字节的输出文件,即使源......

回答 1 投票 0

如何使用java Spark不将重复数据(parquet)写入hdfs

我是java、spark和hdfs新手 这是我的用例: 我读取了一个日志文件,选择我感兴趣的事件,并使用 java Spark 将其作为镶木地板保存在 hdfs 中。 现在,如果重新发送相同的日志,

回答 1 投票 0

我可以从 HTTP(s) 八位字节流读取镶木地板吗?

某些后端端点以八位字节流的形式返回镶木地板文件。 在 Pandas 中我可以做这样的事情: 结果 = requests.get("https://..../file.parquet") df = pd.read_parquet(io.BytesIO(

回答 1 投票 0

从 S3 读取镶木地板的最快方法

我在AWS S3中有一个Parquet文件。我想将其读入 Pandas DataFrame 中。我有两种方法可以实现这一目标。 1) 将 pyarrow.parquet 导入为 pq 表 = pq.read_table("s3://tpc-h-

回答 1 投票 0

雪花镶木地板加载模式生成

正在将 parquet 文件从 S3 位置加载到雪花表。这就是我正在做的: 创建目标表 创建表 myschema.target_table( 第 1 列日期, col2 VARCHAR); 创建舞台...

回答 2 投票 0

R:从 parquet 文件中读取前 n 行?

我意识到 parquet 是一种列格式,但是对于大文件,有时您不想在过滤之前将其全部读取到 R 中的内存中,前 1000 行左右可能足以用于测试。我不...

回答 3 投票 0

parquet.net ParquetOptions.UseDeltaBinaryPackedEncoding 如何禁用

我正在使用 Parquet.Net 库从 C# 代码生成 parquet 文件。 4.15.0 版本工作正常,但切换到最新的 4.16.4 后,生成的文件无法使用 ParquetViewer 读取。它...

回答 1 投票 0

如何通过 Jupyter Notebook 将 SAS 数据集转换为 Parquet 文件?

您能否提供有关如何通过 Jupyter Notebook 将 SAS 数据集转换为 Parquet 文件的指导?

回答 1 投票 0

在Python中列出parquet文件分区的有效方法

我有一个分区镶木地板文件,我想迭代读取每个分区。 但是,我想先获取分区列表。 在此示例中,我想获取列表 [1, 2]: 我的镶木地板。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.