parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

在spark中如何获取镶木地板文件创建的时间戳作为列

在spark中，在从 hdfs 读取文件时，对于每条记录，我想向 df 添加一列，其中包含读取记录的文件的文件创建时间戳。例如 hdfs具有以下结构 /

apache-spark hdfs parquet

回答 1 投票 0

Python：快速将 SQL 字典列表转换为列表字典（从行数据到列数据）

我正在从 SQL 数据库读取和处理面向行的数据，然后将其作为列式数据写入 Parquet 文件。在 Python 中转换这些数据很简单。问题是数据集是

python pandas psycopg2 parquet

回答 1 投票 0

Spark 仅保存（写入）镶木地板一个文件

如果我写 dataFrame.write.format("parquet").mode("append").save("temp.parquet") 在 temp.parquet 文件夹中我得到与行号相同的文件号我想我还没有完全理解pa...

scala apache-spark parquet

回答 4 投票 0

使用Spark将一系列json格式的binlog记录合并到Hudi表中的最佳方法是什么？

我有一个Hudi表，和一些json格式的binlog记录。现在我想将这些binlog记录合并到Hudi表中。我们知道，binlog记录需要按顺序执行。什么是最好的...

apache-spark parquet apache-hudi mysqlbinlog

回答 1 投票 0

如何通过 AWS Redshift Spectrum 读取 parquet 文件中的二进制类型列？

我有一个由clickhouse生成的镶木地板文件，如果使用pyarrow显示其模式：将 pyarrow.parquet 导入为 pq 数据 = pq.read_table('test.pqt') 打印（数据.架构）它显示架构是这样的：

amazon-web-services amazon-redshift parquet clickhouse amazon-redshift-spectrum

回答 1 投票 0

在Python中获取parquet文件的模式

是否有任何 python 库可用于获取 parquet 文件的架构？目前，我们正在将镶木地板文件加载到 Spark 中的数据帧中，并从数据帧中获取模式以显示...

python parquet

回答 7 投票 0

在databricks中创建parquet文件后无法在dbfs中找到文件

我创建了一个镶木地板文件，并且此代码已成功执行。但是，在同一路径“/mnt/dev/lvl1/lvl2/”中，有子文件夹lvl2_1和lvl2_2，其中包含“delta”文件...

databricks azure-databricks parquet delta-lake

回答 1 投票 0

dask 的 read_parquet 读取加载模式时应过滤掉的文件

我遇到了一个问题，我正在保存具有稍微不同架构的不同镶木地板文件，但它们具有共享分区列。我创建了以下内容作为最小的可复制示例...

python pandas dask parquet pyarrow

回答 2 投票 0

从 GCP BigQuery 导出到 parquet：如何获得正确的数字类型的比例、精度？

我在 BQ 的表 A 中有一个类型为 NUMERIC(29) 的 A 列。我使用 BigQueryToGCSOperator 将其导出到镶木地板：传输BigQuerryToBucket = BigQueryToGCSOperator( task_id='BigQuerryToBucket' ,

apache-spark pyspark google-bigquery parquet pyarrow

回答 1 投票 0

parquet 文件中 data_page_version=1.0 和 2.0 有什么区别？

在 pyarrow 中，parquet writer 具有 data_page_version 参数，该参数可以是“1.0”或“2.0”，默认值为“1.0”。我有时用“2.0”保存文件

parquet pyarrow apache-arrow

回答 1 投票 0

使用 PyArrow 按时间戳分区时的文件名输出

我目前正在使用 pyarrow 进行分区，使用名为“req_moment”的列对 pyarrow 数据框中的数据进行分区。分区过程本身没问题，但是时间戳是sh...

python parquet pyarrow

回答 1 投票 0

Databricks parquet 写入作业导致空文件

我们有多个 Databricks PySpark 作业，可将 parquet 文件写入 Azure Blob 存储中的同一容器中。最近我们有时会得到一个内容为 0 字节的输出文件，即使源......

azure-blob-storage azure-databricks parquet

回答 1 投票 0

如何使用java Spark不将重复数据（parquet）写入hdfs

我是java、spark和hdfs新手这是我的用例：我读取了一个日志文件，选择我感兴趣的事件，并使用 java Spark 将其作为镶木地板保存在 hdfs 中。现在，如果重新发送相同的日志，

java apache-spark parquet

回答 1 投票 0

我可以从 HTTP(s) 八位字节流读取镶木地板吗？

某些后端端点以八位字节流的形式返回镶木地板文件。在 Pandas 中我可以做这样的事情：结果 = requests.get("https://..../file.parquet") df = pd.read_parquet(io.BytesIO(

python pandas http dask parquet

回答 1 投票 0

从 S3 读取镶木地板的最快方法

我在AWS S3中有一个Parquet文件。我想将其读入 Pandas DataFrame 中。我有两种方法可以实现这一目标。 1）将 pyarrow.parquet 导入为 pq 表 = pq.read_table("s3://tpc-h-

pandas amazon-s3 parquet pyarrow apache-arrow

回答 1 投票 0

雪花镶木地板加载模式生成

正在将 parquet 文件从 S3 位置加载到雪花表。这就是我正在做的：创建目标表创建表 myschema.target_table( 第 1 列日期， col2 VARCHAR); 创建舞台...

snowflake-cloud-data-platform parquet

回答 2 投票 0

R：从 parquet 文件中读取前 n 行？

我意识到 parquet 是一种列格式，但是对于大文件，有时您不想在过滤之前将其全部读取到 R 中的内存中，前 1000 行左右可能足以用于测试。我不...

r parquet

回答 3 投票 0

parquet.net ParquetOptions.UseDeltaBinaryPackedEncoding 如何禁用

我正在使用 Parquet.Net 库从 C# 代码生成 parquet 文件。 4.15.0 版本工作正常，但切换到最新的 4.16.4 后，生成的文件无法使用 ParquetViewer 读取。它...

parquet parquet.net

回答 1 投票 0

如何通过 Jupyter Notebook 将 SAS 数据集转换为 Parquet 文件？

您能否提供有关如何通过 Jupyter Notebook 将 SAS 数据集转换为 Parquet 文件的指导？

sas jupyter parquet

回答 1 投票 0

在Python中列出parquet文件分区的有效方法

我有一个分区镶木地板文件，我想迭代读取每个分区。但是，我想先获取分区列表。在此示例中，我想获取列表 [1, 2]：我的镶木地板。

python pandas parquet pyarrow

回答 1 投票 0

parquet 相关问题

最新问题