parquet 相关问题

Apache Parquet是Hadoop的柱状存储格式。

如何使用 C++ 从 parquet 文件中读取“date32[day]”类型？

我收到了一个具有以下架构的镶木地板文件：名称：串标识：字符串日期：date32[日] 事件时间戳：时间戳[us] 我使用一个简单的 python 脚本转储了模式： #！ /我们...

c++ parquet apache-arrow

回答 1 投票 0

pymilvus 导入数据失败，镶木地板读取器失败

我正在按照步骤从导入数据将数据导入到 milvus db。下面是我创建架构和准备数据的脚本。 milvus_db/import_test.py 随机导入导入字符串从 pymilvus 导入

python import parquet vector-database milvus

回答 1 投票 0

GUI 或 CLI 创建镶木地板文件

我想为与我一起工作的人提供一个工具来创建 parquet 文件，以用于读取和处理此类文件的模块的单元测试。我使用ParquetViewer查看parquet fi的内容...

user-interface command-line-interface parquet

回答 3 投票 0

仅使用一个 row_group 对 parquet 文件进行采样

我正在处理一个包含超过 3000 万行的巨大镶木地板文件。我只需要其中的一小部分，并希望选择一些随机选择的行。当我检查文件的元数据时，有...

python pandas dask parquet pyarrow

回答 1 投票 0

如何使用Pyspark读取DeltaLake表

我在AWS S3存储桶中有一个deltalake表（镶木地板格式）。我需要在笔记本代码中使用 Pyspark 在数据框中读取它。我尝试在网上搜索但尚未成功。谁能分享一下样品吗...

python-3.x pyspark parquet delta-lake delta-live-tables

回答 2 投票 0

如何在 ChoParquetReader 方法中传递 Azure blob 文件路径 url？

根据链接，我能够从本地文件夹传递镶木地板文件，并能够将数据转换为 json 格式。下面是示例代码 MemoryStream jsonMs = new MemoryStream(); 使用 (var r = new

c# blob parquet choetl

回答 1 投票 0

在超出集群资源的大型数据帧上优化 PySpark 代码

我有一个大型 PySpark 数据框，包含 2.5 亿行，只有 2 列。我正在运行此处找到的 minHash 代码。我尝试通过 adj_sdf.write 将生成的数据帧写入镶木地板文件。

python dataframe pyspark optimization parquet

回答 1 投票 0

写入 Delta 表 Spark 3.5.3 Delta Lake 3.2.0

我似乎无法使用 Spark 作业中的 Delta 格式进行编写，但我不确定我错过了什么。我正在使用 Spark 3.5.3 和 Deltalake 3.2.0。我的错误：线程“main”组织中出现异常。

scala apache-spark parquet distributed-computing delta-lake

回答 1 投票 0

重命名的列从现有数据中返回 null

我正在试验 Apache Iceberg，并试图了解列重命名的工作原理。在我的场景中，我正在使用存储在 AWS S3 中的现有 Parquet 文件数据湖。我的目标是创造

parquet apache-iceberg

回答 1 投票 0

将新列附加到现有镶木地板文件

有什么方法可以将新列附加到现有的镶木地板文件中吗？我目前正在参加 Kaggle 比赛，我已将所有数据转换为镶木地板文件。情况就是这样，我读了

apache-spark apache-spark-sql parquet

回答 4 投票 0

如何使用 pyarrow 编写 Parquet 元数据？

我使用 pyarrow 创建和分析包含生物信息的 Parquet 表，我需要存储一些元数据，例如数据来自哪个样本，如何获取和处理。镶木地板...

python parquet pyarrow

回答 3 投票 0

如何将parquet数据集的一部分读入pandas？

我有一个巨大的数据框，想将其分割成小文件以获得更好的性能。这是要编写的示例代码。但我不能只从中读取一小部分而不加载整个数据框

python pandas parquet pyarrow

回答 1 投票 0

将 parquet 文件中的读取列表发出到数据框中，在 MacOS 上显示为“无”，但适用于 Windows

我有许多带有定价数据的镶木地板文件，出价和要价以及尺寸存储为浮点值列表例如出价\ 0 [4.

python-3.x list macos boto3 parquet

回答 1 投票 0

org.apache.parquet.schema.InvalidSchemaException：无法使用空组编写模式

我正在从 ADF 中的 API 提取响应，我使用 COPY 活动源作为 REST API，并使用接收器作为 ADLS Gen2 Parquet。当我调试复制活动时，它因以下原因而失败。这是回复...

azure-data-factory parquet

回答 1 投票 0

尽管路径正确，DuckDB 仍不读取 Parquet 文件

我正在尝试在 VS Code 中运行的 Jupyter 笔记本中使用 DuckDB 读取大型 Parquet 文件。我的目标是直接从 Parquet 文件查询数据的子集，而不加载整个数据

python pandas dataframe parquet duckdb

回答 1 投票 0

高效读取部分分区数据集

我有相当大（高达~300Gb）的数据集，由镶木地板格式（压缩）的分区存储。我正在尝试找到一种有效的方法来将数据集的各个部分（由一组过滤器定义）读入

python pandas parquet partitioning pyarrow

回答 1 投票 0

读取数据并将数据写回同一个表 [UNSUPPORTED_OVERWRITE.TABLE]

我无法让我的 PySpark 应用程序将更新的 DataFrame 写入持久 Parquet 存储。我尝试读取和写入存储的表我遵循了创建的通常步骤...

apache-spark pyspark parquet

回答 1 投票 0

从 Spark 中的 parquet 文件读取特定列的有效方法

从具有许多列的 parquet 文件中仅读取 Spark 中列的子集的最有效方法是什么？正在使用spark.read.format("parquet").load().select(...col1, col2...

apache-spark parquet

回答 4 投票 0

Pyspark 以分布式方式循环遍历值

我有以下使用Azure databricks（pyspark）开发的要求。调用 Azure SQL 数据库以从表中读取列。对于每个列值，请阅读上面的内容，调用 REST API，其中

json pyspark azure-databricks parquet

回答 1 投票 0

读取或写入 Parquet 格式数据时出错

我创建了一个指向具有镶木地板存储的 Azure ADLS 的外部表，在将数据插入该表时出现以下错误。我正在使用 Databricks 来执行 org.apa...

apache-spark parquet databricks azure-databricks

回答 6 投票 0

parquet 相关问题

最新问题