orc 相关问题

优化行列式（ORC）文件格式提供了一种存储Hive数据的高效方法。它旨在克服其他Hive文件格式的限制。当Hive读取，写入和处理数据时，使用ORC文件可以提高性能。

使用正则表达式从txt中提取数据[关闭]

我刚刚使用 Google Vision API 将 pdf 收据转换为 txt 文件。现在我想提取 4 个特定字段并将它们保存在一个新的 txt 文件中。我突出显示了我想要的项目的 2 个示例...

python regex google-vision orc

回答 1 投票 0

如何读取Python Pandas本地存储的ORC文件？

我是否可以将 ORC 文件视为类似于 CSV 文件，其中列标题和行标签包含数据？如果是这样，我可以以某种方式将其读入一个简单的 pandas 数据框吗？我对工具不太熟悉

python pandas pyspark data-science orc

回答 6 投票 0

sortWithinPartitions 是如何排序的？

将 sortWithinPartitions 应用于 df 并将输出写入表后，我得到的结果我不知道如何解释。 df .select($"类型", $"id", $"时间") .

apache-spark orc columnsorting snappy

回答 1 投票 0

当我尝试使用 pyarrow 打开简单的 .orc 文件时，出现“致命 Python 错误：中止”并且没有可以处理的解释性错误消息

我正在使用：赢 10 专业版英特尔(R) 至强(R) W-1250 CPU @ 3.30GHz / 16 GB RAM 蟒蛇导航器 2.5.0， venv 中的 Python 3.10.13 pyarrow 11.0.0 熊猫2.1.1 在 Spyder IDE 5.4.3 中运行脚本我想要...

python anaconda fatal-error pyarrow orc

回答 1 投票 0

在 Flink 应用程序中从 AWS S3 存储桶读取 ORC 文件

我们正在使用 Flink 版本 1.13.5 并尝试从 AWS S3 位置读取 ORC 文件。而且，我们正在将应用程序部署在自我管理的 Flink 集群中。请查找以下代码以了解更多信息...

hadoop apache-flink flink-streaming orc

回答 1 投票 0

二进制格式，允许存储具有不同列、宽度、行的多个 pandas 数据帧

我有大约 200 个 pandas 数据框，每个数据框都有一些独特的列，或者可能完全不同的列。例子： df1 = pd.DataFrame({ '产品': ['苹果', '香蕉', '橙子', '芒...

python pandas dataframe parquet orc

回答 1 投票 0

连接外部和内部表时 hive 失败

我们的环境/版本 Hadoop 3.2.3 蜂巢3.1.3 火花2.3.0 我们在 hive 中的内部表定义为创建表 dw.Client （ client_id 整数， client_abbrev 字符串，客户名称字符串，

apache-spark hive orc

回答 2 投票 0

如何读取hive ACID ORC表转储

我尝试使用 pyspark 和 hive 读取 hive ACID ORC 表转储文件。转储文件架构如下。结构< operation: int, originalTransaction: bigInt, bucket: int, rowId: bigInt,

pyspark hive orc acid

回答 0 投票 0

在什么情况下，禁用 Hadoop 向量化执行比启用它更好

Hive 中的矢量化是一项功能（可从 Hive 0.13.0 获得），当启用时而不是一次读取一行读取 1024 行上的块。这提高了 CPU 使用率等操作，...

hadoop mapreduce orc apache-tez

回答 0 投票 0

hive没有从外部表中以ORC格式返回值。

我试图从Hive上的一个外部表中检索数据。我使用基于clouderaquickstart镜像的docker容器来做这件事，该镜像是Cloudera的官方镜像。表：创建...

hive zlib orc external-tables

回答 1 投票 1

试图以Dask数据框架的形式读取ORC。

我在 s3 中有一个 ORC 文件，我想把它读到 Dask 数据框架中。我正在使用conda来获得一个python 3.7的虚拟环境，并且我已经安装了Dask。我的环境是这样的。# 名称...

python dask orc

回答 1 投票 0

从S3读取ORC文件到Pandas

我想把一个orc文件从s3读到pandas的数据框中。在我的pandas版本中，没有pd.read_orc(...)。我试着这样做： session = boto3.Session() s3_client = session.client('s3')......

python pandas amazon-s3 orc

回答 2 投票 0

Pyspark-合并多个ORC模式

我有2个不同的目录，下面有一个ORC文件。这两个文件具有不同的架构。将两个目录读入同一DataFrame时，最终模式取决于...

python apache-spark pyspark pyspark-sql orc

回答 1 投票 0

Hive ORC表空字符串

我有一个Hive表，其中的数据存储为ORC。我在某些字段中写了空值（空白，““”），但是有时当我在此表上运行选择查询时，空字符串列在...

string hive null hiveql orc

回答 1 投票 0

Spark无法在分区和追加模式下写入新的配置单元表

以分区和ORC格式在配置单元中创建了一个新表。通过使用append，orc和分区模式使用spark写入此表。它因以下原因而失败：org.apache.spark.sql ....

apache-spark hive apache-spark-sql hdfs orc

回答 1 投票 0

Pyspark：仅读取特定日期的ORC数据

我有3个数据文件存储在ORC中，并按DATE进行了分区。 /orc/orc_FLORIDA_2019-04-29/alloc_FLORIDA_2019-04-29/DATE=2019-04-29/myfile.snappy.orc / orc / orc_FLORIDA_2019-04-29 / avails_FLORIDA_2019 -...

python pyspark orc

回答 1 投票 0

将spark数据拆分为分区，然后将这些分区并行写入磁盘中

问题概述：假设我在AWS的EMR集群上通过Spark处理了300+ GB的数据。此数据具有用于在Hive中使用的文件系统分区的三个属性：日期，小时和（...

parallel-processing apache-spark-sql orc

回答 1 投票 0

Redshift Copy命令中没有错误，用于加载ORC，但Redshift表未更新

我正在使用COPY命令将Amazon S3存储桶中存在的ORC文件加载到Amazon Redshift数据库。复制命令成功运行，但Redshift表未更新。我无法...

amazon-web-services amazon-s3 amazon-redshift orc

回答 1 投票 0

从ORC文件创建外部配置单元表的方式

我正在尝试在ORC文件上创建外部配置单元表。用于创建表的查询：创建外部表fact_scanv_dly_stg（store_nbr int，geo_region_cd char（2），scan_id int，scan_type char（2），...

apache-spark hive orc serde

回答 1 投票 0

Pyspark或缩放问题中的ORC条带大小设置

我在使用PySpark设置orc文件上的条带大小，索引跨度和索引时遇到问题。当我期望256MB的内存只有5个带区时，我获得1.2GB文件的大约2000个带区...

apache-spark pyspark writer orc

回答 1 投票 3

orc 相关问题

最新问题