bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

SQL:当键等于搜索词时,从 JSON 对象中选择值

在 Google BigQuery 中,我在表中有一列,其中包含与此类似的 JSON 对象 选择 JSON '[{"id":"A","value":"1"},{"id":"B&qu...

回答 2 投票 0

Hive 中是否有字符串数据类型的最大大小?

谷歌一吨,但没有在任何地方找到它。或者这是否意味着只要允许集群,Hive 就可以支持任意大字符串数据类型?如果是这样,我在哪里可以找到最大尺寸的 st...

回答 2 投票 0

在大型 json 文件 (50GB) 上使用 jq

我想在 50GB 的文件上使用 jq。不用说机器内存无法处理它。它的内存不足。 我尝试了几个选项,包括 --stream 但没有帮助。谁能告诉我...

回答 3 投票 0

Hadoop 流式 Python Mapper 和 reducer 错误消息打印。这可能吗?

大家好,首先感谢您的光临。 我正在使用 python 映射器和 reducer 进行 Hadoop 流式传输作业。 因此我的命令看起来像 yarn jar /where/hadoop-version/blahblah/ha...

回答 0 投票 0

(已解决)如何在不耗尽内存的情况下使用 jq 读取 100+GB 的文件

我有一个 100+GB 的 json 文件,当我尝试用 jq 读取它时,我的电脑一直在运行我们的 ram。有没有办法在限制内存使用的同时读取文件或以其他方式读取非常大的文件

回答 3 投票 0

Spark-通过命令行提交不强制执行 UTF-8 编码

当我使用 Spark 的 Java API 从 IDE 运行我的 spark 作业时,我得到了所需编码格式 (UTF-8) 的输出。但是如果我从命令行启动'spark-submit'方法,输出会丢失......

回答 4 投票 0

Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2

我对使用 hadoop 还很陌生,当我在 hadoop 上运行文件时遇到了这些异常。请帮助。在这里输入图像描述[在此处输入图像描述](https://i.stack.imgur。 com/b6rHI...

回答 0 投票 0

Python:将 xarray.Dataset 转换为 netcdf - 进程被杀死

从一个集群中,我有一个带有降水数据的 xarray.DataArray。 我收到一条消息:被杀了。 简而言之,这就是我所做的(在检查@Michael Delgado 评论之后) 进口摄入量 将 xarray 导入为...

回答 0 投票 0

插入非常大的数据块

我的数据库中有一个表需要拆分为两个表。该表有 100,050,000 条记录。我需要一个快速的方法来完成这个。 我试过这个: 声明 @from BIGINT = 0, @...

回答 0 投票 0

基于 YAML 中的条件的数据帧过滤

我正在尝试按存储在 YAML 中的条件过滤数据框。大概有100多个条件可以过滤;这些只是一些条件。 一般_1: 条件_1: 'A':1 '乙':5 ...

回答 0 投票 0

搜索包含完整集合子集的子集列表的最佳实践?

搜索包含商品库商品子集的商店列表的最佳做法是什么? 这是场景: 一个商品库有(0 to totalAmountofGoods),每个商店可以放一个

回答 0 投票 0

雪花变化 |为什么需要执行自连接?为什么它比使用其他唯一列连接慢?

我在大表上遇到了合并语句的问题。 合并的源表基本上是应用一些 DML 后目标表的克隆。 例如在下面的例子中,PUBLIC.customer 是 t...

回答 1 投票 0

使用 multiline=true 选项读取 csv 时出现 SPARK 编码问题

我在尝试读取具有 Ř 和 Á 等字符的 spark 中带有 multiline=true 选项的 csv 文件时遇到了问题。 csv 以 utf-8 格式读取;但是当我们尝试读取数据时...

回答 0 投票 0

如何处理分组后的大集合聚合?

How y'all doing?) 希望得到关于MongoDB的建议。简短的解释请勉强配合我--我的集合是存储我们系统中的每一次点击,一个点击文档看起来像(......)。

回答 1 投票 1

在spark中,有什么方法可以使静态连接到redshift数据库。

我正在使用spark API spark.read.jdbc(String url,String table,java.util.Properties properties)。它用从数据库表中返回的模式创建一个数据框架。每次当我调用...

回答 1 投票 0

根据出生年月日计算年龄

我使用HiveQL,我需要使用出生日期列来计算年龄,但问题是GetDate不工作,而Current_Date()却可以。我正在尝试的例子是Ex: datediff(yy,...)

回答 1 投票 0

如何根据数据的不同,将一个数据流输出到不同的输出?

在Apache Flink中,我有一个tuples流。让我们假设一个非常简单的Tuple1。 . 元组的值域中可以有一个任意的值(例如'P1','P2'等)。可能的集合...

回答 1 投票 19

在R的RecordLinkage包中使用RLBigData类时出现错误输出

当使用R包RecordLinkage时,在epiClassify()或emClassify()函数(可以对RLBigDataLinkageclass对象进行操作)之后的一些输出会输出错误。这些错误是...

回答 1 投票 1

如何在Spark中把输入的数据流保存到执行数据结构中进行sql查询?

I'm new in the word of bigdata. 我的目标是在某种数据结构中维护一个输入数据流,对其进行查询和聚合操作。有一个连续的数据作为输入...

回答 1 投票 0

电子邮件数据库设计(模式)

目前,我们正在开发一个相当大的应用程序,它将不得不处理一些大量的记录。我们的想法是,电子邮件将被存储(带附件),并通过一个web-api ...

回答 2 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.