bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

插入非常大的数据块

我的数据库中有一个表需要拆分为两个表。该表有 100,050,000 条记录。我需要一个快速的方法来完成这个。 我试过这个: 声明 @from BIGINT = 0, @...

回答 0 投票 0

基于 YAML 中的条件的数据帧过滤

我正在尝试按存储在 YAML 中的条件过滤数据框。大概有100多个条件可以过滤;这些只是一些条件。 一般_1: 条件_1: 'A':1 '乙':5 ...

回答 0 投票 0

搜索包含完整集合子集的子集列表的最佳实践?

搜索包含商品库商品子集的商店列表的最佳做法是什么? 这是场景: 一个商品库有(0 to totalAmountofGoods),每个商店可以放一个

回答 0 投票 0

雪花变化 |为什么需要执行自连接?为什么它比使用其他唯一列连接慢?

我在大表上遇到了合并语句的问题。 合并的源表基本上是应用一些 DML 后目标表的克隆。 例如在下面的例子中,PUBLIC.customer 是 t...

回答 1 投票 0

使用 multiline=true 选项读取 csv 时出现 SPARK 编码问题

我在尝试读取具有 Ř 和 Á 等字符的 spark 中带有 multiline=true 选项的 csv 文件时遇到了问题。 csv 以 utf-8 格式读取;但是当我们尝试读取数据时...

回答 0 投票 0

如何处理分组后的大集合聚合?

How y'all doing?) 希望得到关于MongoDB的建议。简短的解释请勉强配合我--我的集合是存储我们系统中的每一次点击,一个点击文档看起来像(......)。

回答 1 投票 1

在spark中,有什么方法可以使静态连接到redshift数据库。

我正在使用spark API spark.read.jdbc(String url,String table,java.util.Properties properties)。它用从数据库表中返回的模式创建一个数据框架。每次当我调用...

回答 1 投票 0

根据出生年月日计算年龄

我使用HiveQL,我需要使用出生日期列来计算年龄,但问题是GetDate不工作,而Current_Date()却可以。我正在尝试的例子是Ex: datediff(yy,...)

回答 1 投票 0

如何根据数据的不同,将一个数据流输出到不同的输出?

在Apache Flink中,我有一个tuples流。让我们假设一个非常简单的Tuple1。 . 元组的值域中可以有一个任意的值(例如'P1','P2'等)。可能的集合...

回答 1 投票 19

在R的RecordLinkage包中使用RLBigData类时出现错误输出

当使用R包RecordLinkage时,在epiClassify()或emClassify()函数(可以对RLBigDataLinkageclass对象进行操作)之后的一些输出会输出错误。这些错误是...

回答 1 投票 1

如何在Spark中把输入的数据流保存到执行数据结构中进行sql查询?

I'm new in the word of bigdata. 我的目标是在某种数据结构中维护一个输入数据流,对其进行查询和聚合操作。有一个连续的数据作为输入...

回答 1 投票 0

电子邮件数据库设计(模式)

目前,我们正在开发一个相当大的应用程序,它将不得不处理一些大量的记录。我们的想法是,电子邮件将被存储(带附件),并通过一个web-api ...

回答 2 投票 3

BigQuery。如何在分区表上运行分析函数查询?

我有一个表,里面有几个相同数据的版本。每个版本可以通过时间戳字段来识别。这是我想出的查询,只获取数据的最新版本,使用 ...

回答 1 投票 1

如何创建大数据项目?[已关闭]

任何人请指导我在java中创建一个大数据项目,需要开发的工具和技术是什么。Hadoop mogoDB NoSQL 在上面提到的是用哪种技术来开发大数据概念的...

回答 1 投票 -5

R中的Lasso:cv.glmnet()运行极慢。

我在 R 中有一个 7187x4877 的数据框,我已经成功将其转换为矩阵,并尝试运行 cv.glmnet()。它已经运行了20多分钟。矩阵的大小是268 mb。这是...

回答 1 投票 0

如何使用RDD的persist和cache?

请告诉我如何使用RDD方法Persist()和Cache(),似乎对于我通常用java写的传统程序来说,比如说sparkStreaming,这是一个继续执行的DAG,其中......

回答 2 投票 2

不同大小的多个特征集进行分类

我有多个不同的特征集。这些特征被存储在数据帧中。问题是,它们的大小不同。我的第一个特征集是一个512长大小的浮点数向量。第二个...

回答 1 投票 0

一个行键可以存在多个hbase区域中吗?

按照我的理解,HBase表按行键范围横向划分为 "区域"。一个区域包含了该区域起始键和结束键之间的表中所有行。假设我有一个...

回答 1 投票 1

Sqoop导入错误 "无法加载db驱动类 "与亚马逊EMR服务。

我已经创建了一个EMR集群,配置了hadoop、Sqoop和Spark。我正在尝试Sqoop导入,但得到错误 "无法加载db驱动类:com.mysql.jdbc.Driver"。我的问题是哪个...

回答 1 投票 1

如果我在vertica中通过了一个不存在的资源池怎么办?

如果我在vertica中传递一个不存在的资源池呢?如果它没有发现,它会使用默认的资源池吗?我只需要确认一下。在日志中,它显示了这一点,但它没有......。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.