bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何使用数组数据类型加入hive?

我有employee表,其员工ID为int,员工姓名为字符串,department id为整数数据类型的数组作为列。下面给出了Employee表的记录。 ...

回答 1 投票 0

Mysql优化算法,用于保存历史变化的变种

我有一个主表与实际用户信息CREATE TABLE用户(id bigint NOT NULL PRIMARY KEY,更新时间戳...

回答 1 投票 0

可以使用Sqoop在IMPORT上执行连接吗?

最近我被问到这个问题,我在描述一个涉及多个连接的用例,除了我在Spark中实现的一些处理,问题是,可以加入......

回答 4 投票 2

在机器学习管道中存储预处理数据的最佳方法是什么?

在我的例子中,原始数据存储在NoSQL上。在训练ML模型之前,我应该在NoSQL上预处理原始数据。此时,如果我预处理原始数据,那么保留预处理数据的最佳方法是什么? 1. ...

回答 2 投票 -1

通过生成器从fastq获取数据

我有一个培训任务,我必须阅读并过滤大的fastq文件的'好'读取。它包含一个标题,一个dna字符串,+符号和一些符号(每个dna字符串的质量)。例:@ ...

回答 1 投票 1

在'from_delayed'JSON文件中找到DASK元数据不匹配

我刚开始冒险与DASK和陆地我正在学习json格式的示例数据集。我知道这对于初学者来说这不是世界上最简单的数据格式:)我有一个数据集在......

回答 1 投票 0

Spark 2.3动态分区不适用于S3 AWS EMR 5.13.0

写入S3时,Spark 2.3引入的动态分区似乎不适用于AWS的EMR 5.13.0执行时,会在S3中创建一个临时目录,但一旦进程处于...就会消失。

回答 1 投票 7

使用scala检查csv文件流上的文件

我正在处理火花流,并且不希望在每10分钟新流文件出现时处理旧文件:val val1 = spark .read // .option(“header”,“true”)。option(“schema” ,...

回答 1 投票 -1

将BigQuery中的大量数据加载到python / pandas / dask

我读了其他类似的主题,并搜索谷歌找到一个更好的方法,但找不到任何可行的解决方案。我在BigQuery中有一个大型的大表(假设每天插入2000万行)。一世 ...

回答 4 投票 3

我如何知道scala中代码的运行时?

我需要计算scala中代码的运行时。代码是。 val data = sc.textFile(“/ home / david / Desktop / Datos Entrada / household / household90Parseado.txt”)val parsedData = data.map(s => ...

回答 5 投票 10

在箭头表上执行转换

您可以对Arrow表应用什么样的转换?它的主要用途(现在)是语言的交换格式吗?

回答 1 投票 0

在Hive中歪曲的桌子

我正在学习蜂巢,遇到了扭曲的桌子。帮助我理解它。什么是Hive中的倾斜表?我们如何创建倾斜的表?它如何影响性能?

回答 2 投票 7

Hive执行钩子

我需要在Apache Hive中挂钩自定义执行挂钩。如果有人知道怎么做,请告诉我。我正在使用的当前环境如下:Hadoop:Cloudera 4.1.2版...

回答 2 投票 1

如何使用HIVE在WHERE语句中对OR子句进行分组

我想通过以下查询(statement1 AND statement2 AND(statement3 OR statement4))这是我的hive查询,我验证它不起作用,因为它只返回statement3,我知道...

回答 3 投票 1

为字典中的每个密钥对(n0,a),(n0,b)的最大值获取密钥对(n0,_),(n1,_)

假设我们有一个类似的字典:os_stats = {('USA','Mac OS X'):1,('墨西哥','iOS'):3,('USA','Windows XP'):2,( '德国','Windows 7'):9,('德国','Windows XP'):7,(...

回答 2 投票 1

如何将readLines的输出转换为数据帧

我试图使用readLines将一个17.6GB的csv文件导入到R.我已经尝试过这里,这里,这里和其他地方讨论的几种方法,readLines似乎是唯一的方法......

回答 2 投票 0

Oozie s3作为工作文件夹

当从s3提供workflow.xml时,Oozie失败并出现以下错误,但同样有效的是HDFS提供了workflow.xml。同样适用于早期版本的oozie,有什么......

回答 1 投票 1

如何使用spark scala将包含多个行标记的复杂xml文件加载到数据框中并将其另存为表(注意通用解决方案)

(这是一个带有2个行标记的示例xml文件(任何方法将此加载到具有n个行标记的数据框或使用spark scala中的xpath的元素) 马修

回答 1 投票 0

Python函数可以在Flask或Django中使用吗?

我需要帮助解决一个问题。我最近一直致力于大数据和机器学习。我将首先在twitter数据上做一些工作,但我不希望我的工作只留在...

回答 1 投票 0

数据量在数据分析中是否重要?

所以我想知道数据分析是否可以通过使用少量数据来完成,例如存储在数据库中的100到1000条记录。如果我这样做,那么它是否称为数据分析?有人......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.