bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

星火Scala代码性能优化的内存开销错误

您好我写了下面的Scala代码火花此,而6.4万条记录,我得到这个错误的异常在线程中运行这个“主” java.lang.OutOfMemoryError:GC开销超过限制和...

回答 1 投票 -1

字符串列不度量内上市,只允许同时创建GoodData报告从指标选择数字列类型

您好,我在GoodData是新的,我想创建一个报告,我必须表明产品的名称,但Matrics公司标签里面我只允许选择数字列。我怎样才能显示字符串列...

回答 1 投票 0

Apache Spark vs Akka [关闭]

[能否请您告诉我Apache Spark和AKKA之间的区别,我知道这两个框架都旨在对分布式和并行计算进行编程,但是我看不到链接或区别...

回答 4 投票 55

错误HUE提交工作流程|依赖进口的错误

我得到一个导入错误,当我提出的工作流与色调,其中包含一个火花的行动。回溯低于:2019年1月30日16:31:48048 [主要] INFO org.apache.spark.deploy.yarn.ApplicationMaster -...

回答 1 投票 1

数据库创建小尺寸文件,但数量大

我有小尺寸可以是结构化(JSON,CSV),也可以是非结构化的(视频)非常大的数字文件。我想创建数据库,这将巩固在系统所有这些文件...

回答 1 投票 0

饲养大熊猫的大数据帧到Tensorflow

我试图用数据从数据帧熊猫喂成Tensorflow管道。我试图做到这一点:training_dataset =(tf.data.Dataset.from_tensor_slices((tf.cast(DF [df.columns [: - 1]] ....

回答 1 投票 1

大查询 - 字符串函数

我BigQuery中的平台非常新,我想采取以下字符串SOCKETIOEXCEPTION ## APS.COM,NullPointerException异常## RSJAVA.COM,CLASSCASTEEXCEPTION ## MPS.COM而得到这个结果:...

回答 1 投票 0

地理图表加拿大不GoodData工作。这方面的任何替代解决方案?

我试图在GoodData添加小组件地理图表。当我填充数据,加拿大在地理图表的不给任何结果,同样的事情,当我试图对我们来说是给结果。任何一个可以帮助...

回答 1 投票 1

从具有有限的存储器流感知训练

我想用随机梯度rulefrom流数据来训练感知。我的内存量非常有限,我只能存储N $例子。假设我的人口由点作为节目的...

回答 2 投票 2

“集装箱通过纱线超出内存限制杀害。 10.4 GB 10.4 GB物理存储器中使用的”一个EMR集群上的内存75GB

我运行在AWS EMR 5节点火花集群的每个尺寸m3.xlarge(1个主4个从站)。我经历了146Mb bzip2压缩的CSV文件成功运行,并且结束了一个完美的聚合结果。 ...

回答 5 投票 30

蜂巢为了通过不可视列

比方说,我有一列,b和c和TEST2与同一列台试验。我可以创建表测试的观点和测试2结合在一起,并从表测试的字段c排序没有显示它...

回答 3 投票 0

SQL-ISH:如何更改巨大码成一个优雅的一个?

我只有一个abhorrend表,没有索引,没有按键,没有身份证,没有秩序,25列,18万行。我使用一个名为TaQL(“表查询语言”),在SQL十岁上下的语言。我需要选择 - 从 - 在那里......

回答 1 投票 0

mysql的重复行的大数据删除

我有mysql删除查询重复的行。 DELETE DupRows。* FROM myData的AS DupRows INNER JOIN(SELECT MIN(ID)AS minId,ondate,符号...

回答 2 投票 -2

我们能否在蜂巢上的“文本文件”执行CRUD操作

我是一个新手,以Hadoop的,张贴这个问题我已经搜索谷歌和发现只用ORC文件中的所有CRUD操作示例之前。所以想知道,如果我们可以做一个同样的...

回答 1 投票 1

谓词下推VS布隆过滤器

虽然寻找有关大数据的查询优化,尤其是ORC文件,我我碰到两种可能性来谓语下推和布隆过滤器。谓词下推帮助我们避免读...

回答 1 投票 1

滤波器mapWithState火花流部分重复

我们有一个DSTREAM,如VAL SSC =新的StreamingContext(SC,秒(1))VAL KS = KafkaUtils.createDirectStream [字符串,TMapRecord](SSC,PreferConsistent,订阅[字符串,TMapRecord](...

回答 1 投票 2

星火SQL查询优化

我想在火花数据帧加载数据表。我有2台在我database.Is有必要写2次完整的连接选项?有什么办法来写公用部分一次,然后就是...

回答 2 投票 -2

加速我的数据加载操作

请原谅我的无知,如果这个问题可能听起来很愚蠢的专家观众目前根据我的用例,我正在对aws redshift表中的数据进行某些分析......

回答 2 投票 0

通过获取两行之间的差异,将新列添加到Athena(Presto)表中

在过去的几周里,我编写了一个管道,用于获取从网站上广播的所有点击流数据。管道以下列方式使用AWS:S3> EC2(用于...

回答 1 投票 0

映射减少不在Hadoop 2.7.3伪分布式模式下运行的日志分析作业

我是大数据世界的新手,并为处理由Web应用程序生成的日志分配了POC。我已经在linux VM上成功地在伪分布式模式下设置了hadoop并且设法注入...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.