bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

深度学习中具有大数据帧的MemoryError

前言大家好,我正在尝试使用StellarGraph软件包创建几何深度学习模型。使用较小的数据集,它可以很好地工作,但是不幸的是,它不能扩展到较大的数据集。 ...

回答 1 投票 0

如何从HIVE(sql)的列中删除文本

我正在尝试从CSV文件(latlong.csv)导入数据,并且希望从列中删除所有引号。请参考第一张图片。第一张图片这是我用来导入数据的代码...

回答 1 投票 1

DataFrame.withColumn()使用用于管道的定制化UDF的速度非常慢

现在,我正在使用ML和Pipeline pypark API实现模糊分类器,我的问题是在生成规则库(RB)的最后阶段,我想将结果预测为新的'...

回答 1 投票 -1

从一列生成MIN,AVG,MAX列。 [SQL]配置单元

我有一个带有油价列的数据库。我的目标是根据按位置分组的“油价”列,生成一个包含显示“最小价格”,“平均价格”和“最大价格”的列的表。哪里有油....

回答 1 投票 0

python:替换文本文件中每第n行的第18个字符

由于格式化我的数据集的方式,每小时的时间戳记都写成18 0而不是1800(例如),多余的空间而不是0弄乱了Excel的显示方式...

回答 2 投票 0

拾取minValue及其在蜂巢中的行

我必须在2小时的滑动日期窗口及其相应的日期值中选择minValue。例如,创建表库存(时间字符串,成本浮动);插入股票价值中(“ 1990-01-01 8:00 ...

回答 1 投票 0

是否有一些有效的算法来合并O(1)个额外空间或最小额外空间中的k个排序数组

说我有K个数组A1至AK,长度为L。我想在内存中合并这些数组,而又不占用太多辅助空间,以使最终输出形式为A1中存在最小的L个元素……

回答 1 投票 1

Hive查询中的前滚平均值

我想基于“ 4天窗口”来计算滚动平均值。请在下面的详细信息中创建表库存(天整数,时间字符串,成本浮动);插入库存值(1,“ 8 AM”,...

回答 1 投票 0

Spark为什么会失败,并出现java.lang.OutOfMemoryError:超出了GC开销限制

我正在尝试实现以前在Spark中运行良好的Hadoop Map / Reduce作业。该程序的目的是:我有1个列表A = List(c1,a3,b3,Y)List(c1,a3,b3,Y)List(c2,b3,Y))我要...

回答 1 投票 -2

了解Azure事件中心分区的消费者模式

Azure Event Hub使用文档中描述的分区使用者模式。在实际场景中,我在理解此模型的消费者方面有一些问题。所以说我...

回答 1 投票 0

在以下情况下我们如何使用排他性?

我们有一个名为世界的表,其中有人口,地区和国家名称显示按面积(大于300万)或人口(大于2.5亿)大的国家,但没有……]]] >

回答 1 投票 0

在Spark中读取/分析大小约为1TB的Json文件

我想在具有14个节点和39个核心(Azure HDInsight / Spark)的群集中分析大数据(解压缩后为0.9 TB)。但这很慢。我在这里做什么:数据是从这里下载的。 val数据...

回答 2 投票 0

IBM Cloud:如何打开Analytics Engine端口7070?

我想在IBM Cloud上使用大数据服务,所以我找到了Analytics Engine(AE)和BigInsight,但是不幸的是,BigInsight即将停止,所以我只能选择AE。但是,IBM AE是不同的...

回答 1 投票 0

Neo4J:如何从csv加载二十亿条记录?

我正在尝试将具有20亿条记录的csv数据导入Neo4J,现在我使用以下查询(在我的真实查询中,我有40个属性和5种节点类型):调用apoc.periodic.commit (“ ...

回答 1 投票 0

如何在Druid SQL中进行分页

我的问题实际上是一个分为两部分的问题:如何使用Druid SQL在选择查询上进行分页。我知道Druid本机查询支持分页,但是如果可能的话,我想使用SQL How ...

回答 1 投票 1

每年划分3b条记录的mysql表

处理几天内并发读写非常频繁的3b rec表的好方法是什么? Linux服务器,运行MySQL v8.0.15。我有此表将记录设备数据历史记录。 ...

回答 2 投票 0

Biglasso结果与hdm或glmnet不匹配

我一直在尝试使用R包'biglasso'处理高维数据。但是,我得到的结果与从“ hdm”或“ glmnet”获得的LASSO函数的结果不匹配。 ...

回答 1 投票 1


MapReduce:解决java.lang.ArrayindexOutOfBoundsException:Java中为1

有人可以帮助我解决此错误吗?包bigdata.tp1;导入org.apache.hadoop.conf.Configuration;导入org.apache.hadoop.fs.Path;导入org.apache.hadoop.io.IntWritable; import org ....

回答 1 投票 0

在Python中有效地迭代3.311031748 E + 12组合

我收集了一个大型的Pokemon数据集,我的目标是根据我建立的比率确定“十佳团队”-Pokemon BST(基本统计总数):平均弱点。对于那些...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.