大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。
前言大家好,我正在尝试使用StellarGraph软件包创建几何深度学习模型。使用较小的数据集,它可以很好地工作,但是不幸的是,它不能扩展到较大的数据集。 ...
我正在尝试从CSV文件(latlong.csv)导入数据,并且希望从列中删除所有引号。请参考第一张图片。第一张图片这是我用来导入数据的代码...
DataFrame.withColumn()使用用于管道的定制化UDF的速度非常慢
现在,我正在使用ML和Pipeline pypark API实现模糊分类器,我的问题是在生成规则库(RB)的最后阶段,我想将结果预测为新的'...
我有一个带有油价列的数据库。我的目标是根据按位置分组的“油价”列,生成一个包含显示“最小价格”,“平均价格”和“最大价格”的列的表。哪里有油....
由于格式化我的数据集的方式,每小时的时间戳记都写成18 0而不是1800(例如),多余的空间而不是0弄乱了Excel的显示方式...
我必须在2小时的滑动日期窗口及其相应的日期值中选择minValue。例如,创建表库存(时间字符串,成本浮动);插入股票价值中(“ 1990-01-01 8:00 ...
是否有一些有效的算法来合并O(1)个额外空间或最小额外空间中的k个排序数组
说我有K个数组A1至AK,长度为L。我想在内存中合并这些数组,而又不占用太多辅助空间,以使最终输出形式为A1中存在最小的L个元素……
我想基于“ 4天窗口”来计算滚动平均值。请在下面的详细信息中创建表库存(天整数,时间字符串,成本浮动);插入库存值(1,“ 8 AM”,...
Spark为什么会失败,并出现java.lang.OutOfMemoryError:超出了GC开销限制
我正在尝试实现以前在Spark中运行良好的Hadoop Map / Reduce作业。该程序的目的是:我有1个列表A = List(c1,a3,b3,Y)List(c1,a3,b3,Y)List(c2,b3,Y))我要...
Azure Event Hub使用文档中描述的分区使用者模式。在实际场景中,我在理解此模型的消费者方面有一些问题。所以说我...
我们有一个名为世界的表,其中有人口,地区和国家名称显示按面积(大于300万)或人口(大于2.5亿)大的国家,但没有……]]] >
我想在具有14个节点和39个核心(Azure HDInsight / Spark)的群集中分析大数据(解压缩后为0.9 TB)。但这很慢。我在这里做什么:数据是从这里下载的。 val数据...
IBM Cloud:如何打开Analytics Engine端口7070?
我想在IBM Cloud上使用大数据服务,所以我找到了Analytics Engine(AE)和BigInsight,但是不幸的是,BigInsight即将停止,所以我只能选择AE。但是,IBM AE是不同的...
我正在尝试将具有20亿条记录的csv数据导入Neo4J,现在我使用以下查询(在我的真实查询中,我有40个属性和5种节点类型):调用apoc.periodic.commit (“ ...
我的问题实际上是一个分为两部分的问题:如何使用Druid SQL在选择查询上进行分页。我知道Druid本机查询支持分页,但是如果可能的话,我想使用SQL How ...
处理几天内并发读写非常频繁的3b rec表的好方法是什么? Linux服务器,运行MySQL v8.0.15。我有此表将记录设备数据历史记录。 ...
我一直在尝试使用R包'biglasso'处理高维数据。但是,我得到的结果与从“ hdm”或“ glmnet”获得的LASSO函数的结果不匹配。 ...
MapReduce:解决java.lang.ArrayindexOutOfBoundsException:Java中为1
有人可以帮助我解决此错误吗?包bigdata.tp1;导入org.apache.hadoop.conf.Configuration;导入org.apache.hadoop.fs.Path;导入org.apache.hadoop.io.IntWritable; import org ....
在Python中有效地迭代3.311031748 E + 12组合
我收集了一个大型的Pokemon数据集,我的目标是根据我建立的比率确定“十佳团队”-Pokemon BST(基本统计总数):平均弱点。对于那些...