大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。
什么是hadoop(单节点和多节点),spark-master和spark-worker?
我想了解以下术语:hadoop(单节点和多节点)spark master spark worker namenode datanode到目前为止,我了解的是spark master是作业执行程序,并且可以处理所有...
总结查看与此相对应的其他问题无济于事,因为我仍在逐行打开文件,因此我不会在大文件上用尽内存。实际上...
如何每次在python或pyspark中从csv读取10条记录?
我有一个具有100,000行的csv文件,我想一次读取10行,并处理每一行以每次保存到其各自的文件中,并休眠5秒钟。我正在尝试Nslice,但它只读取...
如何在浏览器中的GCP实例外部的hadoop中访问我的Namenode GUI
我刚刚在GCP实例上设置了单节点HADOOP设置。执行JPS命令显示所有进程运行正常。我想访问我的名称节点的GUI。我正在使用http:// localhost:50070 / ...
哪个更适合在apache-spark,SQL查询或本机api中使用?
同时对数据集执行某些操作时,哪个更好用?找出最小值,最大值和平均值的操作。使用apache-spark的SQL查询或本机api更好吗?
我正在处理一些文本文件,其中包含太多单词,我想获取所有带有length的单词。例如,首先,我想得到所有长度为2的单词,然后是3,然后是4,直到15 ... ... >>>> [[
下面记录:请帮助我解决线程“ main”中的此异常java.lang.NoSuchMethodError:org.apache.spark.sql上的“ scala.collection.GenTraversable scala.collection.mutable.Buffer $ .empty()” ....
我有一个〜40Gb(〜80m记录,仅2列,文本)数据,并且在该数据上有不同的计数。我可以在AWS的r5a.4xlarge实例上成功运行它。大约需要3分钟以返回结果。...
我有一个看起来像这样的医学数据集:Patient_id disease_id 1111111111 DISEASE:1 1111111111 DISEASE:2 1111111111 DISEASE:3 1111111111 DISEASE:4 1111111111 DISEASE:5 1111111111 ...
我比较来自2个大数据框的记录,其中包含3列(X,Y,Z),并创建一个结果数据框,该记录记录了X和Y彼此靠近的配对数据(<0.05),适用于少量...] >
来自Gsheet文件的Google Apps脚本代码复制粘贴问题
我创建了代码,将值从最新上传的Gsheet文件复制粘贴到另一个文件。该代码应该只复制满足单元格条件的值。问题是,这...
我需要获取前6个月的所有注册信息,具体针对每个案例。我想设定一个人为的时间表。因此,所有案例ID都有自己的时间表。 ...
我的数据框有问题。第一个数据帧看起来像:id 0 1 2 3 100 0 0 0 0 101 0 0 0 0 0 102 0 0 0 0 103 0 0 0 0第二个...
我需要获取前6个月的所有注册信息,具体针对每个案例。我想设定一个人为的时间表。因此,所有案例ID都有自己的时间表。 ...
在某些情况下,程序员需要或希望找到数量巨大的数字。这些通常很大,以至于无视程序员的理解力。我说的是类似...
我有一张客户交易表,客户购买的每件物品都存储为一行。因此,对于单个事务,表中可以有多行。我还有一个叫...
我正在研究Kaggle项目,但遇到第一个障碍。数据集为30GB的图像。我希望能够在某种云解决方案上训练我的模型,我将其下载到虚拟...
表A --------- col1,col2,Adate,qty表B ------- col2,cost,Bdate表的大小如下:A:100万B:700k考虑此查询:SELECT A.col1,A.col2,B.Bdate bdate,SUM(...
我很抱歉,这是一个非常初学者的问题。但是我有一个来自reddit的多元数据集(https://files.pushshift.io/reddit/submissions/),但是文件太大了。是否可以...
我正在运行一个Pyspark程序,该程序可以正常运行。该过程的第一步是将特定的UDF应用于数据框。这是函数:import html2text class Udfs(object):def ...