bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

什么是hadoop(单节点和多节点),spark-master和spark-worker?

我想了解以下术语:hadoop(单节点和多节点)spark master spark worker namenode datanode到目前为止,我了解的是spark master是作业执行程序,并且可以处理所有...

回答 2 投票 1

Ruby处理大文件时搜索并合并CSV文件

总结查看与此相对应的其他问题无济于事,因为我仍在逐行打开文件,因此我不会在大文件上用尽内存。实际上...

回答 1 投票 0

如何每次在python或pyspark中从csv读取10条记录?

我有一个具有100,000行的csv文件,我想一次读取10行,并处理每一行以每次保存到其各自的文件中,并休眠5秒钟。我正在尝试Nslice,但它只读取...

回答 2 投票 0

如何在浏览器中的GCP实例外部的hadoop中访问我的Namenode GUI

我刚刚在GCP实例上设置了单节点HADOOP设置。执行JPS命令显示所有进程运行正常。我想访问我的名称节点的GUI。我正在使用http:// localhost:50070 / ...

回答 1 投票 0

哪个更适合在apache-spark,SQL查询或本机api中使用?

同时对数据集执行某些操作时,哪个更好用?找出最小值,最大值和平均值的操作。使用apache-spark的SQL查询或本机api更好吗?

回答 1 投票 0

如何依次遍历dic中所有具有相同值的键

我正在处理一些文本文件,其中包含太多单词,我想获取所有带有length的单词。例如,首先,我想得到所有长度为2的单词,然后是3,然后是4,直到15 ... ... >>>> [[

回答 2 投票 1

使用Scala在Spark中创建DataFrame时出错

下面记录:请帮助我解决线程“ main”中的此异常java.lang.NoSuchMethodError:org.apache.spark.sql上的“ scala.collection.GenTraversable scala.collection.mutable.Buffer $ .empty()” ....

回答 1 投票 0

Standalone Pyspark错误:打开的文件太多

我有一个〜40Gb(〜80m记录,仅2列,文本)数据,并且在该数据上有不同的计数。我可以在AWS的r5a.4xlarge实例上成功运行它。大约需要3分钟以返回结果。...

回答 1 投票 -1

从长到宽重塑数据集的有效方法

我有一个看起来像这样的医学数据集:Patient_id disease_id 1111111111 DISEASE:1 1111111111 DISEASE:2 1111111111 DISEASE:3 1111111111 DISEASE:4 1111111111 DISEASE:5 1111111111 ...

回答 1 投票 0

Pandas Big DataFrame比较

我比较来自2个大数据框的记录,其中包含3列(X,Y,Z),并创建一个结果数据框,该记录记录了X和Y彼此靠近的配对数据(<0.05),适用于少量...] >

回答 1 投票 1

来自Gsheet文件的Google Apps脚本代码复制粘贴问题

我创建了代码,将值从最新上传的Gsheet文件复制粘贴到另一个文件。该代码应该只复制满足单元格条件的值。问题是,这...

回答 1 投票 0

根据与r中其他数据框中的日期的差将日期转换为时间序列

我需要获取前6个月的所有注册信息,具体针对每个案例。我想设定一个人为的时间表。因此,所有案例ID都有自己的时间表。 ...

回答 1 投票 0

根据另一个数据帧的ID和值在一个数据帧上设置值

我的数据框有问题。第一个数据帧看起来像:id 0 1 2 3 100 0 0 0 0 101 0 0 0 0 0 102 0 0 0 0 103 0 0 0 0第二个...

回答 1 投票 0

根据r中其他数据框中单元格的特定日期将日期转换为时间序列

我需要获取前6个月的所有注册信息,具体针对每个案例。我想设定一个人为的时间表。因此,所有案例ID都有自己的时间表。 ...

回答 1 投票 0

您怎么处理荒谬的数字?

在某些情况下,程序员需要或希望找到数量巨大的数字。这些通常很大,以至于无视程序员的理解力。我说的是类似...

回答 2 投票 4

按日期Hive计算单个组每月的交易数量

我有一张客户交易表,客户购买的每件物品都存储为一行。因此,对于单个事务,表中可以有多行。我还有一个叫...

回答 1 投票 0

在云上训练大型数据集(例如:30GB及以上?

我正在研究Kaggle项目,但遇到第一个障碍。数据集为30GB的图像。我希望能够在某种云解决方案上训练我的模型,我将其下载到虚拟...

回答 1 投票 -1

Hive联接查询优化

表A --------- col1,col2,Adate,qty表B ------- col2,cost,Bdate表的大小如下:A:100万B:700k考虑此查询:SELECT A.col1,A.col2,B.Bdate bdate,SUM(...

回答 2 投票 1

如何对.json文件进行降采样

我很抱歉,这是一个非常初学者的问题。但是我有一个来自reddit的多元数据集(https://files.pushshift.io/reddit/submissions/),但是文件太大了。是否可以...

回答 1 投票 0

为什么PySpark任务花费太多时间?

我正在运行一个Pyspark程序,该程序可以正常运行。该过程的第一步是将特定的UDF应用于数据框。这是函数:import html2text class Udfs(object):def ...

回答 1 投票 -3

© www.soinside.com 2019 - 2024. All rights reserved.