bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

什么是hadoop（单节点和多节点），spark-master和spark-worker？

我想了解以下术语：hadoop（单节点和多节点）spark master spark worker namenode datanode到目前为止，我了解的是spark master是作业执行程序，并且可以处理所有...

hadoop apache-spark hdfs bigdata

回答 2 投票 1

Ruby处理大文件时搜索并合并CSV文件

总结查看与此相对应的其他问题无济于事，因为我仍在逐行打开文件，因此我不会在大文件上用尽内存。实际上...

ruby csv bigdata large-files command-line-parsing

回答 1 投票 0

如何每次在python或pyspark中从csv读取10条记录？

我有一个具有100,000行的csv文件，我想一次读取10行，并处理每一行以每次保存到其各自的文件中，并休眠5秒钟。我正在尝试Nslice，但它只读取...

python pyspark bigdata

回答 2 投票 0

如何在浏览器中的GCP实例外部的hadoop中访问我的Namenode GUI

我刚刚在GCP实例上设置了单节点HADOOP设置。执行JPS命令显示所有进程运行正常。我想访问我的名称节点的GUI。我正在使用http：// localhost：50070 / ...

hadoop networking google-cloud-platform installation bigdata

回答 1 投票 0

哪个更适合在apache-spark，SQL查询或本机api中使用？

同时对数据集执行某些操作时，哪个更好用？找出最小值，最大值和平均值的操作。使用apache-spark的SQL查询或本机api更好吗？

java sql apache-spark bigdata

回答 1 投票 0

如何依次遍历dic中所有具有相同值的键

我正在处理一些文本文件，其中包含太多单词，我想获取所有带有length的单词。例如，首先，我想得到所有长度为2的单词，然后是3，然后是4，直到15 ... ... >>>> [[

python-3.x dictionary bigdata

回答 2 投票 1

使用Scala在Spark中创建DataFrame时出错

下面记录：请帮助我解决线程“ main”中的此异常java.lang.NoSuchMethodError：org.apache.spark.sql上的“ scala.collection.GenTraversable scala.collection.mutable.Buffer $ .empty（）” ....

scala apache-spark bigdata

回答 1 投票 0

Standalone Pyspark错误：打开的文件太多

我有一个〜40Gb（〜80m记录，仅2列，文本）数据，并且在该数据上有不同的计数。我可以在AWS的r5a.4xlarge实例上成功运行它。大约需要3分钟以返回结果。...

pyspark bigdata

回答 1 投票 -1

从长到宽重塑数据集的有效方法

我有一个看起来像这样的医学数据集：Patient_id disease_id 1111111111 DISEASE：1 1111111111 DISEASE：2 1111111111 DISEASE：3 1111111111 DISEASE：4 1111111111 DISEASE：5 1111111111 ...

r dataframe bigdata out-of-memory

回答 1 投票 0

Pandas Big DataFrame比较

我比较来自2个大数据框的记录，其中包含3列（X，Y，Z），并创建一个结果数据框，该记录记录了X和Y彼此靠近的配对数据（<0.05），适用于少量...] >

python pandas bigdata

回答 1 投票 1

来自Gsheet文件的Google Apps脚本代码复制粘贴问题

我创建了代码，将值从最新上传的Gsheet文件复制粘贴到另一个文件。该代码应该只复制满足单元格条件的值。问题是，这...

database google-apps-script google-sheets bigdata copy-paste

回答 1 投票 0

根据与r中其他数据框中的日期的差将日期转换为时间序列

我需要获取前6个月的所有注册信息，具体针对每个案例。我想设定一个人为的时间表。因此，所有案例ID都有自己的时间表。 ...

r date data.table bigdata lubridate

回答 1 投票 0

根据另一个数据帧的ID和值在一个数据帧上设置值

我的数据框有问题。第一个数据帧看起来像：id 0 1 2 3 100 0 0 0 0 101 0 0 0 0 0 102 0 0 0 0 103 0 0 0 0第二个...

python pandas dataframe mapping bigdata

回答 1 投票 0

根据r中其他数据框中单元格的特定日期将日期转换为时间序列

我需要获取前6个月的所有注册信息，具体针对每个案例。我想设定一个人为的时间表。因此，所有案例ID都有自己的时间表。 ...

r date bigdata

回答 1 投票 0

您怎么处理荒谬的数字？

在某些情况下，程序员需要或希望找到数量巨大的数字。这些通常很大，以至于无视程序员的理解力。我说的是类似...

language-agnostic bigdata largenumber

回答 2 投票 4

按日期Hive计算单个组每月的交易数量

我有一张客户交易表，客户购买的每件物品都存储为一行。因此，对于单个事务，表中可以有多行。我还有一个叫...

sql hive bigdata hiveql data-lake

回答 1 投票 0

在云上训练大型数据集（例如：30GB及以上？

我正在研究Kaggle项目，但遇到第一个障碍。数据集为30GB的图像。我希望能够在某种云解决方案上训练我的模型，我将其下载到虚拟...

tensorflow machine-learning image-processing google-cloud-platform bigdata

回答 1 投票 -1

Hive联接查询优化

表A --------- col1，col2，Adate，qty表B ------- col2，cost，Bdate表的大小如下：A：100万B：700k考虑此查询：SELECT A.col1，A.col2，B.Bdate bdate，SUM（...

optimization hive bigdata hiveql

回答 2 投票 1

如何对.json文件进行降采样

我很抱歉，这是一个非常初学者的问题。但是我有一个来自reddit的多元数据集（https://files.pushshift.io/reddit/submissions/），但是文件太大了。是否可以...

python json bigdata data-science

回答 1 投票 0

为什么PySpark任务花费太多时间？

我正在运行一个Pyspark程序，该程序可以正常运行。该过程的第一步是将特定的UDF应用于数据框。这是函数：import html2text class Udfs（object）：def ...

python apache-spark pyspark bigdata user-defined-functions

回答 1 投票 -3

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.