bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

在Spark Java中具有空数据集的带有标题（列名）的csv打印csv文件

我必须在.csv文件中打印数据集，但条件是1），如果数据集为空，那么我只能在csv文件（如ID | FIRSTNAME | LASTNAME |中）打印标题（带有管道分隔符的列名） ...

java csv apache-spark bigdata spark-java

回答 1 投票 0

读取大量数据并不断更新直方图

我在h5文件中存储了大量数据。每个文件都有约1200个子文件夹，这些子文件夹具有约65k列的表。我需要将数据放在直方图中，但我不知道数据的范围。是否有...

python arrays numpy bigdata histogram

回答 1 投票 0

司法制度和其他食品交付系统数据[关闭]

我想知道如何在大型食品配送系统（如justeat）中组织数据。我想到了一些问题：数据库是如何组织的？如何分配？它是一个多...

database bigdata

回答 1 投票 -2

读取大量数据并使用python不断更新直方图

我在h5文件中存储了大量数据。每个文件具有约1200个子文件夹，这些子文件夹具有带有约65k列的表。我需要将数据放在直方图中，但我不知道数据的范围。是否有...

python arrays numpy bigdata histogram

回答 1 投票 0

什么是hadoop（单节点和多节点），spark-master和spark-worker？

我想了解以下术语：hadoop（单节点和多节点）spark master spark worker namenode datanode到目前为止，我了解的是spark master是作业执行程序，并且可以处理所有...

hadoop apache-spark hdfs bigdata

回答 2 投票 1

Ruby处理大文件时搜索并合并CSV文件

总结查看与此相对应的其他问题无济于事，因为我仍在逐行打开文件，因此我不会在大文件上用尽内存。实际上...

ruby csv bigdata large-files command-line-parsing

回答 1 投票 0

如何每次在python或pyspark中从csv读取10条记录？

我有一个具有100,000行的csv文件，我想一次读取10行，并处理每一行以每次保存到其各自的文件中，并休眠5秒钟。我正在尝试Nslice，但它只读取...

python pyspark bigdata

回答 2 投票 0

如何在浏览器中的GCP实例外部的hadoop中访问我的Namenode GUI

我刚刚在GCP实例上设置了单节点HADOOP设置。执行JPS命令显示所有进程运行正常。我想访问我的名称节点的GUI。我正在使用http：// localhost：50070 / ...

hadoop networking google-cloud-platform installation bigdata

回答 1 投票 0

哪个更适合在apache-spark，SQL查询或本机api中使用？

同时对数据集执行某些操作时，哪个更好用？找出最小值，最大值和平均值的操作。使用apache-spark的SQL查询或本机api更好吗？

java sql apache-spark bigdata

回答 1 投票 0

如何依次遍历dic中所有具有相同值的键

我正在处理一些文本文件，其中包含太多单词，我想获取所有带有length的单词。例如，首先，我想得到所有长度为2的单词，然后是3，然后是4，直到15 ... ... >>>> [[

python-3.x dictionary bigdata

回答 2 投票 1

使用Scala在Spark中创建DataFrame时出错

下面记录：请帮助我解决线程“ main”中的此异常java.lang.NoSuchMethodError：org.apache.spark.sql上的“ scala.collection.GenTraversable scala.collection.mutable.Buffer $ .empty（）” ....

scala apache-spark bigdata

回答 1 投票 0

Standalone Pyspark错误：打开的文件太多

我有一个〜40Gb（〜80m记录，仅2列，文本）数据，并且在该数据上有不同的计数。我可以在AWS的r5a.4xlarge实例上成功运行它。大约需要3分钟以返回结果。...

pyspark bigdata

回答 1 投票 -1

从长到宽重塑数据集的有效方法

我有一个看起来像这样的医学数据集：Patient_id disease_id 1111111111 DISEASE：1 1111111111 DISEASE：2 1111111111 DISEASE：3 1111111111 DISEASE：4 1111111111 DISEASE：5 1111111111 ...

r dataframe bigdata out-of-memory

回答 1 投票 0

Pandas Big DataFrame比较

我比较来自2个大数据框的记录，其中包含3列（X，Y，Z），并创建一个结果数据框，该记录记录了X和Y彼此靠近的配对数据（<0.05），适用于少量...] >

python pandas bigdata

回答 1 投票 1

来自Gsheet文件的Google Apps脚本代码复制粘贴问题

我创建了代码，将值从最新上传的Gsheet文件复制粘贴到另一个文件。该代码应该只复制满足单元格条件的值。问题是，这...

database google-apps-script google-sheets bigdata copy-paste

回答 1 投票 0

根据与r中其他数据框中的日期的差将日期转换为时间序列

我需要获取前6个月的所有注册信息，具体针对每个案例。我想设定一个人为的时间表。因此，所有案例ID都有自己的时间表。 ...

r date data.table bigdata lubridate

回答 1 投票 0

根据另一个数据帧的ID和值在一个数据帧上设置值

我的数据框有问题。第一个数据帧看起来像：id 0 1 2 3 100 0 0 0 0 101 0 0 0 0 0 102 0 0 0 0 103 0 0 0 0第二个...

python pandas dataframe mapping bigdata

回答 1 投票 0

根据r中其他数据框中单元格的特定日期将日期转换为时间序列

我需要获取前6个月的所有注册信息，具体针对每个案例。我想设定一个人为的时间表。因此，所有案例ID都有自己的时间表。 ...

r date bigdata

回答 1 投票 0

您怎么处理荒谬的数字？

在某些情况下，程序员需要或希望找到数量巨大的数字。这些通常很大，以至于无视程序员的理解力。我说的是类似...

language-agnostic bigdata largenumber

回答 2 投票 4

按日期Hive计算单个组每月的交易数量

我有一张客户交易表，客户购买的每件物品都存储为一行。因此，对于单个事务，表中可以有多行。我还有一个叫...

sql hive bigdata hiveql data-lake

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.