大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。
我在网上阅读的所有Data Lake文章都说,登陆区包含文件形式的原始数据。但是,让我们说,我正在从某些物联网设备中提取流数据。然后可以把...
我有一个像这样的DataFrame(尽管更大),我想将其转换/旋转为一个具有唯一条形码作为列,索引作为ID_Pin的DataFrame。像这样的defivot_dataframe(...
我正在进行一个航班推荐项目,该项目将给出每个来源的机场代码以及一些数据。为此,我必须预测飞机可以到达的目的地。我有...
我已经在RHEL 7上构建了一个3节点的MongoDB 3.2.3集群。由于加密是此版本的MongoDB中的一项新功能,因此我尝试在配置文件中以其他方式启用它。以下是我的一部分...
我目前正在大学学习,并且正在从事有关大数据项目需求分析的研究项目。我问大数据生命周期中的哪个阶段可以应用需求分析。 ...
我有一个大的txt文件(大约20GB),我想替换此大文件中的单词列表的所有实例。我正在努力寻找一种优化此代码的方法。这导致我处理此...
如何将列的值与Spark上单独dataFrame上列的所有行进行比较
我有这两个数据框。我的目标是将第一个数据帧上的“ FilteredDescription”列的每个值与第二个数据帧上的“ Name”列的所有值进行比较。
如何开始学习大数据?作为开发人员,我需要专注于哪些模块[关闭]
我正计划学习大数据。我只是看过教程,但从开发人员的角度来看,我需要集中精力于哪些模块,这让我有些困惑。目前我正在工作...
我正在尝试在C语言中创建合并排序算法。问题在于,它不适用于大量元素。如果数组具有100000个元素,则可以,但是如果数组具有1e6或1e7,则会崩溃。我...
如何从文本文件存储变量并操纵其内容:Spark RDD / Scala-
我不确定如何将数据读入可管理的变量或操纵数据以获取最高和最低的销售数据。任何建议都很好!提前致谢。 ...
按ID分组,按日期排序并获取值作为大数据python上的列表
我有一个大数据(3000万行)。每个表都有id,date,value。我需要遍历每个id,并根据这些id获取按日期排序的值列表,因此第一个值是该列表将是较旧的日期。 ...
嗨,我实际上在大数据平台中有一个问题。我们可以使用任何GUI Sql工具通过在腻子或odbc连接中通过beeline(beeline命令)连接到蜂巢。但是我们如何连接到Hbase?按照...
[您需要提供一些示例数据,这些数据构成verified,并且可以验证retweet_count计数的格式。就是说,awk是完成任务的工具,您可以使用两个规则(或两个条件)来完成所需的工作。
我是Cassandra的新手,我想进一步了解Cassandra的架子和结构。假设我在Cassandra和两个AWS2实例中有大约70个列族。将有多少个数据中心...
我有两个数据框:首先具有AVG值:+ ---------- + ----- + |分类| AVG | + ---------- + ----- + | Categ | 1.0 | + ---------- + ----- + | Categ2 | 0.5 | + ---------- + ----- + ... ......
如何忽略Spark Dataframe中从CSV读取输入数据的双引号?
我想通过从csv文件读取输入来创建Spark数据框(不带双引号),如下所述。这是我的代码,但到目前为止没有用。 val empDF = spark.read.format(“ com.databricks ....
在Spark Java中具有空数据集的带有标题(列名)的csv打印csv文件
我必须在.csv文件中打印数据集,但条件是1),如果数据集为空,那么我只能在csv文件(如ID | FIRSTNAME | LASTNAME |中)打印标题(带有管道分隔符的列名) ...
我在h5文件中存储了大量数据。每个文件都有约1200个子文件夹,这些子文件夹具有约65k列的表。我需要将数据放在直方图中,但我不知道数据的范围。是否有...
我想知道如何在大型食品配送系统(如justeat)中组织数据。我想到了一些问题:数据库是如何组织的?如何分配?它是一个多...
我在h5文件中存储了大量数据。每个文件具有约1200个子文件夹,这些子文件夹具有带有约65k列的表。我需要将数据放在直方图中,但我不知道数据的范围。是否有...