bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

Knime BigData本地环境和findspark

我只是想知道:是否可以访问在Knime中启动的BigData Environment Node?我在Knime工作流程中有一个节点。从Knime外部,我使用findspark编写了Python脚本,但是... ... >>

回答 1 投票 1

最有效的方法来计算许多点之间的地理空间距离?

我有两个数据集,一个描述位置,第二个描述具有不同的点:locations.head()纬度经度geobounds_lon1 geobounds_lat1 geobounds_lon2 geobounds_lat2 0 52.5054 13 ....

回答 1 投票 1

将具有不同列的大数据文件合并为一个大文件

我有N个制表符分隔的文件。每个文件都有一个标题行,其中包含各列的名称。有些列对所有文件都是公用的,但有些列是唯一的。我想合并所有文件...

回答 2 投票 0

对r中大数据帧的简单操作

我有一个相对较大的数据帧。它包含大约4000万行和12列,请在下面查看部分内容。具体来说,这是美国各县平均3小时的臭氧数据。每行...

回答 1 投票 0

如何检查Spark Scala中的列名称和与其关联的数据是否匹配

假设我的几列如下:EMP_ID,EMP_NAME,EMP_CONTACT 1,SIDDHESH,544949461现在,我要验证数据是否与列名架构同步。对于其中的EMP_NAME数据...

回答 1 投票 0

如何在Corda中处理大型保管库?

我们库中的数据是可管理的。最终,我们将积累大量的资源。不可能每天都保留如此大的数据。我们想定期存档或...

回答 1 投票 4


SQOOP-将配置单元中的ORC格式表导出到DB2数据库中

我正在尝试下面的代码将蜂巢中的orc格式的表导出到DB2数据库。 sqoop export --connect jdbc:db2:// *****:***** / DV --username test --password test11 –-table DEP.Table1错误消息:...

回答 1 投票 0

我如何以编程方式有效地生成非常大的测试数据表?

目标:一个.csv,以0-100的值填充17列,其增量为5。.csv应该记录所有行,其中一行中的值之和等于100。(仅以及所有组合的总和为...

回答 1 投票 0

有条件选择两个数据帧R

假设A和B是两个数据帧,最快的方法是:找到A> 0和B <0的实例?即A大于零,前提是B小于零。这两个...

回答 1 投票 0

如何将多个熊猫数据帧转换为受内存约束的数组?

给定的问题:我的文件夹从folder1命名为folder999。在每个文件夹中都有实木复合地板文件-从1.parquet到999.parquet命名。每个实木复合地板均由给定...

回答 1 投票 0

需要使用Oracle金门大数据和kafka处理程序基于分区从oracle 12c复制数据

有人可以帮我解决以下问题吗?我想将数据从oracle复制到MongoDB,我的应用程序流程如下所示:Oracle 12c(DB)-> Oracle Golden Gate Classic ---> Oracle golden ...

回答 1 投票 0

如何从Dask数据框中选择n个等距行?

我有很多镶木地板文件,其中所有块在一起太大,无法容纳到内存中。我想将它们加载到dask数据框中,计算一些结果(总和),然后显示...

回答 1 投票 0


在同一表上不存在MySQL SELECT

我们有一个数据库表,其中包含约6亿行组织记录。一个组织可能在记录表中有多行,在其中记录了...

回答 1 投票 0

如何读取数据以整理数据框并删除不良行

我正在尝试使用dask聚合具有多行不良数据的大型(66gb)数据库。由于dask没有消除不良行功能,因此我首先将所有数据读为pandas数据框,然后...

回答 1 投票 0

气流:如何重新运行依赖的DAG

假设我具有以下DAG依赖项:/> DAG B-> .... // DAG A ---> DAG C-> ... \ \ \> DAG D-> ...这些DAG每天都在运行,...

回答 2 投票 0

如何使用Spark识别数据集中的属性级别重复项

下表具有两行相同,但是数据捕获已更改了firstname和secondname列。但是这些行是重复的,并且输出数据帧/数据集应仅包含一个...

回答 1 投票 0

连续日志文件处理并使用python提取所需数据

我必须分析一个日志文件,该文件将连续生成24 * 7。因此,数据将是巨大的。我将获得凭证到生成日志文件的位置。但是我如何获得流数据(我的意思是...

回答 3 投票 1

如何计算数据集的第99个百分位数

我有两个样本量的权重平均值的数据集,我有100,000个测试,我试图找出第99个百分位数,但我不知道该怎么做,我已经找到了中位数...] >

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.