bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

我只是想知道：是否可以访问在Knime中启动的BigData Environment Node？我在Knime工作流程中有一个节点。从Knime外部，我使用findspark编写了Python脚本，但是... ... >>

pyspark bigdata knime

回答 1 投票 1

我有两个数据集，一个描述位置，第二个描述具有不同的点：locations.head（）纬度经度geobounds_lon1 geobounds_lat1 geobounds_lon2 geobounds_lat2 0 52.5054 13 ....

python bigdata geospatial

回答 1 投票 1

将具有不同列的大数据文件合并为一个大文件

我有N个制表符分隔的文件。每个文件都有一个标题行，其中包含各列的名称。有些列对所有文件都是公用的，但有些列是唯一的。我想合并所有文件...

bash dataframe bigdata multiple-columns cat

回答 2 投票 0

对r中大数据帧的简单操作

我有一个相对较大的数据帧。它包含大约4000万行和12列，请在下面查看部分内容。具体来说，这是美国各县平均3小时的臭氧数据。每行...

r merge bigdata

回答 1 投票 0

如何检查Spark Scala中的列名称和与其关联的数据是否匹配

假设我的几列如下：EMP_ID，EMP_NAME，EMP_CONTACT 1，SIDDHESH，544949461现在，我要验证数据是否与列名架构同步。对于其中的EMP_NAME数据...

scala apache-spark bigdata

回答 1 投票 0

如何在Corda中处理大型保管库？

我们库中的数据是可管理的。最终，我们将积累大量的资源。不可能每天都保留如此大的数据。我们想定期存档或...

bigdata corda

回答 1 投票 4

需要有关如何从字符串中提取ID的帮助[关闭]

hive bigdata hue

回答 1 投票 -1

SQOOP-将配置单元中的ORC格式表导出到DB2数据库中

我正在尝试下面的代码将蜂巢中的orc格式的表导出到DB2数据库。 sqoop export --connect jdbc：db2：// *****：***** / DV --username test --password test11 –-table DEP.Table1错误消息：...

hive bigdata sqoop sqoop2

回答 1 投票 0

我如何以编程方式有效地生成非常大的测试数据表？

目标：一个.csv，以0-100的值填充17列，其增量为5。.csv应该记录所有行，其中一行中的值之和等于100。（仅以及所有组合的总和为...

arrays csv bigdata

回答 1 投票 0

有条件选择两个数据帧R

假设A和B是两个数据帧，最快的方法是：找到A> 0和B <0的实例？即A大于零，前提是B小于零。这两个...

r dataframe bigdata conditional-statements

回答 1 投票 0

如何将多个熊猫数据帧转换为受内存约束的数组？

给定的问题：我的文件夹从folder1命名为folder999。在每个文件夹中都有实木复合地板文件-从1.parquet到999.parquet命名。每个实木复合地板均由给定...

python pandas bigdata

回答 1 投票 0

需要使用Oracle金门大数据和kafka处理程序基于分区从oracle 12c复制数据

有人可以帮我解决以下问题吗？我想将数据从oracle复制到MongoDB，我的应用程序流程如下所示：Oracle 12c（DB）-> Oracle Golden Gate Classic ---> Oracle golden ...

bigdata oracle12c oracle-golden-gate

回答 1 投票 0

如何从Dask数据框中选择n个等距行？

我有很多镶木地板文件，其中所有块在一起太大，无法容纳到内存中。我想将它们加载到dask数据框中，计算一些结果（总和），然后显示...

python bigdata dask

回答 1 投票 0

使胶水在作业后删除源数据

bigdata etl aws-glue

回答 1 投票 0

在同一表上不存在MySQL SELECT

我们有一个数据库表，其中包含约6亿行组织记录。一个组织可能在记录表中有多行，在其中记录了...

mysql bigdata

回答 1 投票 0

如何读取数据以整理数据框并删除不良行

我正在尝试使用dask聚合具有多行不良数据的大型（66gb）数据库。由于dask没有消除不良行功能，因此我首先将所有数据读为pandas数据框，然后...

python pandas bigdata data-science dask

回答 1 投票 0

气流：如何重新运行依赖的DAG

假设我具有以下DAG依赖项：/> DAG B-> .... // DAG A ---> DAG C-> ... \ \ \> DAG D-> ...这些DAG每天都在运行，...

hadoop bigdata airflow airflow-operator

回答 2 投票 0

如何使用Spark识别数据集中的属性级别重复项

下表具有两行相同，但是数据捕获已更改了firstname和secondname列。但是这些行是重复的，并且输出数据帧/数据集应仅包含一个...

database apache-spark bigdata filtering data-analysis

回答 1 投票 0

连续日志文件处理并使用python提取所需数据

我必须分析一个日志文件，该文件将连续生成24 * 7。因此，数据将是巨大的。我将获得凭证到生成日志文件的位置。但是我如何获得流数据（我的意思是...

python logging bigdata

回答 3 投票 1

如何计算数据集的第99个百分位数

我有两个样本量的权重平均值的数据集，我有100,000个测试，我试图找出第99个百分位数，但我不知道该怎么做，我已经找到了中位数...] >

r bigdata rstudio

回答 1 投票 0

bigdata 相关问题

最新问题