bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

将猪结果存储在文本文件中

我想将结果存储在文本文件中并按我想要的名称命名。是否可以使用 STORE 功能来做到这一点? 我的代码: a = 使用 PigStorage(';') 加载 'example.csv'; b = FOREACH a 生成 $0,$1,$2...

回答 2 投票 0

Spark SQL 中的 CROSS APPLY 替代方案

我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY,但spark没有CROSS APPLY。我研究了一下,发现INNER JOIN可以用...

回答 1 投票 0

如何存储大量小文本文件并快速访问?

我需要存储很多小文本文件(~30亿个,每天增长70m),大小从100B到几kB。我可以将它们分组,但组中的项目数量不可预测:从 1 到...

回答 1 投票 0

创建一个空数组而不覆盖它

我想像添加 for 循环中的列表一样添加到数组中,但要做到这一点,我需要先创建一个空数组并添加到其中。我在这个网站上看到的每一个建议都使它成为旧数组

回答 1 投票 0

有没有办法限制MapReduce程序的节点数量?

在我的 Spark 程序中,我可以通过调整 --num-executors 参数来限制程序运行的节点数量。现在我想将我的程序的可扩展性与

回答 1 投票 0

不更新数据库(仅读/写)

我们正在设计一个包含大量交易数据的银行级应用程序。 要求之一是所有事务数据只能读取和写入,而不能更新。 我们可以...

回答 2 投票 0

Apache Arrow Flight Server 作为数据即服务

我计划在s3数据存储之上构建一个arrow-flight服务器,s3数据存储有PB级的数据。 当飞行服务器将所有 1 pb 的数据加载到内存中时,我几乎不担心......

回答 1 投票 0

如何使用 Pentaho 将多个来源的数据导入到单个输出文件?

我有一个转换过程,可以从多个数据源获取数据并将它们连接到单个 CSV 输出中。 这个过程是一个原始作业,删除以前的信息并加载数据......

回答 1 投票 0

如何检查两个数据集之间的相似性并在 Snowflake 中返回分数(这可能吗?)

我有两个数据集,其中包含我公司客户的全名。两组都相当大(40-70k 行)。我想检查一下这两个群体之间是否存在相似之处。例如:如果...

回答 1 投票 0

R 中大型空间数据集的 GRTS

我正在尝试应用 spsurvey 中实现的广义随机镶嵌采样 (GRTS) 算法对地图上 300 万个点的数据集进行采样。我遇到了很多矢量内存问题...

回答 1 投票 0

并行计算:分布式系统与多核处理器?

我只是想知道为什么需要经历创建分布式系统以进行大规模并行处理的所有麻烦,而我们可以创建支持hu的单独机器...

回答 3 投票 0

SQL交叉应用于Pyspark

我在我的查询中有交叉应用,我想在 pyspark 中转换它- 从表1a中选择* 在 a.index = b.index 上左连接 table2 b 交叉应用( 从 table3 p 中选择前 1 个 *,其中 a.id = p.id 且...

回答 1 投票 0

Delta Lake 表写入无需架构强制执行

我有一张按小时分区的 Delta Lake 表。表架构包括: colA(字符串类型) colB(int类型) colC(结构类型) 当我执行历史加载时,所有分区都会填充正确的...

回答 1 投票 0

将大型数据集流式传输到子进程(作为 JSON)

我正在尝试将存储在内存中的大量数据发送到子进程。具体来说,我有一个在 Node.js 中表示为 JSON 的大型数据集,我想将其发送到我所在的子进程

回答 1 投票 0

如何更新 MarkLogic 中非常大的文档的 XML 集合?

我正在 MarkLogic 中处理一个大型 XML 文件——大约 50MB,长 700,000 行。该任务涉及使用 XQuery 模块添加和删除特定集合。以前,我使用 xdmp:invoke-

回答 1 投票 0

如何从Python中具有2000万行的特定列中删除重复项

我想从一个大的 csv 中删除重复项。我有这个 csv 格式的数据 client_id;性别;年龄;专业;addr_cntry;NAZOKRESU;prijem_AVG_6M_pasmo;cont_id;main_prod_id;bal_actl_am_pasmo 第388章...

回答 3 投票 0

在没有 pandas 的情况下连接大型 csv 文件

我想连接400个具有相同列数但列名不同的csv大文件 例如 文件#1 ID 101意思是 a1 2 a2 6 文件#2 ID 202 意思是 a1 3 a2 2 预期结果...

回答 2 投票 0

高效获取滑动窗口序列(大数据集)

我存储的数据集只是DNA序列的坐标。 df: chr 开始停止标签 字符1 9000 9100 1 字符1 8803 8903 1 字符1 8903 9000 0 我的目标是...

回答 1 投票 0

如何通过安全连接在整个 nginx 中运行 NiFi

我有 NiFi,通过 Keycloak 进行 OpenId 身份验证。一切都很好。但又出现了一个额外的任务:通过 Nginx 访问 NiFi。我根据 NiFi 文档配置了一切,...

回答 1 投票 0

PySpark 中的嵌套 if 等效项是什么?

我是 pySpark 的初学者,我正在努力丰富一个数据框,该数据框从其他 2 个数据框执行查找,我想要实现的是: 这是一个例子: 传入路径 传出路径

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.