bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

用分块的加速器数据集工作

我们在加速器中有一个巨大的数据集,我们需要对每一行执行一些非常昂贵的操作。如果我们想一次性处理整个数据集,需要花费数周的时间,所以我们想...

回答 1 投票 0

排序算法正确性验证

我试图验证一个排序算法S的正确性,该算法正在对一个至少4GB的大数组A进行排序。假设S是按非递减顺序排序,只检查A[i - 1] <= A[i]为1 &...。

回答 1 投票 0

在angualar 8中,通过什么方式可以提高表的数据获取性能呢?

我使用的是Angular 8和材料设计,包括table。我使用路由解析器获取7000行左右,然后我再循环把日期格式改成时间和格式,这样用户就可以阅读了,不 ...

回答 1 投票 0

Spark - 在groupby和collect过程中,保持各列数据的顺序。

如果我有ID Name Code Value 1 Person1 A 12 1 Person2 B 15 而我做了一个df.groupBy("ID").agg( collect_set("Name").alias("Name"), collect_set("Code").alias("Code"), ...

回答 1 投票 0

Pyspark:洗牌RDD

我试图随机排列RDD中元素的顺序。我目前的方法是用洗牌整数的 RDD 压缩元素,然后用这些整数连接。然而,pyspark 掉落在 ...

回答 2 投票 7

MySQL服务器消失或在查询过程中失去连接

我用的是MySQL+Django,我在数据库中下载和更新数据。我有几个大的查询有时会失败-> "MySQL服务器已经走了 "查询是这样的SELECT * FROM ...。

回答 1 投票 1

在python中批量处理非常大的文本文件。

我正试图将一个非常大的文本文件(大约150千兆字节)批处理成几个较小的文本文件(大约10千兆字节)。我的一般过程是 # 迭代文件,一行一行... ...

回答 1 投票 1

一种 "合并 "数据框的方法,具有匹配值但复杂的交互作用。

我有两个不同的DataFrames,我想合并EventNames和Class Code列。我看到了一些线程,是有,但我无法找到我的问题的解决方案。我也读到了这个...

回答 1 投票 0

处理大量的推文,进行探索性数据分析,如独特的推文数量,以及每个用户的推文数量直方图。

我有14M的推文,这些推文在一个tweet.txt文件中(给我的),其中整个推文的JSON是txt文件的一行。我想得到一些基本的统计数字,比如独特的数量 ...

回答 0 投票 0

执行程序核心的数量可以大于Spark任务的总数吗?

当执行者核心大于Spark任务数量时会发生什么?这种情况可能吗?如果是,多余的内核会发生什么?

回答 1 投票 0

Pyspark:Pyspark中的任何函数都生成相同的连续唯一值集吗?如numpy.arange()

Pyspark:Pyspark中的任何函数是否生成相同的唯一值集,以用作两个数据框之间的公共列,以后可用于联接?如果您需要...,请发表评论...

回答 1 投票 0

azdata由于配置文件错误而出错

全部,管理员今天设置了一个3节点AKS群集。我通过运行az命令az aks get-credentials --name AKSBDCClus --resource-group AAAA-Dev-RG --subscription AAAA -...

回答 1 投票 0

关于大数据ETL工作成本有效设计需要一些建议

我在设计每小时/每天处理的大数据ETL作业时需要一些建议。我需要一个在1.8TB元数据上定期运行的系统,以将数据转换为下游的计费报告...

回答 1 投票 -1

不同加速器方法的通用代码

是否有共享多个加速器方法使用的python模块的推荐方法,如果是,那是什么?关于

回答 1 投票 -2

Awk比lz4解压慢

我有50万个文件,每个文件290 MB,其中大多数都是数字。我想(常规地)过滤掉这些数据,但是发现awk比解压缩要慢。例如,/ usr / bin / ...

回答 1 投票 0

基于共同值合并大数据集中的行

我有54,000行和500列的数据,但是特定列“策略编号”中的许多值具有相同的策略编号,因为数据集包括随时更改货币值的情况(...

回答 2 投票 0

如何在Spark数据框的列值中进行字符串处理

我对Spark非常陌生,我必须执行字符串操作操作并在spark数据帧中创建新列。我创建了用于字符串操作的UDF函数,由于性能我想...

回答 1 投票 0

大数据表MySQL查询优化

我正在尝试优化我的MySQL查询以使其运行更平稳,但现在我陷入了困境。我正在使用以下查询:SELECT sr.path,sr.keywordId,sr.rank从serp_results sr在哪里sr.domain = ...

回答 1 投票 -1

如何优化一个函数,该函数包含for循环和数据帧中的2000万行

我有一个熊猫数据帧df,如下所示:student_id category_id count 1 111 10 2 111 5 3 222 8 4 333 ...

回答 2 投票 1

是否有用于数据沿袭的GCP产品?

我需要提出一个带有GCP产品的体系结构,但是我找不到用于数据沿袭的GCP产品。有人知道它是否存在,或者该功能是否会在某个时候可用?问候!

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.