bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

用分块的加速器数据集工作

我们在加速器中有一个巨大的数据集，我们需要对每一行执行一些非常昂贵的操作。如果我们想一次性处理整个数据集，需要花费数周的时间，所以我们想...

python bigdata data-mining

回答 1 投票 0

排序算法正确性验证

我试图验证一个排序算法S的正确性，该算法正在对一个至少4GB的大数组A进行排序。假设S是按非递减顺序排序，只检查A[i - 1] <= A[i]为1 &...。

c++ sorting hash bigdata correctness

回答 1 投票 0

在angualar 8中，通过什么方式可以提高表的数据获取性能呢？

我使用的是Angular 8和材料设计，包括table。我使用路由解析器获取7000行左右，然后我再循环把日期格式改成时间和格式，这样用户就可以阅读了，不 ...

angular-material bigdata angular8

回答 1 投票 0

Spark - 在groupby和collect过程中，保持各列数据的顺序。

如果我有ID Name Code Value 1 Person1 A 12 1 Person2 B 15 而我做了一个df.groupBy("ID").agg( collect_set("Name").alias("Name"), collect_set("Code").alias("Code"), ...

scala apache-spark hadoop bigdata

回答 1 投票 0

Pyspark：洗牌RDD

我试图随机排列RDD中元素的顺序。我目前的方法是用洗牌整数的 RDD 压缩元素，然后用这些整数连接。然而，pyspark 掉落在 ...

python hadoop apache-spark bigdata pyspark

回答 2 投票 7

MySQL服务器消失或在查询过程中失去连接

我用的是MySQL+Django，我在数据库中下载和更新数据。我有几个大的查询有时会失败-> "MySQL服务器已经走了 "查询是这样的SELECT * FROM ...。

python mysql sql django bigdata

回答 1 投票 1

在python中批量处理非常大的文本文件。

我正试图将一个非常大的文本文件（大约150千兆字节）批处理成几个较小的文本文件（大约10千兆字节）。我的一般过程是 # 迭代文件，一行一行... ...

python bigdata

回答 1 投票 1

一种 "合并 "数据框的方法，具有匹配值但复杂的交互作用。

我有两个不同的DataFrames，我想合并EventNames和Class Code列。我看到了一些线程，是有，但我无法找到我的问题的解决方案。我也读到了这个...

python pandas dataframe merge bigdata

回答 1 投票 0

处理大量的推文，进行探索性数据分析，如独特的推文数量，以及每个用户的推文数量直方图。

我有14M的推文，这些推文在一个tweet.txt文件中（给我的），其中整个推文的JSON是txt文件的一行。我想得到一些基本的统计数字，比如独特的数量 ...

python json pandas twitter bigdata

回答 0 投票 0

执行程序核心的数量可以大于Spark任务的总数吗？

当执行者核心大于Spark任务数量时会发生什么？这种情况可能吗？如果是，多余的内核会发生什么？

apache-spark bigdata

回答 1 投票 0

Pyspark：Pyspark中的任何函数都生成相同的连续唯一值集吗？如numpy.arange（）

Pyspark：Pyspark中的任何函数是否生成相同的唯一值集，以用作两个数据框之间的公共列，以后可用于联接？如果您需要...，请发表评论...

dataframe apache-spark hadoop pyspark bigdata

回答 1 投票 0

azdata由于配置文件错误而出错

全部，管理员今天设置了一个3节点AKS群集。我通过运行az命令az aks get-credentials --name AKSBDCClus --resource-group AAAA-Dev-RG --subscription AAAA -...

bigdata config kubectl azure-aks sql-server-2019

回答 1 投票 0

关于大数据ETL工作成本有效设计需要一些建议

我在设计每小时/每天处理的大数据ETL作业时需要一些建议。我需要一个在1.8TB元数据上定期运行的系统，以将数据转换为下游的计费报告...

amazon-dynamodb bigdata amazon-emr

回答 1 投票 -1

不同加速器方法的通用代码

是否有共享多个加速器方法使用的python模块的推荐方法，如果是，那是什么？关于

python bigdata data-mining

回答 1 投票 -2

Awk比lz4解压慢

我有50万个文件，每个文件290 MB，其中大多数都是数字。我想（常规地）过滤掉这些数据，但是发现awk比解压缩要慢。例如，/ usr / bin / ...

awk bigdata throughput lz4

回答 1 投票 0

基于共同值合并大数据集中的行

我有54,000行和500列的数据，但是特定列“策略编号”中的许多值具有相同的策略编号，因为数据集包括随时更改货币值的情况（...

r merge bigdata aggregate

回答 2 投票 0

如何在Spark数据框的列值中进行字符串处理

我对Spark非常陌生，我必须执行字符串操作操作并在spark数据帧中创建新列。我创建了用于字符串操作的UDF函数，由于性能我想...

apache-spark apache-spark-sql bigdata

回答 1 投票 0

大数据表MySQL查询优化

我正在尝试优化我的MySQL查询以使其运行更平稳，但现在我陷入了困境。我正在使用以下查询：SELECT sr.path，sr.keywordId，sr.rank从serp_results sr在哪里sr.domain = ...

mysql sql optimization bigdata

回答 1 投票 -1

如何优化一个函数，该函数包含for循环和数据帧中的2000万行

我有一个熊猫数据帧df，如下所示：student_id category_id count 1 111 10 2 111 5 3 222 8 4 333 ...

python pandas dataframe optimization bigdata

回答 2 投票 1

是否有用于数据沿袭的GCP产品？

我需要提出一个带有GCP产品的体系结构，但是我找不到用于数据沿袭的GCP产品。有人知道它是否存在，或者该功能是否会在某个时候可用？问候！

google-cloud-platform bigdata data-lineage

回答 1 投票 0

bigdata 相关问题

最新问题