bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

我如何在生成器中使用python多处理?

我想在带有生成器函数的python中使用多重处理假设我有一个庞大的list big_list列表,我想使用多重处理来计算值。如果我使用“ ...

回答 2 投票 -1

Python中的内存效率高的替代品可以清空列表并追加?

我在python中使用了相当大的数据集,并且使用列表的内存效率太低。伪代码如下:thelist = [] for range(N)中的x:value = function_call()...

回答 1 投票 0

如何使用Hive显示信息架构?

有什么方法可以使用Hive实现information_schema?另外,在Hive中进行数据分析的过程是什么?在SQL的示例中,我们使用如下所示的Information_Schema:SELECT * FROM ...

回答 2 投票 1

Google BigQuery中的姓名

将FullName拆分为firstName和lastName。我想将基于“,”的全名拆分为firstName和LastName。 “,”之前的任何内容都应选择为firstName,“,”之前的任何内容都应为...

回答 1 投票 0

在R中存在重复项的情况下,在两列中查找值(已编辑)

作为一个新手,我正在努力解决大型数据集的以下问题。我想在“ CHROM”列中查找比较两列CLONEID的值(第二列包含...

回答 1 投票 -1

在R中存在重复项时在两列中查找值

作为一个新手,我正在努力解决大型数据集的以下问题。我想在“ CHROM”列中查找两列CLONEID的值(第二列包含...

回答 1 投票 0

计算订户的呼叫频率SQL Netezza

我正在处理一个具有数十亿行的报告中的电信公司的CDR(呼叫详细记录)数据,我要求一个SQL查询,该查询可以让我分析订户对特定呼叫的呼叫频率...

回答 1 投票 0

用最少的内存损耗在python中记录实时数据的最快方法是什么>

在循环的每一步中,我都有一些数据要最终保存到硬盘中。一种方法:list = [] for range(1e10)中的i:list.append(numpy_array_i)pickle.dump(list,open(self ....

回答 2 投票 0

toDF不是Seq的成员,toDS不是Seq的成员

[我正在尝试使用以下代码将序列转换为数据框或数据集。这似乎很简单,但是这样做时却出现异常。不确定我犯了什么错误。我试图...

回答 2 投票 0

解释python中.filter代码的含义

我是Bigdata和Python的新手。请解释一下.filter(“ {0}和{1}之间的” year * 10000 + month * 100 + day“。format(start,end))

回答 1 投票 -2

Aws胶目录表保留时间

从AWS文档中,这是一个https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-catalog-tables.html,他们提到了“保留-数字(整数),而不是更多保留时间...

回答 1 投票 2

通过远程浏览器访问超级集

我已经在远程Linux服务器上安装了Apache Superset,并在端口8080上对其进行了初始化。当我在Linux服务器上启动localhost:8080时,将显示主页,这表明...

回答 1 投票 0

用SQL处理“大量”库存的最佳方法是什么?

我正在考虑构建像《炉石传说》一样的在线纸牌游戏。玩家将有无限的存货来存储他们拥有的所有卡牌。使用这种方法,他们的...

回答 2 投票 0

Oarcle:有效地where子句过滤timestamp列以获取特定日期的所有记录

我在Oracle中有一个按时间戳列划分的每月分区表。该表包含2019年历史记录数据中的> 10亿行。现在,我想过滤该表以获取特定日期的所有结果,...

回答 1 投票 0

如何并行处理列表的“大数据”字典?

我在这里有一个关于在python字典上进行计算的问题-在这种情况下,字典有数百万个键,并且列表也很长。似乎有分歧...

回答 2 投票 1

优化大型python字典的解析,多线程

让我们看一个小的示例python字典,其中的值是整数列表。 example_dict1 = {'key1':[367,30,847,482,887,654,347,504,413,821],'key2':[754,915,622,149,279,...

回答 2 投票 0

学习Apache Spark和大数据

对于一个在Java 3和Oracle 7.3流行之后很长一段时间后又尝试回归编码和概念的返回者,学习大数据和Spark的最佳方法是什么?

回答 1 投票 0

带有大小写和的Spark SQL

我有一个配置单元表,其中有列(id,dept,salary),我正在使用spark SQL在该表上进行一些转换。即,如果部门是人力资源部门,那么薪水=薪水+100,如果部门是IT部门...

回答 1 投票 0

如何删除两列值相加不等于第三列的行?

我有列:'住宅单位''商业单位''总单位'我想删除'住宅单位'+'商业单位'!='总单位'的行,谢谢!!

回答 1 投票 -1

如何用熊猫的分组平均值替换列的空值?

我正在清理数据集,并希望将所有空销售价格替换为该特定邮政编码的平均平均值。我认为,首先我需要将所有邮政编码与...

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.