bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

搜索存储在Azure Data Lake中的数据

我有以下构建Data Lake的用例(例如在Azure中):我的组织处理的公司都破产了。公司破产后,需要移交所有...

回答 1 投票 0

将大型800gb json文件从远程服务器上传到elasticsearch

我正在尝试将800gb json文件从远程服务器上传到我的本地服务器,但是elasticsearch一直被杀死。我正在使用此代码上传数据curl -XPOST http:// localhost:9200 / carrier / ...

回答 2 投票 0

UFuncTypeError dtype u32

结节识别模型此模型从肺部扫描(3D图像)中获取少量(块)作为输入,并将块分为两类:0类:块不包含1类结节:...

回答 1 投票 1

MySQL-使用迭代整数更新选择项

你好,互联网书呆子!从技术上讲,我已经解决了这个问题,但是我想知道是否应该采用更理想的路线...我有一个大表(〜4m行),它是数据的集合,...

回答 2 投票 0

分组具有最大价值的类别

这是我的桌子+ --------------- + --------------------------- --- + --------------- +-+ | trading_year | ...

回答 1 投票 1

Pyspark中的数据帧

我只是从数据框中删除一列。它被丢弃了。调用show方法后,好像没有在数据框中删除列。代码:df.drop('Salary')。show()+ ----- + |名称| + ----- + | ...

回答 2 投票 0

Qubole中有关宽数据的PySpark机器学习

我有一个大的数据集,大约有250个特征,我想在梯度增强的树分类器中使用。我有数以百万计的观察结果,但是我无法使模型正常工作...

回答 1 投票 0

Airit initdb slot_pool不存在

[我在postgres后端Ubuntu上遇到气流初始化问题:18.04.1气流:v1.10.6 Postgres:10.10 Pyhton 3.6当我运行气流initdb时,我得到[2019-11-22 10:17:23 ,. ..

回答 2 投票 3

加入两个流水线RDD

我正在尝试在pyspart jupyter笔记本中使用.join()连接两个流水线的RDD:第一个RDD:primaryType.take(5)[“欺骗性实践”,“犯罪性攻击”,“盗窃”,“盗窃”,“犯罪性” ...

回答 1 投票 0

将唯一键值分配给每个流水线RDD中的元素

我有一个管道RDD:districts.take(5)['004','022','008','003','001']我希望每个元素都具有一个唯一的键,例如:[(1,' 004'),(2,'022')等...]我该怎么做?

回答 1 投票 0


比较两个大数据-2000万个产品

我想比较基于标题的两个产品数据库,我要比较的第一个数据是大约300万,第二个数据是1000万,我这样做是因为要删除重复的数据...

回答 5 投票 0

通过从旧数据框pyspark中选择列将列附加到新创建的数据框中

我正在阅读JSON,我有一个字典(dictn),其键告诉我应该从JSON df中选择哪些列。我正在尝试创建一个新的df,然后将其键从...

回答 1 投票 0

我如何打开和处理800PB超沉重的CSV文件?

我如何打开800 PB的文件?这是一些数据科学竞赛的文件-807167556410028 kb = 800000,556410028 TB =〜800PB存档为600 mb,但是由于...] >>

回答 1 投票 1

如何使用PySpark SQL以分钟为单位找到2个时间戳差异?

SQL:DATEDIFF(mi,ClockInUTC_End,ClockInUTC_Snd)TimeinMinutes我想在PySpark SQL中使用它作为替代。 spark.sql(“”)

回答 1 投票 -1

ETL设计:应该使用什么队列而不是SQL表并且仍然能够并行处理?

需要您的帮助来重新设计系统。我们有非常简单的ETL,但也很旧,现在当我们处理大量数据时,它变得非常缓慢且不灵活,第一个过程是...

回答 1 投票 0

在R中的某个日期表单列表上获取时间

我有一个随时可以减除的时间列表:time

回答 2 投票 0


ETL设计-我应该使用什么队列而不是SQL表,并且仍然能够并行处理

需要您的帮助来重新设计系统。我们有非常简单的ETL,但也很旧,现在,当我们处理大量数据时,它变得非常缓慢且不灵活,第一个过程是...

回答 1 投票 0

为什么这样输出,为什么第二行在第二列中给出NULL值,选择堆栈(2,'A',10,date'2015-01-01',1,'B',date'2015 -02-02',2)

为什么这样输出,为什么第二行在第二列中给出NULL值呢?选择stack(2,'A',10,date'2015-01-01',1,'B',date'2015-02-02 ',2):0:jdbc:hive2://sandbox-hdp.hortonworks.com:1> ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.