bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

是否可以增加AWS Athena中的最大行大小?

我正在使用AWS Athena运行此查询:SELECT t1。* FROM“ db”。“ tbl1” t1 INNER JOIN“ tbl1”。“ ema” ea ON ea.id = concat(t1.numc,t1.nummt)在ea.cod1 ='23'和ea.cod2 ='776'并得到...

回答 1 投票 1


显然,我不能容忍

我删除此问题,因为Stackoverflow不允许我删除它。他们清除了我的个人资料,因为他们发现上帝的基本诫命令人反感。我的名字没有关联...

回答 5 投票 41

Python Pandas,如何对字典和排序列表进行分组

我有一个字典列表,例如:data = [{'ID':'000681','type':'B:G +','testA':'11'},{'ID':'000682', 'type':'B:G +','testA':'-'},{'ID':'000683','type':'B:G +','testA':'13'},...

回答 1 投票 0

无法在Sqoop导出中自定义的映射器数量

之前,从Hive Table到SQLDatabase的Sqoop导出中,是否有人使用过自定义映射器?我使用了以下带有33个映射器的sqoop命令来执行sqoop导出:sqoop ...

回答 1 投票 0

os.listdir()如何在非常大的文件夹上执行?

我计划获取大量的数据文件夹。该文件夹的总大小约为2TB,其中包含约200万个文件。我将需要对那些...

回答 2 投票 1

如何提取更改日志,如更新,删除和插入表中

是否有一种方法可以在两个不同的时间从表中提取更改?我们在1和2时刻都有这个表。我们想提取更新,插入或删除的行。该表可能容量很大...

回答 1 投票 0

具有弹出值功能的Nosql文件DB

我正在寻找一种支持以下数据格式的nosql文件数据库:key1-> [1、2、3] key2-> [a,b,c] key3-> [x,y,z]具有弹出,这样经过...

回答 1 投票 1

哪个数据库用于按天比较数据过程?

我目前正在考虑一个小的“ BigData”项目,我想每10分钟记录一些使用情况,并在几个月或几年内将它们写入数据库。然后,我想分析数据e ....

回答 1 投票 1

基于实时应用的纱线与Spark处理引擎?

我了解Yarn和Spark。但是我想知道何时需要使用Yarn和Spark处理引擎。有哪些不同的案例研究,可以识别纱线和火花之间的区别?

回答 2 投票 3

PostgreSQL索引表的性能突然下降

我有一个项目,该项目在PostgreSQL数据库中使用一个庞大且不断增长的表。我使用PostgreSQL11。我在作为哈希签名的列上有一个索引(btree索引),该索引必须是唯一的。该数据库是...

回答 1 投票 1

PySpark传递给用户定义功能的列表

我有一个只有一列的DataFrame。在此列的每一行中,都有一个列表,其中包含不同数量的整数。例如,第1行有一个包含5个整数的列表。第2行有一个包含8个整数的列表...

回答 1 投票 0

Pyspark中的采样

Pyspark的新增功能,我正在从HDFS加载JSON文件。它一次从一个日志中读取数据。假设从每个日志中获取date,config1d并将其加载到JSON文件中。有没有办法...

回答 2 投票 0

apache-arrow-flight与apache-kafka之间的差异(通过网络访问大型数据集)[关闭]

据我所知,两个平台都支持大数据提取(流)。每个平台的优缺点是什么?

回答 1 投票 -1

将大熊猫数据帧的每一列与同一数据帧的其他每一列相乘的最有效方法

假设我有一个看起来像这样的数据集:INDEX ABC 1 1 1 0.75 2 1 1 1 3 1 0 0.35 4 0 0 1 5 1 1 0我想得到一个数据帧,......]

回答 2 投票 2

如何通过使用spark提交来提交pyspark作业?

我正在使用Spark 2.4.3版本。这个命令足以提交工作吗? spark-submit accum.py /home/karthi/accm.txt在哪里提交此命令?

回答 1 投票 0

在python中处理大型JSON数据

我的JSON(〜500mb)文件具有多个JSON objetc,实际上我只需要使用“ customer_id” colunm。当我执行以下代码时,它会给出内存错误。使用open('online_pageviews.json')作为f:...

回答 2 投票 1

[file.tsv使用pandas.read_csv()导入并使用.to_csv()导出到file.csv在行数上不匹配

我正在处理几个.tsv文件(大约有1000万行和20列)。我使用以下代码读取它并将其导出到.csv文件。以pd pathToTSV = r“ ./ file.tsv” ...

回答 1 投票 0

什么是监视和显示异步作业(如EMR和AWS胶水)的结果的最佳方法,这需要20-30分钟才能执行

我的程序需要花很长时间才能执行。现在,我想在完成后在我的UI中显示此作业的状态。我发现了两个解决此问题的方法:进行api调用...

回答 1 投票 -1

如何从Spark将数据发送到我的Angular8项目

我用于从MySQL数据库中获取数据的技术是Spark 2.4.4和Scala。我想在我的Angular8项目中显示该数据。有什么帮助吗?我找不到任何文档...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.