bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何运行查询配置单元并通过日志获取applicationID

我正在编写执行hive命令的shell脚本,将日志和输出信息写入两个单独的文件:hive -S -f pdr_extrator.sql 2> pdr_extrator_log.txt | sed的/ [\ t] / | / g'...

回答 1 投票 0


如何在HDFS节点之间拆分数据?

这里我假设我有一个由4个节点组成的集群,并且我的数据量为500GB。然后在具有默认块大小(64Mb)的Hadoop1中,如何将数据块也分配给该节点?

回答 1 投票 1


如何在节点中分割数据

这里我假设我有一个由4个节点组成的集群,并且我的数据量为500GB。然后在具有默认块大小(64Mb)的Hadoop1中,如何将数据块也分配给该节点?

回答 1 投票 1

如何将JSON文档转换为Parquet / ORC文件

是否可以将JSON转换为Parquet / ORC格式?我在HIVE 1中的以下步骤中将CSV / TSV数据转换为Parquet:使用TSV数据源和TSV Serde创建外部HIVE表。 2:...

回答 1 投票 0

当通过NFS处理GB大小的文件时,如何在Python中优化文件I / O?

由于安全方面的考虑,我正在通过nfs处理多个文件。由于文件I / O速度慢,这种情况很难处理。以下是对该问题的描述。我在...

回答 1 投票 0

如何存储科学大文件(显微镜)? [关闭]

这里是问题:在实验室中,会创建非常大的显微镜数据(每个文件从1GB到200GB)。我们将元数据以JSONS的形式存储在MongoDB中。但是我们找不到合适的本地/开放源代码...

回答 4 投票 -1

使用Java API从HDFS中绕过垃圾箱删除文件

我正在尝试使用Java删除HDFS文件。由于我的文件大小大于已配置的垃圾箱限制,因此我无法执行删除操作。以下是用于文件删除的代码段。我知道...

回答 1 投票 1

TB数据中最常见的单词

我遇到一个问题,我们必须找到一个TB的文件或字符串中最常见的10个单词。我想到的一种解决方案是使用哈希表(字,计数)和最大堆。 ...

回答 4 投票 4

如何配置集群或知道您的配置可以吗?

我有大量文件要处理。我需要在每个文件的一列上执行set_index。我读过set_index确实很昂贵,我们应该减少分区数。我有...

回答 1 投票 0

需要帮助在MongoDB中选择分片密钥

对于我的应用程序,我需要分片相当大的集合,整个集合将包含应用程序。 5000亿个文档。我有两个可能的字段可以用作分片密钥:对于...

回答 1 投票 0

Docker Hadoop:语法错误:替换错误起始datanode / namenodes

在Hadoop的docker文件上创建,我在docker文件中按照以下步骤操作:从alpine:3.8获取基本映像。设置Hadoop所有ENV变量。 wget from https://archive.apache.org/dist/hadoop/core / ...

回答 1 投票 -1

Hive Bucketing:唯一列值的数量大于存储桶数的数量

[在配置单元中,说我有一个拥有1000条记录的表员工,并且我正在处理主题列。主题列的总不同值是20,但我的存储桶总数是6。...

回答 2 投票 0


Class org.apache.spark.sql.hive.execution.HiveFileFormat $$ anon $ 1尝试将数据帧写入Hive本机实木复合地板表时未找到

Conf spark.conf.set('spark.sql.hive.convertMetastoreParquet',“ true”)配置单元表spark.sql(“创建表table_name(IP字符串,用户字符串)PARTITIONED BY(日期日期),按参数存储” )...

回答 1 投票 0

最佳数据库结构

我是数据爱好者,并为广为人知的手机游戏创建了可能的物品组合列表。有21.000.000组合(被逻辑过滤掉的无用组合)。所以我现在想做的是...

回答 1 投票 0

蜂房中排序依据与顺序的澄清

我正在阅读Hive手册下方,并被文档https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy上解释的细节所迷惑,首先它说Hive使用......]

回答 1 投票 1

Laravel:从Api(URL)获取大数据

[Hwllo,我正在尝试从api中获取15000个对象,我使用了guzzle和file_get_contents,但是这需要很长时间,有时页面无法完全加载。您能帮我解决这个问题吗?

回答 1 投票 0

用于R中非常大的数据集处理和机器学习的推荐软件包

似乎R确实是为处理可以完全拉入内存的数据集而设计的。建议在非常大的数据集上使用哪些R包进行信号处理和机器学习,这些数据集可以...

回答 5 投票 41

© www.soinside.com 2019 - 2024. All rights reserved.