bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

如何运行查询配置单元并通过日志获取applicationID

我正在编写执行hive命令的shell脚本，将日志和输出信息写入两个单独的文件：hive -S -f pdr_extrator.sql 2> pdr_extrator_log.txt | sed的/ [\ t] / | / g'...

hadoop hive bigdata apache-tez

回答 1 投票 0

具有意外相似重复的Postgres用户表导致另一个表具有混乱的外键，如何修复和合并外键？

sql postgresql duplicates bigdata

回答 1 投票 0

如何在HDFS节点之间拆分数据？

这里我假设我有一个由4个节点组成的集群，并且我的数据量为500GB。然后在具有默认块大小（64Mb）的Hadoop1中，如何将数据块也分配给该节点？

hadoop hdfs bigdata

回答 1 投票 1

我可以使用哪些AWS服务和工作流从API提取和分析JSON日常使用数据？

amazon-web-services automation bigdata analytics data-science

回答 2 投票 0

如何在节点中分割数据

这里我假设我有一个由4个节点组成的集群，并且我的数据量为500GB。然后在具有默认块大小（64Mb）的Hadoop1中，如何将数据块也分配给该节点？

hadoop bigdata hadoop2

回答 1 投票 1

如何将JSON文档转换为Parquet / ORC文件

是否可以将JSON转换为Parquet / ORC格式？我在HIVE 1中的以下步骤中将CSV / TSV数据转换为Parquet：使用TSV数据源和TSV Serde创建外部HIVE表。 2：...

database bigdata parquet orc

回答 1 投票 0

当通过NFS处理GB大小的文件时，如何在Python中优化文件I / O？

由于安全方面的考虑，我正在通过nfs处理多个文件。由于文件I / O速度慢，这种情况很难处理。以下是对该问题的描述。我在...

python pandas bigdata nfs

回答 1 投票 0

如何存储科学大文件（显微镜）？ [关闭]

这里是问题：在实验室中，会创建非常大的显微镜数据（每个文件从1GB到200GB）。我们将元数据以JSONS的形式存储在MongoDB中。但是我们找不到合适的本地/开放源代码...

python bigdata blob storage openstack

回答 4 投票 -1

使用Java API从HDFS中绕过垃圾箱删除文件

我正在尝试使用Java删除HDFS文件。由于我的文件大小大于已配置的垃圾箱限制，因此我无法执行删除操作。以下是用于文件删除的代码段。我知道...

java hadoop hdfs bigdata

回答 1 投票 1

TB数据中最常见的单词

我遇到一个问题，我们必须找到一个TB的文件或字符串中最常见的10个单词。我想到的一种解决方案是使用哈希表（字，计数）和最大堆。 ...

algorithm bigdata

回答 4 投票 4

如何配置集群或知道您的配置可以吗？

我有大量文件要处理。我需要在每个文件的一列上执行set_index。我读过set_index确实很昂贵，我们应该减少分区数。我有...

python bigdata dask data-processing

回答 1 投票 0

需要帮助在MongoDB中选择分片密钥

对于我的应用程序，我需要分片相当大的集合，整个集合将包含应用程序。 5000亿个文档。我有两个可能的字段可以用作分片密钥：对于...

mongodb bigdata sharding

回答 1 投票 0

Docker Hadoop：语法错误：替换错误起始datanode / namenodes

在Hadoop的docker文件上创建，我在docker文件中按照以下步骤操作：从alpine：3.8获取基本映像。设置Hadoop所有ENV变量。 wget from https：//archive.apache.org/dist/hadoop/core / ...

docker hadoop bigdata devops

回答 1 投票 -1

Hive Bucketing：唯一列值的数量大于存储桶数的数量

[在配置单元中，说我有一个拥有1000条记录的表员工，并且我正在处理主题列。主题列的总不同值是20，但我的存储桶总数是6。...

hive bigdata hiveql hadoop-partitioning

回答 2 投票 0

如何将十亿行spark数据框转换为pandas数据框？ [关闭]

python pandas apache-spark bigdata user-defined-functions

回答 1 投票 -6

Class org.apache.spark.sql.hive.execution.HiveFileFormat $$ anon $ 1尝试将数据帧写入Hive本机实木复合地板表时未找到

Conf spark.conf.set（'spark.sql.hive.convertMetastoreParquet'，“ true”）配置单元表spark.sql（“创建表table_name（IP字符串，用户字符串）PARTITIONED BY（日期日期），按参数存储” ）...

apache-spark pyspark hive bigdata

回答 1 投票 0

最佳数据库结构

我是数据爱好者，并为广为人知的手机游戏创建了可能的物品组合列表。有21.000.000组合（被逻辑过滤掉的无用组合）。所以我现在想做的是...

mysql database database-design mariadb bigdata

回答 1 投票 0

蜂房中排序依据与顺序的澄清

我正在阅读Hive手册下方，并被文档https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy上解释的细节所迷惑，首先它说Hive使用......]

hive bigdata hiveql

回答 1 投票 1

Laravel：从Api（URL）获取大数据

[Hwllo，我正在尝试从api中获取15000个对象，我使用了guzzle和file_get_contents，但是这需要很长时间，有时页面无法完全加载。您能帮我解决这个问题吗？

laravel api bigdata

回答 1 投票 0

用于R中非常大的数据集处理和机器学习的推荐软件包

似乎R确实是为处理可以完全拉入内存的数据集而设计的。建议在非常大的数据集上使用哪些R包进行信号处理和机器学习，这些数据集可以...

r machine-learning signal-processing bigdata

回答 5 投票 41

bigdata 相关问题

最新问题