bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

透视列大小为 50,000,输入文件大小为 17 TB

我在 aws s3 中有 parquet 文件,大小为 17 TB,具有以下架构,唯一 ID 值的大小为 50,000 : UUID,身份证号 需要将其转换为以下数据结构(基本透视): ...

回答 1 投票 0

HBase Shell - org.apache.hadoop.hbase.ipc.ServerNotRunningYetException:服务器尚未运行

我正在尝试在3个节点上设置分布式HBase。我已经设置了 hadoop、YARN ZooKeeper,现在还设置了 HBase,但是当我启动 hbase shell 并运行最简单的命令(例如状态或列表)时...

回答 3 投票 0

从大型 SpatRaster 堆栈中提取值时,使用 `terra::` 来避免 std::bad_alloc 错误

希望使用 terra:: 从大型光栅堆栈中提取值,并绕过我通过其他方式遇到的内存错误。 我正在使用的已发布代码(Mokany 等人,2022)是用...开发的。

回答 1 投票 0

从大型 SpatRaster 堆栈中提取值时,使用 `terra::` 来避免 Error std::bad_alloc 错误

希望使用 terra:: 从大型光栅堆栈中提取值,并绕过我通过其他方式遇到的内存错误。 我正在使用的已发布代码(Mokany 等人,2022)是用...开发的。

回答 1 投票 0

在较大的 SpatRaster 上使用 `terra::as.matrix` 时出现 std::bad_alloc 错误

我希望在一个较大的光栅堆栈(82兆)上运行terra::as.matrix。立即出现 std::bad_alloc 内存错误。我看到一些类似的发布问题(例如,#562 on the terra ...

回答 1 投票 0

Dynamodb 仅使用全局二级索引更新项目

我们可以仅使用全局二级索引更新dynamodb项目吗? $response = $dynamodbClient->updateItem(数组( '表名' => '提要', '键' => 数组( ...

回答 3 投票 0

Spark缓存和重新计算的场景问题

假设我有 10 GB 的源数据,我对其执行分组操作。 然后我只在 Spark 中将其缓存在内存中。显然,由于内存限制,某些分区无法保存...

回答 1 投票 0

大矩阵不适用于工人

我正在将一个大数据帧转换为一个big.matrix对象以启用并行处理(否则,数据帧太大并且我耗尽了RAM)。我的代码目前是这样的: df <- data.

回答 1 投票 0

CMIP6 如何在 R 中合并多个 .nc 文件

我要感谢大家花时间回答这个问题。我似乎无法找到如何在 R 中合并 2 个或更多 .nc 文件——这是在尝试了几天不同的解决方案之后,y...

回答 1 投票 0

Flink SQL Timestamp 到以毫秒为单位的时间 hh:mm:sss

如何在flink sql中将时间戳转换为hh:mm:sss格式?

回答 1 投票 0

CMIP6,按月自动化

提前感谢您的任何见解/帮助。我还在学习/R 新手。 我正在跨多个模型处理多个变量的 CMIP6 历史数据。理想情况下,我的基线是从 1850 -...

回答 1 投票 0

批量处理以减少时间

我正在尝试构建一个自动获取纬度和经度的函数。我的文件非常大,有超过 75k 行,仅 1k 行的处理时间大约需要 24 分钟。我正在尝试包括...

回答 1 投票 0

什么是暂存区以及如何在 SnowFlake 中创建表(使用暂存区的 csv 数据)

如何在暂存区加载csv文件并将文件加载到雪花表中。 我想将 csv 文件加载到雪花表中进行查询。告诉我所有类型的阶段及其优势。请解释一下...

回答 1 投票 0

JSON Schema 属性名称可以以整数开头吗?

JSON Schema 字段名称的书写有什么规则吗? 我有一个 JSON 模式,其字段名称用双引号引起来,并且以整数开头。 但同样的模式不被大数据所接受......

回答 1 投票 0

处理许多 25-80GB CSV 数据集(总计约 10TB)的最有效方法是什么?

这个问题是我上一篇文章的一个更基本的问题。 我想了解如何在拥有许多大型(25-80GB).csv 数据集的情况下最有效地处理数据...

回答 1 投票 0

Pentaho Data Integration (PDI) 9.4 Marketplace 缺失,现在如何安装插件?

我刚刚安装了 Pentaho Data Integration (PDI) 版本 9.4(社区版)。我正在按照本指南安装新插件。问题是我在“...

回答 3 投票 0

在 BigQuery 中按周细分的最佳方式

所以我想做的是创建一个报告,显示公司每周的销售额。 所以我们有一个名为“created”的时间字段,如下所示: 2016-04-06 20:58:06 世界标准时间 这...

回答 4 投票 0

Hadoop 上的大型图形处理

我正在开发一个项目,涉及在大图上进行随机行走(太大而无法放入内存)。我使用 networkx 在 Python 中对其进行了编码,但很快,该图变得太大而无法容纳在内存中,所以我重新...

回答 2 投票 0

Airflow - 根据条件停止 DAG(跳过分支后的剩余任务)

我是气流方面的新手,所以我在这里有疑问。 如果满足第一个任务的条件,我想运行 DAG。如果条件不满足,我想在第一个任务之后停止该任务。 例子: # ...

回答 2 投票 0

处理集合中的数百万条记录

我目前面临着拥有包含数百万个数据集的大型 xml 的问题。读取并反序列化它们之后(不需要太多时间),需要将数据写入数据库(

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.