bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

在数据库中存储深层目录树

我正在开发一个桌面应用程序,它很像 WinDirStat 或 voidtools 的 Everything - 它映射硬盘驱动器,即从目录树中创建一个深度嵌套的字典。 桌面

回答 1 投票 0

如何从minio正确读取zarr文件?

我想从我的minio(s3)服务器读取一个大zarr文件,但是,在我改变了三种方法后,它们都崩溃了: 将 Hydrodata.configs.config 导入为conf # 方法一 # https://pastebin.com/vkM1M3VV

回答 1 投票 0

启用 kerberos 时是否可以禁用 Hadoop 纱线 PTR 检查?

我们有一个hadoop集群,当前在公共IP上运行。我们想要将集群 IP 更改为私有 IP 地址。所以它不能从互联网路由。但主要问题是当...

回答 1 投票 0

循环遍历列列表并丰富数据集

我有一个数据集,我想迭代列列表并使用两个新列(状态和消息)丰富数据集。 如果任何行、任何列为空,则状态应设置为 F...

回答 1 投票 0

RDD.aggregate() 如何处理分区?

我是 Spark 的新手,并试图了解像reduce、aggregate 等函数是如何工作的。 在执行 RDD.aggregate() 时,我尝试将 ZeroValue 更改为身份以外的其他内容(0 表示

回答 1 投票 0

PySpark 与 SQLalchemy,哪个更适合处理大数据?

我有一个包含大量数据(200Gb+)的三角洲湖,我需要使用可以在 Python 中运行 SQL 的东西来清除它。我不想直接清除.parquet文件,我想直接工作...

回答 2 投票 0

如何正确优化Spark和Milvus来处理大数据?

我有一个包含 2 列的 Spark 数据框:id 和向量。 向量列是一个包含 20,000 个元素长的浮点数的列表。 Dataframe 本身有 2,500,000 行长。 我使用 Spark-Milvus 连接器插入...

回答 1 投票 0

将数据加载到具有不同分区的新 BigQuery 表中

我一直在尝试将 BigQuery 转储从每日分区表加载到每小时分区表,但遇到以下错误: 我创建了一个每小时分区的新表,因为我们发现

回答 1 投票 0

作为一名大数据工程师如何进步?[已关闭]

作为一名在电信数据公司工作2年的大数据工程师,我有Flink、Spark、Hive SQL、Shell脚本等方面的经验。我希望得到一些建议...

回答 1 投票 0

大数据表的版本控制

我正在数据湖的顶部构建一个冰山表。这些表用于报告工具。我正在尝试找出控制这些表的版本/部署更改的最佳方法......

回答 2 投票 0

SQL WHERE 子句不适用于数组

我目前使用名为 retool 的工具从我的 bigquery 实例查询数据。问题是相当多的字段名称使用数组,而我在使用数组过滤字段名称时遇到了一些问题......

回答 1 投票 0

元数据错误:org.apache.thrift.transport.TTransportException

这个错误是什么意思? “元数据错误:org.apache.thrift.transport.TTransportException?” 在什么情况下会出现此错误? 我在创建表时遇到此错误,为什么...

回答 2 投票 0

是否有测试或函数可以对大数据集进行多重比较?

我有一个包含 2304 个值的大数据集:384 个不同的基因表达值,一式三份,针对 2 个不同的组(即不同的治疗)。我只想比较 2 之间相同的基因

回答 1 投票 0

如何优化laravel上的大数据处理?

我的任务是: “获取交易表,按交易日期对行进行分组并计算状态。此操作将形成统计数据,并将在页面上呈现”。 这是我的方法...

回答 3 投票 0

如何计算一个巨大的 CSV 文件中两个命名列之间的差异,然后将结果保存到第二个 CSV 文件中?

我有一个包含近 2 亿行(GB 数据)的 CSV 文件。它只有 5 列。我想迭代数据并进行简单的计算,首先在列之间,然后在...之间

回答 1 投票 0

有没有办法从Java中的InputStream读取镶木地板文件?

我正在尝试从S3读取镶木地板记录,S3通常返回一个输入流,我想从中检索数据。我使用 java ,我不想使用 Spark 的内置阅读器。有没有...

回答 1 投票 0

如何从docker容器访问本地系统文件?

我正在码头工人终端上工作。我想从 docker 终端访问本地文件。有办法做到吗?提前致谢。 编辑:我有大量文件要访问 我尝试加载...

回答 1 投票 0

对 terra 中非常大的栅格进行操作会导致 std::bad_alloc

我有一个很大的光栅,我不明白如何处理它。我的假设是我可以将其切成块,制作一个 vrt,然后处理 vrt 以获得答案。但事实并非如此(至少不是

回答 1 投票 0

有没有办法将Microsoft sql中的数据直接读取到cudf(GPU的RAM)中?

我通过互联网搜索了这个,但找不到任何代码。我想到的是首先将数据加载到 Pandas(Ram)中,然后将其加载到 Cudf(GPU 的 ram)中。 导入CUDF 从 sqlalchemy 导入

回答 1 投票 0

Cassandra 分页

我在 Cassandra 中有一张表,有 100 万条记录。我想一次获取100条记录,所以如果我获取前100条,那么下一次获取应该从第101项开始。我如何获取这种pagi...

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.